Nazývá se speciální značkovací jazyk pro textové dokumenty. HTML dokument značkovací jazyk. Logické a vizuální značení

značkovací jazyky) je sada speciálních instrukcí, nazývaných tagy, navržených k vytvoření struktury v dokumentech a definování vztahů mezi různými prvky této struktury. Jinými slovy, označení ukazuje, která část dokumentu je název, která podtitul, co je třeba považovat za jméno autora atd. Označení se dělí na označení stylistické, strukturální a sémantické. Stylistické označení

Stylistické označení je zodpovědné za vzhled dokumentu. Například v HTML tento typ označení zahrnuje značky jako např (kurzíva), (tučné), (podtržení), (přeškrtnutý text) atd.

Strukturální značení

Strukturální označení definuje strukturu dokumentu. V HTML jsou za tento typ označení zodpovědné například značky (odstavec), (nadpis), (sekce) atd.

Sémantické označení

Sémantické značení informuje o obsahu dat. Příklady tohoto typu označení jsou značky (název dokumentu), (kód, používaný pro výpisy kódů), (proměnná), (adresa autora).

Základními pojmy jakéhokoli značkovacího jazyka jsou značky, prvky a atributy.

Tagy a prvky.

Významy značek a prvků jsou často zaměňovány.

Tagy nebo deskriptory ovládacích prvků, jak se jim také říká, slouží jako instrukce pro program, který zobrazuje obsah dokumentu na straně klienta, co dělat s obsahem tagu. Pro zvýraznění tagu vzhledem k hlavnímu obsahu dokumentu se používají lomené závorky: tag začíná znakem menší než (), uvnitř kterého je umístěn název instrukcí a jejich parametry. Například v HTML značka označuje, že následující text by měl být kurzívou.

Elementem jsou tagy spolu s jejich obsahem. Následující konstrukce je příkladem prvku:

Tento text je psán kurzívou .

Prvek se skládá z úvodní značky (v našem příkladu je to značka ), obsah tagu (v příkladu je to text „Toto je text psaný kurzívou“) a uzavírací tag(), i když někdy v HTML lze uzavírací značku vynechat.

Atributy

Aby bylo možné nastavit jakékoli parametry, které objasňují vlastnosti tohoto prvku při definování prvku, používají se atributy.

Atributy se skládají z páru název = hodnota, který lze zadat při definování prvku v počáteční značce. Nalevo a napravo od symbolu rovná se můžete nechat mezery. Hodnota atributu je určena jako řetězec uzavřený v jednoduchých nebo dvojitých uvozovkách.

Jakákoli značka může mít atribut, pokud je tento atribut definován.

Při použití atributu má prvek následující podobu:

obsah značky

Text je zarovnán na střed

Jedna úvodní značka může obsahovat více atributů, například:

Zadaná velikost a barva textu

Historie vývoje značkovacích jazyků.

Koncept hypertextu zavedl W. Bush v roce 1945 a od 60. let se začaly objevovat první aplikace využívající hypertextová data. Tato technologie však dosáhla svého hlavního rozvoje, když vznikla skutečná potřeba mechanismu pro kombinování více informačních zdrojů, který by umožňoval vytvářet a prohlížet nelineární text.

V roce 1986 ISO schválila Standardized Generalized Markup Language. Tento jazyk je určen pro tvorbu dalších značkovacích jazyků, definuje platnou sadu značek, jejich atributy a vnitřní strukturu dokumentu. Je tedy možné vytvářet vlastní značky související s obsahem dokumentu. Nyní je zřejmé, že takové dokumenty je obtížné interpretovat bez definice značkovacího jazyka, která je uložena v definici typu dokumentu (DTD). DTD seskupuje všechna pravidla jazyka ve standardu SGML. Jinými slovy, DTD popisuje vzájemný vztah značek a pravidla pro jejich použití. Navíc je pro každou třídu dokumentů definována vlastní sada pravidel, která popisují gramatiku odpovídajícího značkovacího jazyka. Pouze s pomocí DTD lze tedy ověřit správné použití tagů, a proto musí být zaslány spolu s dokumentem SGML nebo součástí dokumentu.

V té době kromě SGML existovalo několik dalších podobných jazyků, které spolu soupeřily, ale popularita (HTML, což je jeden z jeho potomků) dávala SGML nepopiratelnou výhodu oproti svým protějškům.

Pomocí SGML můžete popsat strukturovaná data, organizovat informace obsažené v dokumentech a prezentovat tyto informace v nějakém standardizovaném formátu. Ale kvůli své složitosti se SGML používal především k popisu syntaxe jiných jazyků a jen málo aplikací pracovalo s dokumenty SGML přímo. SGML se obvykle používá pouze ve velkých projektech, například pro vytvoření jednotného systému správy dokumentů pro velkou společnost.

HTML značkovací jazyk je mnohem jednodušší a pohodlnější než SGML, jeho instrukce jsou primárně určeny pro řízení procesu zobrazování obsahu dokumentu na obrazovce. HTML jako způsob označování technických dokumentů vytvořil Tim Berners-Lee v roce 1991 speciálně pro vědeckou komunitu. Původně to byla jen jedna z aplikací SGML.

Přestože HTML umí pouze klasifikovat části dokumentu a zajistit jeho správné zobrazení v prohlížeči, jedná se o nejoblíbenější značkovací jazyk. Je to proto, že HTML je docela snadné se naučit. Jediné, co musíte udělat, je naučit se HTML příkazy. DTD pro HTML je uložen v prohlížeči. Kromě toho je třeba poznamenat, že HTML je navrženo tak, aby fungovalo na široké škále platforem. Má však řadu významných omezení:

  • HTML má pevnou sadu značek a tuto sadu nelze rozšířit ani změnit;
  • Značky jazyka HTML ukazují pouze to, jak mají být data prezentována, tedy vzhled dokumentu. HTML nenese informace o významu obsahu obsaženého ve značkách ani o struktuře dokumentu.
  • Začátkem února 1998 schválila mezinárodní organizace W3C specifikaci XML (Extensible Markup Language) 1.0, což znamenalo začátek vývoje mnoha nových značkovacích jazyků pro přenos informací přes internet na základě standardu XML. V podstatě to znamenalo nový krok ve vývoji hypertextových značkovacích jazyků. XML za čtyři roky své existence přitáhlo nejen poměrně velkou pozornost jak běžných uživatelů, tak mnoha webdesignérů, ale stalo se také nedílnou součástí internetu. Dnes prakticky neexistují servery, které by tuto technologii v té či oné míře nepoužívaly jako analog HTML. Stále je však přinejmenším předčasné tvrdit, že XML se nyní stává hlavní metodou přenosu hypertextu po globální síti. Samotný jazyk je stále poměrně mladý a některé jeho prvky jsou stále ve vývoji. Zatím byl vytvořen pouze obecný rámec toho, co snad HTML v budoucnu nahradí, ale v jaké konkrétní podobě to bude, zatím nelze říci.

    Od začátku

    V listopadu 1990, kdy uživatelé internetu poprvé slyšeli o nové technologii, jejíž název se snadno vešel do pouhých tří písmen, si téměř nikdo nedokázal představit, že uplyne velmi málo času a tato technologie se stane prakticky jediným způsobem přenosu informací na globální síť. Dnes je pro mnoho nezkušených uživatelů slovo Internet silně spojeno s WWW, i když ve skutečnosti spolu tyto věci samozřejmě souvisí, ale přece jen trochu jinak.

    Celkově vzato to byla neuvěřitelná popularita World Wide Web a jeho nedílné součásti, HTML, která se jistě stala důvodem extrémně zvýšené pozornosti věnované strukturám hypertextového značení dokumentů.

    Pojem hypertext byl poprvé představen V. Bushem již v roce 1945. Reálné aplikace využívající takovéto datové struktury se však začaly používat až od 60. let a skutečně mimořádný rozmach aktivity kolem této technologie začal až tehdy, kdy byla skutečná potřeba mechanismu pro kombinování více informačních zdrojů, poskytujících možnost vytvářet a zobrazit nelineární text. A příkladem implementace tohoto mechanismu byl úplně stejný WWW.

    Samotný značkovací jazyk dokumentů je sada speciálních instrukcí zvaných tagy (v některých přeložených publikacích se tagům říká zkratky), určených k vytvoření struktury v dokumentech a definování vztahů mezi různými prvky této struktury. Značky značkovacího jazyka nebo deskriptory ovládacích prvků, jak se jim někdy říká, jsou v takových dokumentech zakódovány velmi specifickým způsobem, alokovány relativně k hlavnímu obsahu dokumentu a poté slouží jako instrukce pro program, který interpretuje a zobrazuje obsah dokumentu. dokument, ve skutečnosti osobě, které je prohlížen, pokud se pokusíte najít analogie s internetem, pak je tento někdo klientem a překladatelským programem je v nejběžnějším případě prohlížeč). Již v prvních systémech bylo rozhodnuto používat k označení těchto příkazů symboly „“, uvnitř kterých byly umístěny názvy instrukcí a jejich parametry. Dnes je tento způsob pojmenování štítků všeobecně uznávaným standardem.

    Samotné použití hypertextového členění textového dokumentu v moderních informačních systémech je z velké části dáno tím, že hypertext umožňuje vytvořit mechanismus pro tzv. nelineární prohlížení informací. To znamená, že v systémech nejsou data prezentována jako souvislý proud textových struktur, ale jako soubor vzájemně propojených komponent, ve kterých se naviguje pomocí hypertextových odkazů.

    Nejpopulárnější a nejznámější hypertextový značkovací jazyk současnosti HTML byl vytvořen speciálně pro strukturování a přenos informací umístěných na internetu a je nepochybně klíčovou součástí technologie WWW. S využitím modelu hypertextového dokumentu se způsob prezentace různých informačních zdrojů na síti stal uspořádanějším a uživatelé získali pohodlný mechanismus pro vyhledávání a prohlížení potřebných informací. Za první znak v této věci je však stále považován mnohem starší jazyk – SGML.

    SGML (Standard Generalized Markup Language) byl oficiálně přijat v roce 1986 jako mezinárodní standard (ISO 8879:1986) pro popis metod nezávislých na vstupních/výstupních zařízeních a prostředí pro reprezentaci textových informací v elektronické podobě. Základem pro jeho vytvoření byl poměrně starý značkovací jazyk GML (Generalized Markup Language), vyvinutý společností IBM ještě v dobách prvních osobních počítačů. Abychom byli přesní, SGML je metajazyk určený k popisu jiných značkovacích jazyků.

    Původně se slovo značkování obvykle používalo k popisu anotací nebo jiných značek v textu, které byly určeny k tomu, aby instruovaly pisatele dokumentu nebo „designéra rozvržení“, jak se tomu někdy říká, přesně jak by měla být konkrétní pasáž napsána. Tyto metody mohou zahrnovat klikaté podtržení pro označení kurzívy, některé speciální ikony pro přeskočení určitých frází nebo jejich vytištění specifickým písmem a tak dále. Jak se formátování a tisk postupem času zautomatizovaly, tento termín zahrnoval všechny druhy speciálních značkovacích kódů, které byly vkládány do elektronických textových dokumentů pro řízení formátování, tisku nebo jiného zpracování.

    Značkovací jazyk tedy odkazuje na sadu konvencí formátování, které se používají ke kódování bloků textu. Značkovací jazyk musí jasně uvádět, jaké označení je v daném dokumentu přijatelné, jaké označení je požadováno, jak odlišit jeho prvky od prostého textu a co označení znamená. SGML dokázal vyřešit první tři problémy, řešení posledního vyžadovalo přítomnost neformálního popisu.

    SGML, na rozdíl od všech ostatních značkovacích jazyků vytvořených na jeho základě, používá místo procedurálního značkování princip takzvaného popisného značkování. Takový systém používá značkovací prvky, které jednoduše poskytují názvy pro přiřazení jednotlivých částí dokumentu do určitých kategorií. Jinými slovy, tagy jako Or \end(list) jednoduše identifikují část dokumentu a uvádějí, že „tato část je odstavec“ nebo že „tato část je konec počátečního seznamu“ atd. Systém, který používá procedurální značkování (sem patří textové procesory, například Microsoft Word), určuje, jaké zpracování bude provedeno v konkrétním bodě textového dokumentu: „na tomto místě zavolejte takovou a takovou proceduru s parametry 5, e a z“ nebo „posunout okraj dokumentu o 7 mm doprava vzhledem k libovolnému prvku, přeskočit jeden řádek, začít další od červené čáry atd. V SGML jsou instrukce, které jsou potřebné ke zpracování dokumentu pro nějaký konkrétní účel (například formátování), jasně odděleny od popisného označení, které se vyskytuje v dokumentu. Obvykle se shromažďují mimo dokument v samostatných postupech nebo programech.

    Použitím popisného spíše než procedurálního označení může být stejný dokument zpracován různými programy, z nichž každý může použít své vlastní instrukce pro zpracování na ty jeho části, které považuje za důležité. Například program pro analýzu obsahu může poznámky pod čarou zcela ignorovat, zatímco formátovací program je může extrahovat a sestavit pro tisk na konci každé části. Různé druhy instrukcí pro zpracování mohou být spojeny se stejnou částí souboru. Jeden program může například extrahovat jména lidí a názvy míst z dokumentu za účelem vytvoření rejstříku nebo databáze, zatímco jiný program zpracovávající stejný text může vytisknout jména v jiném písmu.

    SGML také zavádí koncept typu dokumentu, a tedy způsoby jeho definování (definice typu dokumentu, DTD). Dokumenty jsou považovány za psané, stejně jako jiné počítačem zpracované objekty. Typ dokumentu je formálně určen jeho součástmi a jejich strukturou. Například lze definovat typ dokumentu tak, že se skládá z názvu a možná jména autora, za nímž následuje abstrakt a sekvence jednoho nebo více odstavců. Jakýkoli dokument, který nemá název, podle této formální definice nebude zprávou, o nic víc než posloupností odstavců, za nimiž následuje abstrakt, bez ohledu na to, jak může být dokument podobný zprávě z pohledu člověka. čtenář..

    Protože dokumenty jsou známého typu, můžete použít speciální program zvaný parser ke zpracování dokumentu, který tvrdí, že je určitého typu, a zkontrolovat, zda jsou přítomny a nalezeny všechny prvky požadované pro tento typ dokumentu. ve správném pořadí a správně strukturovaný. Ještě důležitější je, že různé dokumenty stejného typu mohou být zpracovány jednotným způsobem. Je možné psát programy, které využívají znalosti obsažené v informační struktuře dokumentu, který tak může být inteligentnější.

    SGML jako metajazyk umožňuje definici konkrétních jazyků (často nazývaných „aplikace SGML“), které cílí na konkrétní aplikace. Příkladem toho je jazyk HTML, široce používaný na WWW. Každý takový jazyk je popsán ve formě DTD, definující prvky a jejich atributy. Jakmile dostane takové DTD, může software SGML správně zpracovat dokumenty napsané podle tohoto DTD.

    I v projektu byl tento jazyk koncipován speciálně pro implementaci modelu přenosu informací do globální sítě, kterou nyní máme. Jinými slovy, HTML je produktem internetu. I když ve skutečnosti je HTML zjednodušenou verzí standardního zobecněného značkovacího jazyka - SGML (Standard Generalized Markup Language), který byl ISO schválen jako standard již v 80. letech minulého století. STGML není jazyk ve své čisté podobě, ale spíše soubor nějakých pravidel a popisů pro tvorbu dalších jazyků, definuje platnou sadu tagů, jejich atributy a vnitřní strukturu dokumentu. Kontrola správného použití deskriptorů se provádí pomocí speciální sady pravidel nazývaných popisy DTD, které používá klientský interpretační program při analýze dokumentu. Pro každou třídu dokumentů je definována vlastní sada pravidel, která popisují gramatiku odpovídajícího značkovacího jazyka. Pomocí SGML můžete uspořádat informace obsažené v dokumentech, popsat strukturovaná data a prezentovat tyto informace v nějakém standardizovaném formátu pro následné použití. Kvůli určité složitosti se však SGML používal hlavně k popisu syntaxe jiných jazyků (nejznámější z nich je HTML) a jen málo aplikací pracovalo s dokumenty SGML přímo.

    HTML je mnohem pohodlnější a snadněji použitelný jazyk než SGML. Neumožňuje, aby na jeho základě byly definovány další jazyky. Použití HTML zahrnuje označení dokumentu podle standardu, který je definován poměrně omezenou sadou instrukcí nebo značek. Tyto instrukce mají především řídit proces zobrazování obsahu dokumentu na obrazovce klientského programu a tím určovat způsob prezentace dokumentu, nikoli však jeho celkovou strukturu. Ve většině případů jsou data HTML reprezentována v prostém textovém souboru, který lze snadno přenášet po síti pomocí protokolu http.

    Jak však čas pokračuje a klade stále přísnější požadavky na populární technologie, moderní aplikace potřebují nejen jazyk pro prezentaci dat na obrazovce klienta, ale také mechanismus, který umožňuje určit strukturu dokumentu a popsat prvky, které obsahuje. . HTML má jednoduchou sadu příkazů a docela úspěšně se vyrovnává s úkolem popsat textové informace a zobrazit je na obrazovce prohlížecího programu - prohlížeče. Zobrazená data však sama o sobě nijak nesouvisí se značkami, které se používají pro formátování, takže programy pro analýzu nemají možnost používat značky HTML k nalezení fragmentů dokumentu, které potřebujeme. Tito. že se s takovým popisem setkal například

    růže

    Prohlížeč bude vědět, jakou barvu má zobrazit text obsažený ve značkách a s největší pravděpodobností jej zobrazí správně, ale je zcela lhostejné, kde v dokumentu se tato značka nachází, v jakých dalších značkách je aktuální fragment uzavřen, zda jsou v něm vnořené fragmenty, zda jsou vztahy mezi objekty konstruovány správně. Tato „lhostejnost“ ke struktuře dokumentu vede k tomu, že vyhledávání nebo analýza informací v něm se nebude lišit od práce se souvislým textovým souborem, který není rozdělen na prvky. A to, jak víte, není nejefektivnější způsob práce s informacemi.

    Další významnou nevýhodou samotného nápadu, implementovaného v HTML, je omezená sada jeho značek. Pravidla DTD pro HTML definují pevnou sadu deskriptorů, a proto vývojář nemá možnost zadávat vlastní, speciální značky. Přestože se čas od času objevují nová jazyková rozšíření (dnes je nejnovější verzí HTML HTML 4.0), dlouhá cesta k jejich standardizaci, doprovázená neustálými neshodami mezi hlavními výrobci prohlížečů, téměř znemožňuje rychlé přizpůsobení jazyka, jeho používání pro zobrazování specializovaných informací (například multimediálních, matematických, chemických vzorců atd.).

    Shrneme-li vše, co bylo řečeno, lze tvrdit, že HTML dnes plně nesplňuje požadavky kladené moderními vývojáři na jazyky tohoto druhu. A jako jeho náhrada byl navržen nový hypertextový značkovací jazyk: výkonný, flexibilní a zároveň pohodlný jazyk XML.

    XML (Extensible Markup Language) je značkovací jazyk, který popisuje celou třídu datových objektů nazývaných dokumenty XML. Tento jazyk se používá jako prostředek k popisu gramatiky jiných jazyků a ke kontrole správnosti dokumentů. Tito. Samotné XML neobsahuje žádné značky určené pro značkování, pouze definuje pořadí, ve kterém jsou vytvářeny. Pokud si tedy například myslíme, že potřebujeme použít značku k reprezentaci prvku růže v dokumentu, pak nám XML umožňuje volně používat značku, kterou definujeme, a do dokumentu můžeme zahrnout úryvky, jako jsou následující:

    růže

    Sadu štítků lze snadno rozšířit. Pokud, dejme tomu, chceme také naznačit, že popis květiny by měl smysluplně jít do popisu skleníku, ve kterém kvete, pak jednoduše nastavíme nové značky a zvolíme pořadí, v jakém se objeví:

    růže

    Pokud tam chceme zasadit několik dalších květin, musíme provést následující změny:

    růže

    tulipán

    kaktus

    Jak vidíte, proces vytváření dokumentu XML je velmi jednoduchý a vyžaduje pouze základní znalosti HTML a porozumění úkolům, které chceme provádět pomocí XML jako značkovacího jazyka. To dává vývojářům jedinečnou možnost definovat vlastní příkazy, které jim umožní nejefektivněji definovat data obsažená v dokumentu. Autor dokumentu vytvoří jeho strukturu, vytvoří potřebná spojení mezi prvky pomocí těch příkazů, které splňují jeho požadavky, a dosáhne typu označení, které potřebuje k provádění operací prohlížení, vyhledávání a analýzy dokumentu.

    Další zjevnou výhodou XML je možnost použít jej jako univerzální dotazovací jazyk pro úložiště informací. Dnes se v hlubinách W3C uvažuje o pracovní verzi standardu XML-QL (případně XQL), který se může v budoucnu stát vážnou konkurencí SQL. Kromě toho mohou dokumenty XML fungovat jako jedinečný způsob ukládání dat, který zahrnuje jak prostředky pro analýzu informací, tak jejich prezentaci na straně klienta. V této oblasti je jednou z perspektivních oblastí integrace technologií Java a XML, která umožňuje využít sílu obou technologií při budování strojově nezávislých aplikací využívajících i univerzální datový formát pro výměnu informací.

    XML také umožňuje kontrolovat správnost dat uložených v dokumentech, kontrolovat hierarchické vztahy v rámci dokumentu a stanovit jednotný standard pro strukturu dokumentů, jejichž obsahem mohou být nejrůznější data. To znamená, že jej lze použít při budování komplexních informačních systémů, ve kterých je velmi důležitá otázka výměny informací mezi různými aplikacemi běžícími ve stejném systému. Vytvořením struktury pro mechanismus výměny informací na samém začátku práce na projektu se manažer může v budoucnu ušetřit mnoha problémů spojených s nekompatibilitou datových formátů používaných různými komponentami systému.

    Jednou z výhod XML je také to, že programy pro zpracování dokumentů XML jsou jednoduché a dnes jsou volně distribuovány všechny druhy softwarových produktů navržených pro práci s dokumenty XML. XML je dnes podporováno ve všech prohlížečích rodiny Microsoft Internet Explorer, počínaje verzí 4.0. Bylo oznámeno, že bude podporován v následujících verzích aplikací Netscape Communicator, Oracle DBMS, DB-2 a MS-Office. To vše dává důvod předpokládat, že se s největší pravděpodobností v blízké budoucnosti stane XML hlavním jazykem pro výměnu informací pro informační systémy, čímž nahradí HTML. Známé specializované značkovací jazyky jako SMIL, CDF, MathML, XSL již byly vytvořeny na bázi XML a seznam pracovních návrhů nových jazyků zvažovaných W3C neustále roste.

    Jak vypadá XML dokument?

    Pokud jste obeznámeni s HTML, učení XML nebude z vaší strany vyžadovat mnoho úsilí. Ačkoli se XML ve svých schopnostech a záměru jistě velmi liší od jazyka HyperText Markup Language, oba jazyky jsou podmnožinou SGML, a proto přebírají jeho základní principy.

    Struktura dokumentu

    Jednoduchý dokument XML může vypadat jako příklad 1

    První

    Druhý pododstavec 1

    Třetí

    Poslední

    Upozorňujeme, že tento dokument je velmi podobný běžné HTML stránce. Stejně jako v HTML se instrukce uzavřené v lomených závorkách nazývají tagy a slouží k označení těla dokumentu. V XML existují otevírací, uzavírací a prázdné značky (v HTML také existuje koncept prázdné značky, ale není potřeba žádné speciální označení).

    Tělo dokumentu XML se skládá ze značkovacích prvků a vlastního obsahu dokumentu – dat (obsahu). XML tagy jsou navrženy tak, aby definovaly prvky dokumentu, jejich atributy a další jazykové konstrukce. O typech značek používaných v dokumentech si povíme podrobněji o něco později.

    Jakýkoli dokument XML musí vždy začínat instrukcí, uvnitř které můžete také zadat číslo jazykové verze, číslo kódové stránky a další parametry potřebné k tomu, aby program parser analyzoval dokument.

    Pravidla pro tvorbu XML dokumentu

    Obecně musí dokumenty XML splňovat následující požadavky:

    Hlavička dokumentu obsahuje deklaraci XML, která určuje značkovací jazyk dokumentu, číslo verze a další informace.

    Každý úvodní tag, který definuje nějakou datovou oblast v dokumentu, musí mít svého uzavíracího „partnera“, tj. na rozdíl od HTML nelze uzavírací tagy vynechat.

    XML rozlišuje velká a malá písmena.

    Všechny hodnoty atributů použité v definicích značek musí být uzavřeny v uvozovkách.

    Vnořování tagů do XML je přísně kontrolováno, proto je nutné hlídat pořadí otevírání a zavírání tagů.

    Všechny informace mezi počáteční a koncovou značkou jsou v XML považovány za data, a proto jsou brány v úvahu všechny formátovací znaky (tj. mezery, konce řádků, tabulátory nejsou ignorovány jako v HTML).

    Pokud XML dokument neporušuje výše uvedená pravidla, pak se nazývá formálně správný a všechny analyzátory určené k analýze XML dokumentů s ním budou umět správně pracovat.

    Kromě kontroly formálního souladu s gramatikou jazyka však může dokument obsahovat prostředky kontroly nad obsahem dokumentu, nad dodržováním pravidel, která určují nezbytné vztahy mezi prvky a tvoří strukturu dokumentu. Například následující text, ačkoli je dokonale platným dokumentem XML, bude zcela bezvýznamný:

    Rusko Novosibirsk

    Aby byla zajištěna kontrola správnosti XML dokumentů, je nutné používat analyzátory, které tuto kontrolu provádějí a nazývají se verifikátory.

    Dnes existují dva hlavní způsoby kontroly správnosti XML dokumentu: definice DTD (Document Type Definition) a datová schémata (Semantic Schema). O použití DTD a schémat si povíme více příště. Na rozdíl od SGML není definování pravidel DTD v XML nutné a tato okolnost nám umožňuje vytvářet jakékoli dokumenty XML, aniž bychom si museli lámat hlavu nad poměrně komplikovanou syntaxí DTD.

    Základní princip

    Element je základní strukturní jednotkou XML dokumentu. Uzavřením slova růže do značek definujeme neprázdný prvek s názvem , jehož obsahem je růže. V obecném případě může být obsahem prvků jednoduše nějaký text, nebo jiné vnořené prvky dokumentu, sekce CDATA, pokyny pro zpracování, komentáře, tzn. téměř jakákoli část XML dokumentu.

    Jakýkoli neprázdný prvek se musí skládat z počáteční značky, koncové značky a dat mezi nimi uzavřených.

    Množina všech prvků obsažených v dokumentu definuje jeho strukturu a určuje všechny hierarchické vztahy. Plochý datový model se pomocí prvků transformuje na komplexní hierarchický systém s mnoha možnými vztahy mezi prvky.

    Při následném vyhledávání dokumentu se klientský program bude spoléhat na informace vložené do jeho struktury – pomocí prvků dokumentu. Tito. pokud například chcete najít správnou univerzitu ve správném městě, budete si muset prohlédnout obsah konkrétního prvku umístěného uvnitř konkrétního prvku. Hledání v tomto případě bude přirozeně mnohem efektivnější než hledání požadované sekvence v celém dokumentu.

    V dokumentu XML je zpravidla definován alespoň jeden prvek, který se nazývá kořen, a analyzátory začnou skenovat dokument z tohoto prvku. Ve výše uvedeném příkladu je tento prvek .

    V některých případech mohou tagy změnit a objasnit sémantiku určitých fragmentů dokumentu, definovat stejné informace různými způsoby, a tím poskytnout aplikaci, která tento dokument analyzuje, informace o kontextu použití popsaných dat. Například po přečtení fragmentu Holliwood můžeme hádat, že tato část dokumentu je o městě, ale ve fragmentu Holliwood je to o hostinci.

    Závěr

    Jazyk HTML pro formátování webových stránek byl původně představen jako aplikace SGML. Později, s rychlým rozvojem WWW, se HTML začalo všemožně rozšiřovat, aby dalo autorovi větší kontrolu nad vnější prezentací informací. Nové prvky a atributy, jako je nebo , zaměřené na vizuální formátování. Objevily se a začaly se aktivně používat nástroje, které nejsou součástí samotného značkovacího jazyka: imagemaps, Java a JavaScript, pluginy atd. Existuje také mnoho prvků HTML, které jsou podporovány pouze některými prohlížeči nebo které v různých prohlížečích fungují odlišně. Proto je nyní obtížné říci, zda HTML je aplikace SGML nebo ne. Velmi málo stránek je vytvořeno podle specifikací HTML a odpovídajících DTD.

    Tento problém je částečně zamýšlen ke zmírnění kaskádových stylů, jejichž standard byl přijat konsorciem W3. CSS1 odděluje styl, který definuje vizuální vzhled prvků, od označení prvku.

    Velmi zajímavý je jazyk XML, který má nahradit HTML jako značkovací jazyk pro webové stránky. Jedná se o variantu SGML, zaměřenou především na použití na WWW. Nevyžaduje DTD a samotný jazyk je zjednodušený díky zřídka používaným složitým strukturám. Díky tomu budou parsery jednoduché, což umožní aktivně používat XML v prohlížečích. (Jeho pravděpodobnost je poměrně vysoká, vezmeme-li v úvahu souhlas obou hlavních hráčů na poli prohlížečů směrem k XML).


    VERZE PRO TISK >>
    Článek přečten:jednou.

    (Standard Generalized Markup Language), prezentovaný v normě ISO 8879. Tento jazyk je přijat jako hlavní jazyk pro návrh technické dokumentace, včetně interaktivních elektronických technických příruček pro produkty vytvořené pomocí technologií CALS.

    SGML definuje strukturu dokumentů jako posloupnost datových objektů. Datové objekty představující části dokumentu mohou být uloženy v různých souborech. Standard SGML zavádí sadu symbolů a pravidel pro reprezentaci informací, které umožňují různým systémům tyto informace správně rozpoznat a identifikovat. Tyto sady jsou popsány v samostatné části dokumentu nazvané deklarace DTD(Document Type Decfinition), který je přenášen spolu s hlavním dokumentem SGML. DTD specifikuje shodu znaků a jejich kódů, maximální délky použitých identifikátorů, způsob zobrazení oddělovačů pro značky, další možné konvence, syntaxi DTD a typ a verzi dokumentu. Proto lze SGML nazvat metajazykem pro rodinu specifických značkovacích jazyků. Zejména značkovací jazyky XML lze považovat za podmnožiny SGML a HTML.

    Technický popis ve formě dokumentu SGML obsahuje:

    • hlavní soubor s technickou příručkou, označený značkami SGML;
    • popis entit, pokud dokument patří do skupiny, ve které jsou použity stejné entity a předpokládá se jejich znalost;
    • slovník pro vysvětlení značek SGML;

    SGML je však obtížné se naučit a používat. Proto pro široké použití značek v dokumentech předložených na WWW-technologies, v roce 1991 byl vyvinut zjednodušený jazyk HTML založený na SGML(HyperText Markup Language) a v roce 1996 jazyk XML(eXtensible Markup Language), který se v kombinaci s HTML stává hlavním jazykem pro prezentaci dokumentů v různých aplikacích.

    Jazyk HTML byl vyvinut pro široké použití značek v dokumentech prezentovaných v technologiích WWW.

    Popis HTML se skládá z textu ASCII a sekvence příkazů (řídicí kódy), které jsou v něm obsaženy, nazývané také deskriptory nebo značky. Tento text se nazývá dokument HTML nebo stránka HTML, nebo když je zveřejněn na webovém serveru, webová stránka.. Tagy jsou ve zdrojovém textu umístěny na správná místa, určují písma, spojovníky, vzhled grafiky, odkazy atd. Při použití WWW editorů se příkazy vkládají pouhým stisknutím příslušných kláves.

    XML, stejně jako HTML, je považováno za podmnožinu SGML. V současné době se jazyk XML prohlašuje za hlavní jazyk prezentace dokumentů v informačních technologiích; lze jej považovat za metajazyk, který slouží jako základ pro vytváření soukromých značkovacích jazyků v různých aplikacích. Zároveň je XML pohodlnější než SGML, což je zajištěno odstraněním některých drobných vlastností SGML v XML. Popisy v XML jsou srozumitelnější a přizpůsobené pro použití v moderních prohlížečích při zachování základních funkcí SGML.

    Pro specifické aplikace jsou vytvářeny jejich vlastní verze XML, nazývané XML slovníky nebo XML aplikace. Proto byla vyvinuta XML aplikace OSD (Open Software Description) pro popis textů se specifickými matematickými symboly. Pro CALS je zajímavá možnost Product Definition eXchange (PDX) určená pro výměnu dat. Známé jsou slovníky pro chemii (CML - Chemical Markup Language), biologii (BSML - Bioinformatic Sequence Markup Language) atd.

    Každý dokument má tři složky:

    · struktura;

    Obsah je informace, která je zobrazena v dokumentu. Obsah dokumentu na papíře může být čistě textový a může obsahovat i obrázky. Pokud je dokument předložen v elektronické podobě, může obsahovat multimediální data a také odkazy na jiné dokumenty. Přestože se obsah různých dokumentů liší, lze je rozdělit do typů, jako je kniha nebo jízdenka na vlak.

    Styl dokumentu určuje formu, ve které bude jeho obsah zobrazen na konkrétním zařízení (například na tiskárně nebo displeji). Pojem styl zahrnuje charakteristiky písma (název, velikost, barva) celého výstupního dokumentu nebo jeho jednotlivých bloků, pořadí stránkování, umístění bloků na stránkách a další parametry. Stejný dokument lze vytisknout v různých stylech, jak na různých médiích, tak na stejném médiu.

    Značkovací jazyky dokumentů jsou umělé jazyky navržené k popisu struktury dokumentu a vztahů mezi různými objekty struktury. Značkovacím datům se také říká metadata.

    Prvním značkovacím jazykem je GML (Generalized Markup Language), vyvinutý zaměstnanci IBM již v 60. letech minulého století. Jeho bezprostředním nástupcem se stal jazyk SGML (Standard Generalized Markup Language), který definuje pravidla pro záznam prvků značení dokumentů. Dokument, který se řídí pravidly jazyka, se nazývá dokument SGML.

    Jazyk SGML je definován v normě ISO 8879, která specifikuje následující základní požadavky na značkovací jazyk dokumentů:

    · Jazyk musí být čitelný pro člověka.

    · označené soubory dokumentů musí být textové a zakódované pomocí znaků kódu ASCII (American Standard Code for Information Interchange). Obsah dokumentu však nemusí být kódován ASCII nebo textem.

    SGML a podobné jazyky používají speciální nástroje pro označování dokumentů:

    · prvky a doprovodné atributy;

    · entity;

    · komentáře.

    Strukturální jednotkou dokumentu SGML je prvek. V označeném textu musí být každý prvek zvýrazněn určitým způsobem. Výběr se provádí vložením počáteční značky (z anglického slova tag - label) na začátek prvku (start tag) a koncové značky (end tag) na konec prvku. Počáteční a koncové značky mají stejný název. Aby bylo možné rozlišit značky od prostého textu, musí začínat znakem, který označuje začátek značky, a končit znakem, který označuje konec značky. V koncovém tagu je navíc uveden symbol – znak koncového tagu. V SGML mohou být jako takové znaky specifikovány libovolné znaky, ale nejběžnějším používaným znakem je znak "" (levá lomená závorka) jako začátek značky a znak "/" (lomítko) jako znak koncové značky. Prvky v dokumentu SGML mohou uzavírat další prvky, což vede ke grafickému znázornění dokumentu SGML jako hierarchické (stromové) struktury.


    Příklad 4.3.1. Dokument SGML specifikující seznam studentů s výsledky jejich zkouškového sezení lze specifikovat takto:

    Seznam hodnocení studentů v relaci

    Ivanov Ivan Ivanovič

    TS-61

    A

    B

    B

    B

    Petrov Petr Petrovič

    TS-62

    C

    C

    D

    C

    V tomto dokumentu je prvním prvkem prvek seznamu studentů. Tento prvek obsahuje jeden prvek title (title) a několik prvků studenta (data studenta). Každý prvek student dále obsahuje jeden prvek s celým jménem (příjmení, jméno a patronymie studenta), jeden prvek s číslem skupiny (číslo skupiny) a jeden prvek seznamu známek (seznam hodnocení studentů v relaci). A konečně prvek seznamu značek obsahuje několik prvků značek (skóre).

    Grafické znázornění tohoto seznamu na obr. 4.3.1 má stromovou strukturu:

    Rýže. 4.3.1. Struktura dokumentu SGML v grafické reprezentaci

    Atributy lze použít k upřesnění prvků SGML. Atributy se zapisují do počáteční značky prvku takto:

    atribut-name="hodnota-atributu".

    Prvek může mít zadaných více atributů. Atributy jsou od sebe a od názvu prvku odděleny alespoň jednou mezerou.

    Příklad 4.3.2. Pro prvky známky v příkladu 4.3.1 lze nastavit atribut předmět, jehož hodnotou je název oboru, ve kterém byla zkouška složena. Pak pro prvního studenta budou mít prvky následující podobu:

    A

    B

    B

    B

    Jazyky jako SGML používají entity pro práci se skupinami dat. Entita je jakákoli pojmenovaná data, textová i netextová. Při prohlížení dokumentu je název entity nahrazen její hodnotou. Takže například název textové entity kpi bude nahrazen její hodnotou: Kyjevský polytechnický institut a netextová entita image1 bude nahrazena obrázkem s názvem image1.

    značkovací jazyky) je sada speciálních instrukcí, nazývaných tagy, navržených k vytvoření struktury v dokumentech a definování vztahů mezi různými prvky této struktury. Jinými slovy, označení ukazuje, která část dokumentu je název, která podtitul, co je třeba považovat za jméno autora atd. Označení se dělí na označení stylistické, strukturální a sémantické. Stylistické označení

    Stylistické označení je zodpovědné za vzhled dokumentu. Například v HTML tento typ označení zahrnuje značky jako např (kurzíva), (tučné), (podtržení), (přeškrtnutý text) atd.

    Strukturální značení

    Strukturální označení definuje strukturu dokumentu. V HTML jsou za tento typ označení zodpovědné například značky (odstavec), (nadpis), (sekce) atd.

    Sémantické označení

    Sémantické značení informuje o obsahu dat. Příklady tohoto typu označení jsou značky (název dokumentu), (kód, používaný pro výpisy kódů), (proměnná), (adresa autora).

    Základními pojmy jakéhokoli značkovacího jazyka jsou značky, prvky a atributy.

    Tagy a prvky.

    Významy značek a prvků jsou často zaměňovány.

    Tagy nebo deskriptory ovládacích prvků, jak se jim také říká, slouží jako instrukce pro program, který zobrazuje obsah dokumentu na straně klienta, co dělat s obsahem tagu. Pro zvýraznění tagu vzhledem k hlavnímu obsahu dokumentu se používají lomené závorky: tag začíná znakem menší než (), uvnitř kterého je umístěn název instrukcí a jejich parametry. Například v HTML značka označuje, že následující text by měl být kurzívou.

    Elementem jsou tagy spolu s jejich obsahem. Následující konstrukce je příkladem prvku:

    Tento text je psán kurzívou .

    Prvek se skládá z úvodní značky (v našem příkladu je to značka ), obsah tagu (v příkladu je to text „Toto je text psaný kurzívou“) a uzavírací tag(), i když někdy v HTML lze uzavírací značku vynechat.

    Atributy

    Aby bylo možné nastavit jakékoli parametry, které objasňují vlastnosti tohoto prvku při definování prvku, používají se atributy.

    Atributy se skládají z páru název = hodnota, který lze zadat při definování prvku v počáteční značce. Nalevo a napravo od symbolu rovná se můžete nechat mezery. Hodnota atributu je určena jako řetězec uzavřený v jednoduchých nebo dvojitých uvozovkách.

    Jakákoli značka může mít atribut, pokud je tento atribut definován.

    Při použití atributu má prvek následující podobu:

    obsah značky

    Text je zarovnán na střed

    Jedna úvodní značka může obsahovat více atributů, například:

    Zadaná velikost a barva textu

    Historie vývoje značkovacích jazyků.

    Koncept hypertextu zavedl W. Bush v roce 1945 a od 60. let se začaly objevovat první aplikace využívající hypertextová data. Tato technologie však dosáhla svého hlavního rozvoje, když vznikla skutečná potřeba mechanismu pro kombinování více informačních zdrojů, který by umožňoval vytvářet a prohlížet nelineární text.

    V roce 1986 ISO schválila Standardized Generalized Markup Language. Tento jazyk je určen pro tvorbu dalších značkovacích jazyků, definuje platnou sadu značek, jejich atributy a vnitřní strukturu dokumentu. Je tedy možné vytvářet vlastní značky související s obsahem dokumentu. Nyní je zřejmé, že takové dokumenty je obtížné interpretovat bez definice značkovacího jazyka, která je uložena v definici typu dokumentu (DTD). DTD seskupuje všechna pravidla jazyka ve standardu SGML. Jinými slovy, DTD popisuje vzájemný vztah značek a pravidla pro jejich použití. Navíc je pro každou třídu dokumentů definována vlastní sada pravidel, která popisují gramatiku odpovídajícího značkovacího jazyka. Pouze s pomocí DTD lze tedy ověřit správné použití tagů, a proto musí být zaslány spolu s dokumentem SGML nebo součástí dokumentu.

    V té době kromě SGML existovalo několik dalších podobných jazyků, které spolu soupeřily, ale popularita (HTML, což je jeden z jeho potomků) dávala SGML nepopiratelnou výhodu oproti svým protějškům.

    Pomocí SGML můžete popsat strukturovaná data, organizovat informace obsažené v dokumentech a prezentovat tyto informace v nějakém standardizovaném formátu. Ale kvůli své složitosti se SGML používal především k popisu syntaxe jiných jazyků a jen málo aplikací pracovalo s dokumenty SGML přímo. SGML se obvykle používá pouze ve velkých projektech, například pro vytvoření jednotného systému správy dokumentů pro velkou společnost.

    HTML značkovací jazyk je mnohem jednodušší a pohodlnější než SGML, jeho instrukce jsou primárně určeny pro řízení procesu zobrazování obsahu dokumentu na obrazovce. HTML jako způsob označování technických dokumentů vytvořil Tim Berners-Lee v roce 1991 speciálně pro vědeckou komunitu. Původně to byla jen jedna z aplikací SGML.

    Přestože HTML umí pouze klasifikovat části dokumentu a zajistit jeho správné zobrazení v prohlížeči, jedná se o nejoblíbenější značkovací jazyk. Je to proto, že HTML je docela snadné se naučit. Jediné, co musíte udělat, je naučit se HTML příkazy. DTD pro HTML je uložen v prohlížeči. Kromě toho je třeba poznamenat, že HTML je navrženo tak, aby fungovalo na široké škále platforem. Má však řadu významných omezení:

  • HTML má pevnou sadu značek a tuto sadu nelze rozšířit ani změnit;
  • Značky jazyka HTML ukazují pouze to, jak mají být data prezentována, tedy vzhled dokumentu. HTML nenese informace o významu obsahu obsaženého ve značkách ani o struktuře dokumentu.