Imenuje se poseben označevalni jezik za besedilne dokumente. Označevalni jezik za dokumente HTML. Logično in vizualno označevanje

označevalni jeziki) je nabor posebnih navodil, imenovanih oznake, namenjenih oblikovanju strukture v dokumentih in določanju odnosov med različnimi elementi te strukture. Z drugimi besedami, oznaka kaže, kateri del dokumenta je naslov, kateri je podnaslov, kaj je treba šteti za ime avtorja itd. Oznaka je razdeljena na slogovno oznako, strukturno in pomensko. Slogovna oznaka

Slogovna oznaka je odgovorna za videz dokumenta. Na primer, v HTML ta vrsta oznak vključuje oznake, kot so (ležeče), (krepko), (podčrtano), (prečrtano besedilo) itd.

Strukturno označevanje

Strukturne oznake določajo strukturo dokumenta. V HTML so na primer za to vrsto oznak odgovorne oznake (odstavek), (naslov), (razdelek) itd.

Semantična oznaka

Semantična oznaka sporoča vsebino podatkov. Primeri te vrste oznak so oznake (ime dokumenta), (koda, uporabljena za sezname kod), (spremenljivka), (naslov avtorja).

Osnovni koncepti katerega koli označevalnega jezika so oznake, elementi in atributi.

Oznake in elementi.

Pomeni oznak in elementov so pogosto zamenjeni.

Oznake ali kontrolni deskriptorji, kot jih tudi imenujemo, služijo kot navodila za program, ki prikaže vsebino dokumenta na strani odjemalca, kaj storiti z vsebino oznake. Da bi označili oznako glede na glavno vsebino dokumenta, se uporabljajo kotni oklepaji: oznaka se začne z znakom manj kot (), znotraj katerega so imena navodil in njihovi parametri. Na primer, v HTML oznaka označuje, da mora biti besedilo, ki sledi, v ležečem tisku.

Element so oznake skupaj z njihovo vsebino. Naslednja konstrukcija je primer elementa:

To besedilo je v ležečem tisku .

Element je sestavljen iz začetne oznake (v našem primeru je to oznaka ), vsebino oznake (v primeru je to besedilo "To je besedilo v poševnem tisku") in zaključno oznako (), čeprav je včasih v HTML mogoče izpustiti zaključno oznako.

Lastnosti

Za nastavitev parametrov, ki pojasnjujejo značilnosti tega elementa pri definiranju elementa, se uporabljajo atributi.

Atributi so sestavljeni iz para ime = vrednost, ki ga je mogoče podati pri definiranju elementa v začetni oznaki. Levo in desno od simbola enakosti lahko pustite presledke. Vrednost atributa je določena kot niz v enojnih ali dvojnih narekovajih.

Vsaka oznaka ima lahko atribut, če je ta atribut definiran.

Ko je atribut uporabljen, ima element naslednjo obliko:

vsebino oznake

Besedilo je poravnano na sredino

Ena začetna oznaka lahko vsebuje več atributov, na primer:

Določena velikost in barva besedila

Zgodovina razvoja označevalnih jezikov.

Koncept hiperteksta je uvedel W. Bush leta 1945, v 60. letih prejšnjega stoletja pa so se začele pojavljati prve aplikacije, ki uporabljajo podatke hiperteksta. Vendar pa je ta tehnologija dobila glavni razvoj, ko se je pojavila resnična potreba po mehanizmu za združevanje več informacijskih virov, ki omogoča ustvarjanje in ogled nelinearnega besedila.

Leta 1986 je ISO odobril standardizirani generalizirani označevalni jezik. Ta jezik je namenjen izdelavi drugih označevalnih jezikov, definira veljaven nabor oznak, njihove atribute in notranjo strukturo dokumenta. Tako je mogoče ustvariti lastne oznake, povezane z vsebino dokumenta. Zdaj postane očitno, da je takšne dokumente težko interpretirati brez definicije označevalnega jezika, ki je shranjen v definiciji vrste dokumenta (DTD). DTD združuje vsa pravila jezika v standardu SGML. Z drugimi besedami, DTD opisuje razmerje oznak med seboj in pravila za njihovo uporabo. Poleg tega je za vsak razred dokumentov definiran lasten niz pravil, ki opisujejo slovnico ustreznega označevalnega jezika. Tako je le s pomočjo DTD mogoče preveriti pravilno uporabo oznak, zato ga je treba poslati skupaj z dokumentom SGML ali vključiti v dokument.

Takrat je bilo poleg SGML še nekaj drugih podobnih jezikov, ki so tekmovali med seboj, vendar je priljubljenost (HTML, ki je eden od njegovih potomcev) dala SGML nesporno prednost pred svojimi kolegi.

Z uporabo SGML lahko opišete strukturirane podatke, organizirate informacije v dokumentih in te informacije predstavite v neki standardizirani obliki. Toda zaradi svoje zapletenosti je bil SGML uporabljen predvsem za opis sintakse drugih jezikov in malo aplikacij je delovalo neposredno z dokumenti SGML. SGML se običajno uporablja samo v velikih projektih, na primer za ustvarjanje enotnega sistema za upravljanje dokumentov za veliko podjetje.

Označevalni jezik HTML je veliko enostavnejši in priročnejši od SGML, njegova navodila so namenjena predvsem nadzoru postopka prikaza vsebine dokumenta na zaslonu. HTML kot način za označevanje tehničnih dokumentov je ustvaril Tim Berners-Lee leta 1991 posebej za znanstveno skupnost. Prvotno je bila le ena od aplikacij SGML.

Kljub temu, da je HTML edino, kar lahko naredi, klasificirati dele dokumenta in zagotoviti njegov pravilen prikaz v brskalniku, je najbolj priljubljen označevalni jezik. To je zato, ker se je HTML zelo enostavno naučiti. Vse kar morate storiti je, da se naučite ukazov HTML. DTD za HTML je shranjen v brskalniku. Poleg tega je treba opozoriti, da je HTML zasnovan za delovanje na najrazličnejših platformah. Vendar ima številne pomembne omejitve:

  • HTML ima fiksen nabor oznak in tega nabora ni mogoče razširiti ali spremeniti;
  • Jezikovne oznake HTML prikazujejo le, kako naj bodo podatki predstavljeni, torej videz dokumenta. HTML ne nosi informacij o pomenu vsebine v oznakah ali strukturi dokumenta.
  • V začetku februarja 1998 je mednarodna organizacija W3C odobrila specifikacijo Extensible Markup Language (XML) 1.0, ki je zaznamovala začetek razvoja številnih novih označevalnih jezikov za prenos informacij prek interneta na podlagi standarda XML. V bistvu je to pomenilo nov korak v razvoju hiperbesedilnih označevalnih jezikov. XML v štirih letih svojega obstoja ni pritegnil le precej pozornosti tako navadnih uporabnikov kot številnih oblikovalcev spletnih strani, ampak je postal tudi sestavni del interneta. Danes praktično ni strežnikov, ki v eni ali drugi meri ne bi uporabljali te tehnologije kot analoga HTML. Vendar pa je še vedno vsaj prezgodaj reči, da XML zdaj postaja glavna metoda prenosa hiperbesedila po globalnem omrežju. Sam jezik je še precej mlad in nekateri njegovi elementi so še v razvoju. Zaenkrat je bil ustvarjen le splošen okvir za to, kar bo morda v prihodnosti nadomestilo HTML, v kakšni obliki pa bo, je še nemogoče reči.

    Od začetka

    Novembra 1990, ko so uporabniki interneta prvič slišali za novo tehnologijo, katere ime bi se z lahkoto zapisalo v vsega tri črke, si skoraj nihče ni mogel predstavljati, da bo minilo zelo malo časa in bo ta tehnologija postala tako rekoč edini način prenosa informacij na globalno omrežje. Beseda internet je danes za marsikaterega neizkušenega uporabnika močno povezana z WWW, čeprav sta v bistvu te stvari med seboj seveda povezane, a vseeno malo drugačne.

    Na splošno je prav neverjetna priljubljenost svetovnega spleta in njegovega sestavnega dela HTML zagotovo postala razlog za izjemno povečano pozornost strukturam hiperbesedilnega označevanja dokumentov.

    Koncept hiperteksta je prvi uvedel V. Bush leta 1945. Vendar pa so se resnične aplikacije, ki uporabljajo takšne podatkovne strukture, začele uporabljati šele od 60. let prejšnjega stoletja in resnično izjemen val dejavnosti okoli te tehnologije se je začel šele, ko je obstajala resnična potreba po mehanizmu za združevanje več informacijskih virov, ki zagotavlja možnost ustvarjanja in ogled nelinearnega besedila. In primer izvajanja tega mehanizma je bil isti WWW.

    Sam jezik za označevanje dokumentov je nabor posebnih navodil, imenovanih oznake (v nekaterih prevedenih publikacijah se oznake imenujejo bližnjice), namenjenih ustvarjanju strukture v dokumentih in določanju odnosov med različnimi elementi te strukture. Oznake označevalnega jezika ali kontrolni deskriptorji, kot se včasih imenujejo, so v takih dokumentih kodirani na zelo specifičen način, dodeljeni glede na glavno vsebino dokumenta in nato služijo kot navodila za program, ki interpretira in prikaže vsebino dokument pravzaprav osebi, ki si ga ogleduje, če poskušate najti analogije z internetom, potem je ta nekdo odjemalec, program tolmača pa je v najpogostejšem primeru brskalnik). Že v prvih sistemih je bilo odločeno uporabiti simbole "" za označevanje teh ukazov, znotraj katerih so bila imena navodil in njihovih parametrov. Danes je ta način poimenovanja oznak splošno sprejet standard.

    Sama uporaba hipertekstne razčlenitve besedilnega dokumenta v sodobnih informacijskih sistemih je v veliki meri posledica dejstva, da hipertekst omogoča ustvarjanje mehanizma za tako imenovano nelinearno gledanje informacij. To pomeni, da v sistemih podatki niso predstavljeni kot neprekinjen tok besedilnih struktur, temveč kot niz med seboj povezanih komponent, po katerih se krmari s pomočjo hiperpovezav.

    Najbolj priljubljen in najbolj znan hiperbesedilni označevalni jezik danes, HTML, je bil ustvarjen posebej za strukturiranje in prenos informacij, ki se nahajajo na internetu, in je nedvomno ključna komponenta tehnologije WWW. Z uporabo modela hipertekstnega dokumenta je način predstavitve različnih informacijskih virov v omrežju postal bolj urejen, uporabniki pa so prejeli priročen mehanizem za iskanje in ogled potrebnih informacij. Vendar pa prvi znak v tej zadevi še vedno velja za veliko starejši jezik - SGML.

    SGML (Standard Generalized Markup Language) je bil uradno sprejet leta 1986 kot mednarodni standard (ISO 8879:1986) za opis vhodno/izhodnih naprav in metod, neodvisnih od okolja, za predstavitev besedilnih informacij v elektronski obliki. Osnova za nastanek je bil precej star označevalni jezik GML (Generalized Markup Language), ki ga je IBM razvil že v času prvih osebnih računalnikov. Če smo natančni, je SGML metajezik, zasnovan za opis drugih označevalnih jezikov.

    Prvotno se je beseda markup običajno uporabljala za opis opomb ali drugih oznak v besedilu, ki naj bi piscu dokumenta ali »oblikovalcu postavitve«, kot se včasih imenuje, dali navodila, kako točno naj se vtipka določen odlomek. Takšne metode lahko vključujejo vijugasto podčrtanje, ki označuje poševno pisavo, nekaj posebnih ikon za preskok določenih fraz ali njihovo tiskanje v določeni pisavi itd. Ko sta oblikovanje in tiskanje sčasoma postala avtomatizirana, je izraz zajemal vse vrste posebnih označevalnih kod, ki so bile vstavljene v elektronske besedilne dokumente za nadzor oblikovanja, tiskanja ali druge obdelave.

    Označevalni jezik se torej nanaša na niz konvencij oblikovanja, ki se uporabljajo za kodiranje blokov besedila. Označevalni jezik mora jasno navajati, katere oznake so sprejemljive v danem dokumentu, katere oznake so potrebne, kako razlikovati njegove elemente od navadnega besedila in kaj oznake pomenijo. SGML je lahko rešil prve tri probleme, rešitev zadnjega pa je zahtevala prisotnost neformalnega opisa.

    SGML, za razliko od vseh drugih označevalnih jezikov, ustvarjenih na njegovi podlagi, namesto proceduralnega označevanja uporablja načelo tako imenovane deskriptivne oznake. Takšen sistem uporablja označevalne elemente, ki preprosto zagotavljajo imena za dodelitev posameznih delov dokumenta določenim kategorijam. Z drugimi besedami, oznake, kot je Ali \end(seznam), preprosto identificirajo del dokumenta in navedejo, da je »ta del odstavek« ali da je »ta del konec začetega seznama« itd. Sistem, ki uporablja proceduralno označevanje (sem spadajo urejevalniki besedil, na primer Microsoft Word), določa, kakšna obdelava se bo izvajala na določeni točki besedilnega dokumenta: »na tem mestu pokličite tak in ta postopek s parametri 5, e in z« ali »premaknite obrobo dokumenta 7 mm v desno glede na katerikoli element, preskočite eno vrstico, začnite naslednjo od rdeče črte itd. V SGML so navodila, ki so potrebna za obdelavo dokumenta za določen namen (na primer oblikovanje), jasno ločena od opisne oznake, ki se pojavlja v dokumentu. Običajno se zbirajo zunaj dokumenta v ločenih postopkih ali programih.

    Z uporabo opisne in ne proceduralne oznake lahko isti dokument obdelajo različni programi, od katerih lahko vsak uporabi lastna navodila za obdelavo tistih delov, ki se mu zdijo pomembni. Na primer, program za razčlenjevanje vsebine lahko v celoti prezre sprotne opombe, medtem ko jih program za oblikovanje lahko izvleče in sestavi za tiskanje na koncu vsakega dela. Z istim delom datoteke so lahko povezane različne vrste navodil za obdelavo. Na primer, en program lahko iz dokumenta izvleče imena ljudi in krajev, da ustvari kazalo ali zbirko podatkov, medtem ko lahko drug program, ki obdeluje isto besedilo, natisne imena v drugi pisavi.

    SGML uvaja tudi koncept tipa dokumenta in s tem načine njegovega definiranja (definicija tipa dokumenta, DTD). Dokumenti se štejejo za tipkane, tako kot drugi računalniško obdelani predmeti. Vrsto dokumenta formalno določajo njegovi sestavni deli in njihova struktura. Na primer, lahko definiramo vrsto dokumenta, tako da je sestavljen iz naslova in morda imena avtorja, ki mu sledi povzetek in zaporedje enega ali več odstavkov. Vsak dokument brez naslova v skladu s to formalno definicijo ne bo poročilo, prav tako ne bo zaporedje odstavkov, ki jim sledi povzetek, ne glede na to, kako podoben poročilu je lahko dokument s človeškega vidika. bralec..

    Ker so dokumenti znanih vrst, lahko uporabite poseben program, imenovan razčlenjevalnik, da obdelate dokument, ki trdi, da je določene vrste, in preverite, ali so prisotni in najdeni vsi elementi, zahtevani za to vrsto dokumenta, v pravilnem zaporedju in pravilno strukturiran. Še pomembneje je, da je mogoče različne dokumente iste vrste obdelati na enoten način. Možno je pisati programe, ki uporabljajo znanje, ki ga vsebuje informacijska struktura dokumenta, ki je tako lahko bolj inteligenten.

    SGML kot metajezik omogoča definicijo določenih jezikov (pogosto imenovanih "aplikacije SGML"), ki ciljajo na določene aplikacije. Primer tega je jezik HTML, ki se pogosto uporablja na WWW. Vsak tak jezik je opisan v obliki DTD, ki definira elemente in njihove atribute. Ko prejmete tak DTD, lahko programska oprema SGML pravilno obdela dokumente, napisane v skladu s tem DTD.

    Tudi v projektu je bil ta jezik zasnovan posebej za implementacijo modela prenosa informacij v globalno omrežje, ki ga imamo zdaj. Z drugimi besedami, HTML je produkt interneta. Čeprav je v resnici HTML poenostavljena različica standardnega splošnega označevalnega jezika - SGML (Standard Generalized Markup Language), ki ga je ISO odobril kot standard že v 80. letih prejšnjega stoletja. SGTML ni jezik v svoji čisti obliki, temveč nabor pravil in opisov za ustvarjanje drugih jezikov; definira veljaven nabor oznak, njihovih atributov in notranje strukture dokumenta. Nadzor nad pravilno uporabo deskriptorjev se izvaja s pomočjo posebnega nabora pravil, imenovanih DTD opisi, ki jih uporablja odjemalski tolmaški program pri razčlenjevanju dokumenta. Za vsak razred dokumentov je definiran lasten niz pravil, ki opisujejo slovnico ustreznega označevalnega jezika. Z uporabo SGML lahko organizirate informacije, vsebovane v dokumentih, opišete strukturirane podatke in predstavite te informacije v neki standardizirani obliki za nadaljnjo uporabo. Vendar pa je bil SGML zaradi svoje kompleksnosti uporabljen predvsem za opis sintakse drugih jezikov (od katerih je najbolj znan HTML) in nekaj aplikacij je delovalo neposredno z dokumenti SGML.

    HTML je veliko bolj priročen in enostaven za uporabo kot SGML. Ne dovoljuje definiranja dodatnih jezikov na njegovi podlagi. Uporaba HTML vključuje označevanje dokumenta v skladu s standardom, ki je opredeljen z dokaj omejenim naborom navodil ali oznak. Takšna navodila so namenjena predvsem nadzoru procesa prikaza vsebine dokumenta na zaslonu odjemalskega programa in s tem določanju načina prikaza dokumenta, ne pa njegove celotne strukture. V večini primerov so podatki HTML predstavljeni v datoteki z navadnim besedilom, ki jo je mogoče preprosto prenesti po omrežju s protokolom http.

    Vendar pa s časom in vse strožjimi zahtevami do priljubljenih tehnologij sodobne aplikacije ne potrebujejo le jezika za predstavitev podatkov na zaslonu odjemalca, ampak tudi mehanizem, ki omogoča določitev strukture dokumenta in opis elementov, ki jih vsebuje. . HTML ima preprost nabor ukazov in se precej uspešno spopada z nalogo opisovanja besedilnih informacij in njihovega prikaza na zaslonu programa za ogled - brskalnika. Vendar pa prikazani podatki sami po sebi nikakor niso povezani z oznakami, ki se uporabljajo za oblikovanje, zato programi za razčlenjevanje nimajo možnosti uporabe oznak HTML za iskanje fragmentov dokumenta, ki jih potrebujemo. Tisti. naleteli na primer na tak opis

    vrtnica

    Gledalec bo vedel, v kakšni barvi naj prikaže besedilo v oznakah, in ga bo najverjetneje pravilno prikazal, vendar mu je popolnoma vseeno, kje v dokumentu se ta oznaka nahaja, v katere druge oznake je vključen trenutni fragment, ali ali so v njem ugnezdeni fragmenti, ali so odnosi med objekti pravilno zgrajeni. Ta "brezbrižnost" do strukture dokumenta vodi v dejstvo, da iskanje ali analiziranje informacij v njem ne bo nič drugačno od dela z neprekinjeno besedilno datoteko, ki ni razdeljena na elemente. In kot veste, to ni najučinkovitejši način dela z informacijami.

    Druga pomembna pomanjkljivost same ideje, implementirane v HTML, je omejen nabor njenih oznak. Pravila DTD za HTML definirajo fiksen nabor deskriptorjev in zato razvijalec nima možnosti vnesti lastnih, posebnih oznak. Čeprav se občasno pojavljajo nove jezikovne razširitve (danes je najnovejša različica HTML HTML 4.0), dolga pot do njihove standardizacije, ki jo spremljajo nenehna nesoglasja med glavnimi proizvajalci brskalnikov, skoraj onemogoča hitro prilagoditev jezika, njegovo uporabo. za prikaz specializiranih informacij (na primer multimedijskih, matematičnih, kemijskih formul itd.).

    Če povzamemo vse, kar je bilo povedano, lahko trdimo, da HTML danes ne izpolnjuje v celoti zahtev, ki jih postavljajo sodobni razvijalci za tovrstne jezike. Za njegovo zamenjavo je bil predlagan nov jezik za označevanje hiperbesedila: močan, prilagodljiv in hkrati priročen jezik XML.

    XML (Extensible Markup Language) je označevalni jezik, ki opisuje celoten razred podatkovnih objektov, imenovanih dokumenti XML. Ta jezik se uporablja kot sredstvo za opisovanje slovnice drugih jezikov in za nadzor pravilnosti dokumentov. Tisti. XML sam po sebi ne vsebuje nobenih označevalnih oznak, le določa vrstni red, v katerem so ustvarjene. Torej, če na primer menimo, da moramo uporabiti oznako za predstavitev elementa vrtnice v dokumentu, nam XML omogoča prosto uporabo oznake, ki jo definiramo, in lahko v dokument vključimo izrezke, kot so naslednji:

    vrtnica

    Nabor oznak je mogoče preprosto razširiti. Če recimo želimo navesti tudi, da mora opis rože smiselno iti znotraj opisa rastlinjaka, v katerem cveti, potem preprosto nastavimo nove oznake in izberemo vrstni red, v katerem se pojavljajo:

    vrtnica

    Če želimo tam posaditi še nekaj rož, moramo narediti naslednje spremembe:

    vrtnica

    tulipan

    kaktus

    Kot lahko vidite, je postopek ustvarjanja dokumenta XML zelo preprost in od nas zahteva le osnovno znanje HTML in razumevanje nalog, ki jih želimo izvajati z uporabo XML kot označevalnega jezika. To daje razvijalcem edinstveno možnost definiranja ukazov po meri, ki jim omogočajo najbolj učinkovito definiranje podatkov v dokumentu. Avtor dokumenta ustvari njegovo strukturo, zgradi potrebne povezave med elementi z uporabo tistih ukazov, ki ustrezajo njegovim zahtevam, in doseže vrsto oznak, ki jih potrebuje za izvajanje operacij pregleda, iskanja in analize dokumenta.

    Druga očitna prednost XML je zmožnost uporabe kot univerzalnega poizvedovalnega jezika za repozitorije informacij. Danes se v globinah W3C razmišlja o delujoči različici standarda XML-QL (ali XQL), ki lahko v prihodnosti postane resen tekmec SQL. Poleg tega lahko dokumenti XML delujejo kot edinstven način shranjevanja podatkov, ki vključuje sredstva za razčlenjevanje informacij in njihovo predstavitev na strani odjemalca. Na tem področju je eno izmed perspektivnih področij integracija tehnologij Java in XML, ki omogoča izrabo moči obeh tehnologij pri gradnji strojno neodvisnih aplikacij, ki za izmenjavo informacij uporabljajo tudi univerzalni format podatkov.

    XML omogoča tudi nadzor nad pravilnostjo podatkov, shranjenih v dokumentih, preverjanje hierarhičnih odnosov znotraj dokumenta in vzpostavitev enotnega standarda za strukturo dokumentov, katerih vsebina so lahko različni podatki. To pomeni, da se lahko uporablja pri gradnji kompleksnih informacijskih sistemov, pri katerih je zelo pomembno vprašanje izmenjave informacij med različnimi aplikacijami, ki tečejo v istem sistemu. Z ustvarjanjem strukture za mehanizem izmenjave informacij na samem začetku dela na projektu se lahko vodja v prihodnosti reši številnih težav, povezanih z nezdružljivostjo formatov podatkov, ki jih uporabljajo različne komponente sistema.

    Ena od prednosti XML je tudi ta, da so programi za obdelavo dokumentov XML preprosti in danes se prosto distribuirajo vse vrste programskih izdelkov, namenjenih delu z dokumenti XML. XML je danes podprt v vseh brskalnikih družine Microsoft Internet Explorer, od različice 4.0 naprej. Napovedano je bilo, da bo podprt v naslednjih različicah aplikacij Netscape Communicator, Oracle DBMS, DB-2 in MS-Office. Vse to daje razlog za domnevo, da bo najverjetneje v bližnji prihodnosti XML postal glavni jezik za izmenjavo informacij za informacijske sisteme in s tem nadomestil HTML. Znani specializirani označevalni jeziki, kot so SMIL, CDF, MathML, XSL, so že bili ustvarjeni na podlagi XML, seznam delovnih osnutkov novih jezikov, ki jih obravnava W3C, pa se nenehno povečuje.

    Kako izgleda dokument XML?

    Če ste seznanjeni s HTML, učenje XML ne bo zahtevalo veliko truda z vaše strani. Čeprav se XML v svojih zmožnostih in namenu zagotovo zelo razlikuje od HyperText Markup Language, sta oba jezika podskupini SGML in zato podedujeta njegova osnovna načela.

    Struktura dokumenta

    Preprost dokument XML je lahko videti kot 1. primer

    najprej

    Drugi pododstavek 1

    Tretjič

    Zadnji

    Upoštevajte, da je ta dokument zelo podoben navadni strani HTML. Tako kot v HTML se tudi navodila v oglatih oklepajih imenujejo oznake in služijo za označevanje telesa dokumenta. V XML obstajajo odpiralne, zapiralne in prazne oznake (v HTML obstaja tudi koncept prazne oznake, vendar posebna oznaka ni potrebna).

    Telo dokumenta XML sestavljajo označevalni elementi in dejanska vsebina dokumenta – podatki (vsebina). Oznake XML so zasnovane za definiranje elementov dokumenta, njihovih atributov in drugih jezikovnih konstruktov. O vrstah oznak, ki se uporabljajo v dokumentih, bomo podrobneje govorili nekoliko kasneje.

    Vsak dokument XML se mora vedno začeti z navodilom, znotraj katerega lahko podate tudi številko jezikovne različice, številko kodne strani in druge parametre, ki so potrebni, da program razčlenjevalnik razčleni dokument.

    Pravila za ustvarjanje dokumenta XML

    Na splošno morajo dokumenti XML izpolnjevati naslednje zahteve:

    Glava dokumenta vsebuje izjavo XML, ki določa označevalni jezik dokumenta, številko različice in dodatne informacije.

    Vsaka začetna oznaka, ki definira neko podatkovno področje v dokumentu, mora imeti svojega zaključnega »partnerja«, kar pomeni, da za razliko od HTML zaključnih oznak ni mogoče izpustiti.

    XML razlikuje velike in male črke.

    Vse vrednosti atributov, uporabljene v definicijah oznak, morajo biti v narekovajih.

    Gnezdenje oznak v XML je strogo nadzorovano, zato je potrebno spremljati vrstni red odpiranja in zapiranja oznak.

    Vse informacije med začetnimi in končnimi oznakami se obravnavajo kot podatki v XML, zato so upoštevani vsi znaki oblikovanja (tj. presledki, prelomi vrstic, tabulatorji niso prezrti kot v HTML).

    Če dokument XML ne krši zgornjih pravil, se imenuje formalno pravilen in vsi analizatorji, namenjeni razčlenjevanju dokumentov XML, bodo lahko z njim pravilno delali.

    Vendar pa lahko dokument poleg preverjanja formalne skladnosti s slovnico jezika vsebuje sredstva za nadzor nad vsebino dokumenta, nad skladnostjo s pravili, ki določajo potrebna razmerja med elementi in tvorijo strukturo dokumenta. Na primer, naslednje besedilo, čeprav je popolnoma veljaven dokument XML, bo popolnoma brez pomena:

    Rusija Novosibirsk

    Da bi zagotovili preverjanje pravilnosti XML dokumentov, je potrebno uporabiti analizatorje, ki izvajajo tako preverjanje in se imenujejo verifikatorji.

    Danes obstajata dva glavna načina za nadzor nad pravilnostjo dokumenta XML: definicije DTD (Document Type Definition) in podatkovne sheme (Semantic Schema). Naslednjič bomo več govorili o uporabi DTD in shem. Za razliko od SGML definiranje pravil DTD v XML ni potrebno in ta okoliščina nam omogoča, da ustvarimo kakršne koli dokumente XML, ne da bi si razbijali glavo s precej zapleteno sintakso DTD.

    Osnovno načelo

    Element je osnovna strukturna enota dokumenta XML. Če med oznake zapremo besedo vrtnica, definiramo neprazen element, imenovan , katerega vsebina je vrtnica. V splošnem primeru je lahko vsebina elementov preprosto besedilo ali drugi ugnezdeni elementi dokumenta, razdelki CDATA, navodila za obdelavo, komentarji, tj. skoraj kateri koli del dokumenta XML.

    Vsak element, ki ni prazen, mora biti sestavljen iz začetne oznake, končne oznake in podatkov med njima.

    Nabor vseh elementov, ki jih vsebuje dokument, določa njegovo strukturo in določa vse hierarhične odnose. S pomočjo elementov se ploski podatkovni model pretvori v kompleksen hierarhični sistem s številnimi možnimi razmerji med elementi.

    Pri naknadnem iskanju po dokumentu se odjemalski program zanaša na informacije, ki so vgrajene v njegovo strukturo – z uporabo elementov dokumenta. Tisti. če na primer želite najti pravo univerzo v pravem mestu, potem si boste morali ogledati vsebino določenega elementa, ki se nahaja znotraj določenega elementa. Iskanje bo v tem primeru seveda veliko bolj učinkovito kot iskanje želenega zaporedja v celotnem dokumentu.

    V dokumentu XML je praviloma definiran vsaj en element, ki se imenuje koren, in razčlenjevalci začnejo skenirati dokument od tega elementa. V zgornjem primeru je ta element .

    V nekaterih primerih lahko oznake spremenijo in razjasnijo semantiko določenih fragmentov dokumenta, na različne načine definirajo iste informacije in tako aplikaciji, ki analizira ta dokument, zagotovijo informacije o kontekstu uporabe opisanih podatkov. Na primer, po branju holliwoodskega fragmenta lahko ugibamo, da gre v tem delu dokumenta za mesto, v holliwoodskem fragmentu pa o restavraciji.

    Zaključek

    Jezik za oblikovanje spletnih strani HTML je bil prvotno predstavljen kot aplikacija SGML. Kasneje, s hitrim razvojem WWW, se je HTML začel širiti na vse možne načine, da bi avtorju omogočil več nadzora nad zunanjo predstavitvijo informacij. Novi elementi in atributi, kot sta ali , so bili osredotočeni na vizualno oblikovanje. Pojavila so se in začela aktivno uporabljati orodja, ki niso del samega označevalnega jezika: slikovni zemljevidi, Java in JavaScript, vtičniki itd. Obstaja tudi veliko elementov HTML, ki jih podpirajo le določeni brskalniki ali pa v različnih brskalnikih delujejo drugače. Zato je zdaj težko reči, ali je HTML aplikacija SGML ali ne. Zelo malo strani je ustvarjenih v skladu s specifikacijami HTML in ustreznimi DTD-ji.

    To težavo naj bi delno ublažili kaskadni slogi, za katere je standard sprejel konzorcij W3. CSS1 ločuje slog, ki določa vizualni videz elementov, od oznake elementa.

    Zelo zanimiv je jezik XML, ki naj bi nadomestil HTML kot označevalni jezik za spletne strani. To je različica SGML, ki je namenjena predvsem uporabi na WWW. Ne zahteva DTD, sam jezik pa je poenostavljen zaradi redko uporabljenih kompleksnih struktur. S tem bodo razčlenjevalniki preprosti, kar bo omogočilo aktivno uporabo XML v brskalnikih. (Verjetnost za to je precej velika, glede na nagnjenost obeh glavnih igralcev na področju brskalnika k XML-ju).


    RAZLIČICA ZA TISK>>
    Članek prebran: enkrat.

    (Standard Generalized Markup Language), predstavljen v standardu ISO 8879. Ta jezik je sprejet kot glavni jezik za oblikovanje tehnične dokumentacije, vključno z interaktivnimi elektronskimi tehničnimi priročniki za izdelke, ustvarjene s tehnologijo CALS.

    SGML definira strukturo dokumentov kot zaporedje podatkovnih objektov. Podatkovni objekti, ki predstavljajo dele dokumenta, so lahko shranjeni v različnih datotekah. Standard SGML vzpostavlja nabor simbolov in pravil za predstavitev informacij, ki omogočajo različnim sistemom, da te informacije pravilno prepoznajo in identificirajo. Ti nizi so opisani v ločenem delu dokumenta, imenovanem deklaracija DTD(Document Type Definition), ki se prenaša skupaj z glavnim dokumentom SGML. DTD določa ujemanje znakov in njihovih kod, največje dolžine uporabljenih identifikatorjev, način predstavitve ločil za oznake, druge možne konvencije, sintakso DTD ter vrsto in različico dokumenta. Zato lahko SGML imenujemo metajezik za družino specifičnih označevalnih jezikov. Zlasti označevalne jezike XML lahko štejemo za podnabore SGML in HTML.

    Tehnični opis v obliki dokumenta SGML vključuje:

    • glavna datoteka s tehničnim priročnikom, označena z oznakami SGML;
    • opis entitet, če dokument spada v skupino, v kateri se uporabljajo isti subjekti in je njihovo poznavanje implicirano;
    • slovar za razlago oznak SGML;

    Vendar se je SGML težko naučiti in uporabljati. Zato je za široko uporabo oznak v dokumentih, predloženih v WWW-tehnologije, leta 1991 je bil razvit poenostavljen jezik HTML, ki temelji na SGML(HyperText Markup Language), leta 1996 pa jezik XML(eXtensible Markup Language), ki v kombinaciji s HTML postane glavni jezik za predstavitev dokumentov v različnih aplikacijah.

    Jezik HTML je bil razvit za široko uporabo oznak v dokumentih, predstavljenih v tehnologijah WWW.

    Opis HTML je sestavljen iz besedila ASCII in zaporedja ukazov (kontrolnih kod), vključenih v to besedilo, imenovanih tudi deskriptorji ali oznake. To besedilo se imenuje dokument HTML ali stran HTML ali, ko je objavljeno na spletnem strežniku, spletna stran.. Oznake so postavljene na prava mesta v izvornem besedilu, določajo pisave, vezaje, videz grafike, povezave itd. Pri uporabi urejevalnikov WWW se ukazi vnašajo s preprostim pritiskom na ustrezne tipke.

    XML, tako kot HTML, velja za podnabor SGML. Trenutno jezik XML trdi, da je glavni jezik za predstavitev dokumentov v informacijski tehnologiji; lahko ga štejemo za metajezik, ki služi kot osnova za ustvarjanje zasebnih označevalnih jezikov v različnih aplikacijah. Hkrati je XML bolj priročen kot SGML, kar je zagotovljeno z odpravo nekaterih manjših funkcij SGML v XML. Opisi v XML so lažje razumljivi in ​​prilagojeni za uporabo v sodobnih brskalnikih ob ohranjanju osnovnih funkcij SGML.

    Za posebne aplikacije se ustvarijo lastne različice XML, imenovane slovarji XML ali aplikacije XML. Tako je bil razvit XML aplikacijski OSD (Open Software Description) za opisovanje besedil s specifičnimi matematičnimi simboli. Za CALS je zanimiva možnost Product Definition eXchange (PDX), namenjena izmenjavi podatkov. Znani so slovarji za kemijo (CML - Chemical Markup Language), biologijo (BSML - Bioinformatic Sequence Markup Language) itd.

    Vsak dokument ima tri komponente:

    · struktura;

    Vsebina je informacija, ki je prikazana v dokumentu. Vsebina dokumenta na papirju je lahko zgolj besedilna in vsebuje tudi slike. Če je dokument predstavljen v elektronski obliki, lahko vsebuje multimedijske podatke, pa tudi povezave do drugih dokumentov. Čeprav se vsebina različnih dokumentov razlikuje, jih je mogoče razvrstiti v vrste, kot sta knjiga ali vozovnica za vlak.

    Slog dokumenta določa obliko, v kateri bo njegova vsebina prikazana na določeni napravi (na primer tiskalniku ali zaslonu). Koncept sloga vključuje značilnosti pisave (ime, velikost, barva) celotnega izhodnega dokumenta ali njegovih posameznih blokov, vrstni red paginacije, lokacijo blokov na straneh in druge parametre. Isti dokument je mogoče izpisati v različnih slogih, tako na različnih medijih kot na istem mediju.

    Jeziki za označevanje dokumentov so umetni jeziki, zasnovani za opisovanje strukture dokumenta in odnosov med različnimi objekti strukture. Označevalni podatki se imenujejo tudi metapodatki.

    Prvi označevalni jezik je GML (Generalized Markup Language), ki so ga razvili zaposleni v IBM-u že v 60. letih prejšnjega stoletja. Njegov neposredni naslednik je bil jezik SGML (Standard Generalized Markup Language), ki določa pravila pisanja označevalnih elementov dokumentov. Dokument, ki sledi pravilom jezika, se imenuje dokument SGML.

    Jezik SGML je opredeljen v standardu ISO 8879, ki določa naslednje osnovne zahteve za označevalni jezik dokumentov:

    · Jezik mora biti človeku berljiv.

    · Datoteke z označenimi dokumenti morajo biti besedilne in kodirane z uporabo znakov ASCII (ameriška standardna koda za izmenjavo informacij). Ni pa nujno, da je vsebina dokumenta kodirana z ASCII ali besedilom.

    SGML in podobni jeziki uporabljajo posebna orodja za označevanje dokumentov:

    · elementi in spremljajoči atributi;

    · subjekti;

    · komentarji.

    Strukturna enota dokumenta SGML je element. V označenem besedilu mora biti vsak element označen na določen način. Izbor izvedemo tako, da na začetek elementa (start tag) vstavimo začetno oznako (iz angleške besede tag - oznaka) in na konec elementa končno oznako (end tag). Začetna in končna oznaka imata isto ime. Za razlikovanje oznak od navadnega besedila se morajo začeti z znakom, ki označuje začetek oznake, in končati z znakom, ki označuje konec oznake. Poleg tega je v končni oznaki določen simbol - znak končne oznake. V SGML je mogoče kot take značilnosti določiti poljubne znake, vendar se najpogosteje znak »« (levi kotni oklepaj) uporablja kot začetek oznake, znak »/« (poševnica) pa kot končni znak oznake. Elementi v dokumentu SGML lahko zajemajo druge elemente, kar ima za posledico grafično predstavitev dokumenta SGML kot hierarhično (drevesno) strukturo.


    Primer 4.3.1. Dokument SGML, ki določa seznam študentov z rezultati njihovega izpita, je mogoče določiti na naslednji način:

    Seznam ocen študentov na seji

    Ivanov Ivan Ivanovič

    TS-61

    A

    B

    B

    B

    Petrov Petr Petrovič

    TS-62

    C

    C

    D

    C

    V tem dokumentu je prvi element element seznama študentov. Ta element vsebuje en naslovni element (title) in več elementov študent (podatki o študentu). Po drugi strani vsak element študenta vsebuje en element polnega imena (priimek, ime in patronim študenta), en element številke skupine (številka skupine) in en element seznama točk (seznam ocen študentov v seji). In končno, element seznama točk vsebuje več elementov točk (točka).

    Grafični prikaz tega seznama na sl. 4.3.1 ima drevesno strukturo:

    riž. 4.3.1. Struktura dokumenta SGML v grafični predstavitvi

    Atribute je mogoče uporabiti za izboljšanje elementov SGML. Atributi so zapisani v začetni oznaki elementa na naslednji način:

    ime-atributa="vrednost-atributa".

    Element ima lahko določenih več atributov. Atributi so med seboj in od imena elementa ločeni z vsaj enim presledkom.

    Primer 4.3.2. Za elemente ocene v primeru 4.3.1 lahko nastavite atribut predmet, katerega vrednost je ime discipline, iz katere se je opravljal izpit. Nato bodo za prvega študenta elementi imeli naslednjo obliko:

    A

    B

    B

    B

    Jeziki, kot je SGML, uporabljajo entitete za delo s skupinami podatkov. Entiteta je vsak imenovani podatek, tako besedilni kot nebesedilni. Pri ogledu dokumenta se ime entitete nadomesti z njeno vrednostjo. Tako bo na primer ime besedilne entitete kpi nadomeščeno z njeno vrednostjo: Kijevski politehnični inštitut, nebesedilna entiteta slika1 pa bo nadomeščena s sliko z imenom slika1.

    označevalni jeziki) je nabor posebnih navodil, imenovanih oznake, namenjenih oblikovanju strukture v dokumentih in določanju odnosov med različnimi elementi te strukture. Z drugimi besedami, oznaka kaže, kateri del dokumenta je naslov, kateri je podnaslov, kaj je treba šteti za ime avtorja itd. Oznaka je razdeljena na slogovno oznako, strukturno in pomensko. Slogovna oznaka

    Slogovna oznaka je odgovorna za videz dokumenta. Na primer, v HTML ta vrsta oznak vključuje oznake, kot so (ležeče), (krepko), (podčrtano), (prečrtano besedilo) itd.

    Strukturno označevanje

    Strukturne oznake določajo strukturo dokumenta. V HTML so na primer za to vrsto oznak odgovorne oznake (odstavek), (naslov), (razdelek) itd.

    Semantična oznaka

    Semantična oznaka sporoča vsebino podatkov. Primeri te vrste oznak so oznake (ime dokumenta), (koda, uporabljena za sezname kod), (spremenljivka), (naslov avtorja).

    Osnovni koncepti katerega koli označevalnega jezika so oznake, elementi in atributi.

    Oznake in elementi.

    Pomeni oznak in elementov so pogosto zamenjeni.

    Oznake ali kontrolni deskriptorji, kot jih tudi imenujemo, služijo kot navodila za program, ki prikaže vsebino dokumenta na strani odjemalca, kaj storiti z vsebino oznake. Da bi označili oznako glede na glavno vsebino dokumenta, se uporabljajo kotni oklepaji: oznaka se začne z znakom manj kot (), znotraj katerega so imena navodil in njihovi parametri. Na primer, v HTML oznaka označuje, da mora biti besedilo, ki sledi, v ležečem tisku.

    Element so oznake skupaj z njihovo vsebino. Naslednja konstrukcija je primer elementa:

    To besedilo je v ležečem tisku .

    Element je sestavljen iz začetne oznake (v našem primeru je to oznaka ), vsebino oznake (v primeru je to besedilo "To je besedilo v poševnem tisku") in zaključno oznako (), čeprav je včasih v HTML mogoče izpustiti zaključno oznako.

    Lastnosti

    Za nastavitev parametrov, ki pojasnjujejo značilnosti tega elementa pri definiranju elementa, se uporabljajo atributi.

    Atributi so sestavljeni iz para ime = vrednost, ki ga je mogoče podati pri definiranju elementa v začetni oznaki. Levo in desno od simbola enakosti lahko pustite presledke. Vrednost atributa je določena kot niz v enojnih ali dvojnih narekovajih.

    Vsaka oznaka ima lahko atribut, če je ta atribut definiran.

    Ko je atribut uporabljen, ima element naslednjo obliko:

    vsebino oznake

    Besedilo je poravnano na sredino

    Ena začetna oznaka lahko vsebuje več atributov, na primer:

    Določena velikost in barva besedila

    Zgodovina razvoja označevalnih jezikov.

    Koncept hiperteksta je uvedel W. Bush leta 1945, v 60. letih prejšnjega stoletja pa so se začele pojavljati prve aplikacije, ki uporabljajo podatke hiperteksta. Vendar pa je ta tehnologija dobila glavni razvoj, ko se je pojavila resnična potreba po mehanizmu za združevanje več informacijskih virov, ki omogoča ustvarjanje in ogled nelinearnega besedila.

    Leta 1986 je ISO odobril standardizirani generalizirani označevalni jezik. Ta jezik je namenjen izdelavi drugih označevalnih jezikov, definira veljaven nabor oznak, njihove atribute in notranjo strukturo dokumenta. Tako je mogoče ustvariti lastne oznake, povezane z vsebino dokumenta. Zdaj postane očitno, da je takšne dokumente težko interpretirati brez definicije označevalnega jezika, ki je shranjen v definiciji vrste dokumenta (DTD). DTD združuje vsa pravila jezika v standardu SGML. Z drugimi besedami, DTD opisuje razmerje oznak med seboj in pravila za njihovo uporabo. Poleg tega je za vsak razred dokumentov definiran lasten niz pravil, ki opisujejo slovnico ustreznega označevalnega jezika. Tako je le s pomočjo DTD mogoče preveriti pravilno uporabo oznak, zato ga je treba poslati skupaj z dokumentom SGML ali vključiti v dokument.

    Takrat je bilo poleg SGML še nekaj drugih podobnih jezikov, ki so tekmovali med seboj, vendar je priljubljenost (HTML, ki je eden od njegovih potomcev) dala SGML nesporno prednost pred svojimi kolegi.

    Z uporabo SGML lahko opišete strukturirane podatke, organizirate informacije v dokumentih in te informacije predstavite v neki standardizirani obliki. Toda zaradi svoje zapletenosti je bil SGML uporabljen predvsem za opis sintakse drugih jezikov in malo aplikacij je delovalo neposredno z dokumenti SGML. SGML se običajno uporablja samo v velikih projektih, na primer za ustvarjanje enotnega sistema za upravljanje dokumentov za veliko podjetje.

    Označevalni jezik HTML je veliko enostavnejši in priročnejši od SGML, njegova navodila so namenjena predvsem nadzoru postopka prikaza vsebine dokumenta na zaslonu. HTML kot način za označevanje tehničnih dokumentov je ustvaril Tim Berners-Lee leta 1991 posebej za znanstveno skupnost. Prvotno je bila le ena od aplikacij SGML.

    Kljub temu, da je HTML edino, kar lahko naredi, klasificirati dele dokumenta in zagotoviti njegov pravilen prikaz v brskalniku, je najbolj priljubljen označevalni jezik. To je zato, ker se je HTML zelo enostavno naučiti. Vse kar morate storiti je, da se naučite ukazov HTML. DTD za HTML je shranjen v brskalniku. Poleg tega je treba opozoriti, da je HTML zasnovan za delovanje na najrazličnejših platformah. Vendar ima številne pomembne omejitve:

  • HTML ima fiksen nabor oznak in tega nabora ni mogoče razširiti ali spremeniti;
  • Jezikovne oznake HTML prikazujejo le, kako naj bodo podatki predstavljeni, torej videz dokumenta. HTML ne nosi informacij o pomenu vsebine v oznakah ali strukturi dokumenta.