Poseban označni jezik za tekstualne dokumente naziva se. HTML jezik za označavanje dokumenata. Logičko i vizualno označavanje

označni jezici) skup je posebnih uputa, nazvanih oznakama, osmišljenih za oblikovanje strukture u dokumentima i definiranje odnosa između različitih elemenata te strukture. Drugim riječima, oznaka pokazuje koji je dio dokumenta naslov, koji podnaslov, što treba smatrati imenom autora itd. Oznaka se dijeli na stilsku, strukturnu i semantičku. Stilsko označavanje

Stilsko označavanje odgovorno je za izgled dokumenta. Na primjer, u HTML-u ova vrsta označavanja uključuje oznake kao što su (kurziv), (podebljano), (podvučeno), (precrtani tekst) itd.

Strukturno označavanje

Strukturne oznake definiraju strukturu dokumenta. U HTML-u, na primjer, oznake (odlomak), (naslov), (odjeljak) itd. odgovorne su za ovu vrstu označavanja.

Semantičko označavanje

Semantičko označavanje informira o sadržaju podataka. Primjeri ove vrste označavanja su oznake (naziv dokumenta), (kod, koji se koristi za popis kodova), (varijabla), (adresa autora).

Osnovni pojmovi svakog jezika za označavanje su oznake, elementi i atributi.

Oznake i elementi.

Značenja oznaka i elemenata često se brkaju.

Oznake, ili kontrolni deskriptori kako se još nazivaju, služe kao upute programu koji prikazuje sadržaj dokumenta na strani klijenta o tome što učiniti sa sadržajem oznake. Kako bi se označila oznaka u odnosu na glavni sadržaj dokumenta, koriste se uglaste zagrade: oznaka počinje znakom manje od (), unutar kojeg se nalazi naziv instrukcija i njihovih parametara. Na primjer, u HTML-u oznaka označava da tekst koji slijedi treba biti u kurzivu.

Element su oznake zajedno s njihovim sadržajem. Sljedeća konstrukcija je primjer elementa:

Ovaj tekst je u kurzivu .

Element se sastoji od uvodne oznake (u našem primjeru to je oznaka ), sadržaj oznake (u primjeru je to tekst "Ovo je tekst u kurzivu") i završnu oznaku (), iako se ponekad u HTML-u završna oznaka može izostaviti.

Atributi

Kako bi se postavili bilo koji parametri koji pojašnjavaju karakteristike ovog elementa prilikom definiranja elementa, koriste se atributi.

Atributi se sastoje od para naziv = vrijednost koji se može navesti prilikom definiranja elementa u početnoj oznaci. Možete ostaviti razmake lijevo i desno od simbola jednakosti. Vrijednost atributa navedena je kao niz u jednostrukim ili dvostrukim navodnicima.

Svaka oznaka može imati atribut ako je taj atribut definiran.

Kada se koristi atribut, element ima sljedeći oblik:

sadržaj oznake

Tekst je poravnat prema sredini

Jedna početna oznaka može sadržavati više atributa, na primjer:

Određena veličina i boja teksta

Povijest razvoja označnih jezika.

Koncept hiperteksta uveo je W. Bush 1945. godine, a počevši od 60-ih godina počele su se pojavljivati ​​prve aplikacije koje koriste hipertekstualne podatke. Međutim, ova je tehnologija dobila svoj glavni razvoj kada se pojavila stvarna potreba za mehanizmom za kombiniranje više izvora informacija, pružajući mogućnost stvaranja i pregleda nelinearnog teksta.

Godine 1986. ISO je odobrio standardizirani generalizirani označni jezik. Ovaj jezik namijenjen je stvaranju drugih označnih jezika, definira važeći skup oznaka, njihove atribute i unutarnju strukturu dokumenta. Tako je moguće kreirati vlastite oznake vezane uz sadržaj dokumenta. Sada postaje očito da je takve dokumente teško interpretirati bez definicije označnog jezika, koja je pohranjena u Definiciji tipa dokumenta (DTD). DTD grupira sva pravila jezika u SGML standardu. Drugim riječima, DTD opisuje međusobni odnos oznaka i pravila za njihovu upotrebu. Štoviše, za svaku klasu dokumenata definiran je vlastiti skup pravila koja opisuju gramatiku odgovarajućeg jezika za označavanje. Dakle, samo uz pomoć DTD-a može se provjeriti ispravna upotreba oznaka i stoga se mora poslati zajedno s SGML dokumentom ili uključiti u dokument.

U to vrijeme, osim SGML-a, postojalo je još nekoliko sličnih jezika koji su se međusobno natjecali, ali popularnost (HTML, koji je jedan od njegovih potomaka) dala je SGML-u neosporivu prednost nad svojim kolegama.

Pomoću SGML-a možete opisati strukturirane podatke, organizirati informacije sadržane u dokumentima i predstaviti te informacije u nekom standardiziranom formatu. Ali zbog svoje složenosti, SGML se prvenstveno koristio za opisivanje sintakse drugih jezika, a nekoliko je aplikacija radilo izravno sa SGML dokumentima. SGML se obično koristi samo u velikim projektima, na primjer, za stvaranje jedinstvenog sustava upravljanja dokumentima za veliku tvrtku.

HTML označni jezik mnogo je jednostavniji i praktičniji od SGML-a, njegove upute prvenstveno su namijenjene kontroli procesa prikazivanja sadržaja dokumenta na ekranu. HTML kao način označavanja tehničkih dokumenata osmislio je Tim Berners-Lee 1991. posebno za znanstvenu zajednicu. Izvorno je to bila samo jedna od SGML aplikacija.

Unatoč činjenici da je jedino što HTML može klasificirati dijelove dokumenta i osigurati njegov točan prikaz u pregledniku, on je najpopularniji označni jezik. To je zato što je HTML vrlo lako naučiti. Sve što trebate učiniti je naučiti HTML naredbe. DTD za HTML pohranjuje se u pregledniku. Osim toga, treba napomenuti da je HTML dizajniran za rad na velikom broju platformi. Ali ima niz značajnih ograničenja:

  • HTML ima fiksni skup oznaka, a ovaj skup se ne može proširiti ili promijeniti;
  • Tagovi HTML jezika pokazuju samo kako podaci trebaju biti prikazani, odnosno izgled dokumenta. HTML ne nosi informacije o značenju sadržaja sadržanog u oznakama ili strukturi dokumenta.
  • Početkom veljače 1998. međunarodna organizacija W3C odobrila je specifikaciju Extensible Markup Language (XML) 1.0, koja je označila početak razvoja mnogih novih jezika za označavanje za prijenos informacija putem Interneta na temelju XML standarda. U biti, to je značilo novi korak u razvoju jezika za označavanje hiperteksta. Tijekom četiri godine postojanja, XML ne samo da je privukao dosta pozornosti običnih korisnika i mnogih web dizajnera, već je postao i sastavni dio interneta. Danas praktički nema poslužitelja koji, u jednom ili drugom stupnju, ne koriste ovu tehnologiju kao analognu HTML-u. Međutim, još uvijek je u najmanju ruku preuranjeno reći da XML sada postaje glavna metoda prijenosa hiperteksta preko globalne mreže. Sam jezik je još uvijek prilično mlad, a neki od njegovih elemenata još su u razvoju. Do sada je stvoren samo opći okvir za ono što će možda u budućnosti zamijeniti HTML, ali u kojem će to konkretnom obliku biti, još je nemoguće reći.

    Od početka

    U studenom 1990. godine, kada su korisnici interneta prvi put čuli za novu tehnologiju čije je ime lako stalo u samo tri slova, gotovo nitko nije mogao zamisliti da će proći vrlo malo vremena i da će ova tehnologija postati praktički jedini način prijenosa informacija na globalnoj mreži. Danas se za mnoge neiskusne korisnike riječ Internet snažno povezuje s WWW-om, iako su zapravo te stvari, naravno, povezane jedna s drugom, ali ipak malo drugačije.

    Uglavnom, nevjerojatna popularnost World Wide Weba i njegovog sastavnog dijela, HTML-a, zasigurno je postala razlogom iznimno povećane pozornosti na strukture hipertekstualnog označavanja dokumenata.

    Pojam hiperteksta prvi je uveo V. Bush davne 1945. godine. Međutim, stvarne aplikacije koje koriste takve strukture podataka počele su se koristiti tek od 60-ih godina prošlog stoljeća, a doista izniman val aktivnosti oko ove tehnologije započeo je tek kada se pojavila stvarna potreba za mehanizmom za kombiniranje višestrukih informacijskih resursa, pružajući mogućnost stvaranja i prikaz nelinearnog teksta. A primjer implementacije ovog mehanizma bio je isti WWW.

    Sam jezik za označavanje dokumenta skup je posebnih uputa koje se nazivaju oznakama (u nekim prevedenim publikacijama oznake se nazivaju prečacima), osmišljenih za stvaranje strukture u dokumentima i definiranje odnosa između različitih elemenata te strukture. Oznake označnog jezika ili kontrolni deskriptori, kako se ponekad nazivaju, kodirani su u takvim dokumentima na vrlo specifičan način, dodijeljeni u odnosu na glavni sadržaj dokumenta, a zatim služe kao upute za program koji tumači i prikazuje sadržaj dokument, zapravo, osobi koja ga gleda, ako pokušate pronaći analogije s internetom, onda je taj netko klijent, a program tumača u najčešćem slučaju je preglednik). Već u prvim sustavima odlučeno je koristiti simbole "" za označavanje ovih naredbi, unutar kojih su postavljeni nazivi instrukcija i njihovi parametri. Danas je ovaj način imenovanja oznaka općeprihvaćen standard.

    Sama upotreba hipertekstnog rastavljanja tekstualnog dokumenta u modernim informacijskim sustavima uvelike je posljedica činjenice da vam hipertekst omogućuje stvaranje mehanizma za takozvano nelinearno gledanje informacija. To znači da u sustavima podaci nisu prikazani kao kontinuirani tok tekstualnih struktura, već kao skup međusobno povezanih komponenti, kojima se kreće pomoću hiperveza.

    Najpopularniji i najpoznatiji hipertekstualni označni jezik danas, HTML, stvoren je posebno za strukturiranje i prijenos informacija koje se nalaze na Internetu i nedvojbeno je ključna komponenta WWW tehnologije. Korištenjem modela hipertekstualnih dokumenata način predstavljanja različitih informacijskih izvora na mreži postao je uređeniji, a korisnici su dobili prikladan mehanizam za pretraživanje i pregled potrebnih informacija. Međutim, prvim znakom po ovom pitanju još uvijek se smatra mnogo stariji jezik - SGML.

    SGML (Standard Generalized Markup Language) službeno je usvojen 1986. kao međunarodni standard (ISO 8879:1986) za opisivanje ulazno/izlaznih uređaja i metoda neovisnih o okruženju za predstavljanje tekstualnih informacija u elektroničkom obliku. Osnova za njegovo stvaranje bio je prilično stari označni jezik GML (Generalized Markup Language), koji je razvio IBM još u doba prvih osobnih računala. Da budemo precizni, SGML je metajezik dizajniran za opisivanje drugih jezika za označavanje.

    Izvorno se riječ markup obično koristila za opisivanje komentara ili drugih oznaka unutar teksta koje su trebale uputiti pisca dokumenta, ili "dizajnera izgleda", kako se to ponekad naziva, kako točno treba upisati određeni odlomak. Takve metode mogu uključivati ​​vijugavo podcrtavanje za označavanje kurziva, neke posebne ikone za preskakanje određenih fraza ili njihovo ispisivanje određenim fontom i tako dalje. Kako su formatiranje i ispis s vremenom postali automatizirani, pojam je obuhvaćao sve vrste posebnih kodova za označavanje koji su umetnuti u elektroničke tekstualne dokumente za kontrolu oblikovanja, ispisa ili druge obrade.

    Označni jezik se stoga odnosi na skup konvencija oblikovanja koje se koriste za kodiranje blokova teksta. Označni jezik mora jasno naznačiti koje su oznake prihvatljive u određenom dokumentu, koje su oznake potrebne, kako razlikovati njegove elemente od običnog teksta i što označavanje znači. SGML je uspio riješiti prva tri problema, a rješenje posljednjeg zahtijevalo je postojanje neformalnog opisa.

    SGML, za razliku od svih drugih jezika za označavanje stvorenih na njegovoj osnovi, koristi princip takozvanog deskriptivnog označavanja umjesto proceduralnog označavanja. Takav sustav koristi elemente označavanja koji jednostavno daju nazive za dodjelu pojedinih dijelova dokumenta određenim kategorijama. Drugim riječima, oznake kao što je Or \end(list) jednostavno identificiraju dio dokumenta i navode da je "ovaj dio paragraf" ili da je "ovaj dio kraj započete liste" itd. Sustav koji koristi proceduralno označavanje (to uključuje programe za obradu teksta, na primjer, Microsoft Word) određuje kakva će se obrada izvršiti na određenom mjestu u tekstualnom dokumentu: „na ovom mjestu pozovite tu i tu proceduru s parametrima 5, e i z” ili “pomaknite obrub dokumenta 7 mm udesno u odnosu na bilo koji element, preskočite jedan redak, započnite sljedeći od crvene crte itd. U SGML-u, upute koje su potrebne za obradu dokumenta za neku specifičnu svrhu (na primjer, oblikovanje) jasno su odvojene od opisne oznake koja se pojavljuje unutar dokumenta. Obično se prikupljaju izvan dokumenta u posebnim procedurama ili programima.

    Korištenjem deskriptivnog, a ne proceduralnog označavanja, isti dokument mogu obraditi različiti programi, od kojih svaki može primijeniti vlastite upute za obradu na one njegove dijelove koje smatra važnima. Na primjer, program za analizu sadržaja može potpuno zanemariti fusnote, dok ih program za oblikovanje može izdvojiti i sastaviti za ispis na kraju svakog dijela. Različite vrste uputa za obradu mogu biti povezane s istim dijelom datoteke. Na primjer, jedan program može izdvojiti imena ljudi i imena mjesta iz dokumenta kako bi stvorio indeks ili bazu podataka, dok bi drugi program koji obrađuje isti tekst mogao ispisati imena drugačijim fontom.

    SGML također uvodi pojam tipa dokumenta, a shodno tome i načine njegovog definiranja (definicija tipa dokumenta, DTD). Dokumenti se smatraju tipkanim, baš kao i drugi računalno obrađeni objekti. Vrstu dokumenta formalno određuju njegovi sastavni dijelovi i njihova struktura. Na primjer, može se definirati vrsta dokumenta tako da se sastoji od naslova i možda imena autora, nakon čega slijedi sažetak i niz od jednog ili više odlomaka. Bilo koji dokument bez naslova, prema ovoj formalnoj definiciji, neće biti izvješće, kao što to neće biti ni niz paragrafa iza kojih slijedi sažetak, bez obzira na to koliko izvješću dokument može biti s ljudskog stajališta. čitatelj..

    Budući da su dokumenti poznatih vrsta, možete upotrijebiti poseban program koji se zove parser za obradu dokumenta koji tvrdi da je određene vrste i provjeriti jesu li svi elementi potrebni za tu vrstu dokumenta prisutni i pronađeni u ispravnom redoslijedu i ispravno strukturiran. Što je još važnije, različiti dokumenti iste vrste mogu se obrađivati ​​na jednoobrazan način. Moguće je pisati programe koji koriste znanje sadržano u informacijskoj strukturi dokumenta, koji na taj način može biti inteligentniji.

    SGML, kao metajezik, omogućuje definiranje specifičnih jezika (često zvanih "SGML aplikacije") koji ciljaju na određene aplikacije. Primjer za to je HTML jezik, široko korišten na WWW-u. Svaki takav jezik opisan je u obliku DTD-a, definirajući elemente i njihove atribute. Jednom kada se dobije takav DTD, SGML softver može ispravno obraditi dokumente napisane prema tom DTD-u.

    Čak iu projektu, ovaj jezik je zamišljen posebno za implementaciju modela prijenosa informacija na globalnu mrežu koju sada imamo. Drugim riječima, HTML je proizvod Interneta. Iako je zapravo HTML pojednostavljena verzija Standard Generalized Markup Language - SGML (Standard Generalized Markup Language), koji je ISO odobrio kao standard još 80-ih godina prošlog stoljeća. SGTML nije jezik u svom čistom obliku, već skup nekih pravila i opisa za kreiranje drugih jezika; on definira važeći skup oznaka, njihove atribute i unutarnju strukturu dokumenta. Kontrola nad ispravnom upotrebom deskriptora provodi se pomoću posebnog skupa pravila koji se nazivaju DTD opisi, a koje koristi klijentski program tumača prilikom parsiranja dokumenta. Za svaku klasu dokumenata definiran je vlastiti skup pravila koja opisuju gramatiku odgovarajućeg označnog jezika. Pomoću SGML-a možete organizirati informacije sadržane u dokumentima, opisati strukturirane podatke i predstaviti te informacije u nekom standardiziranom formatu za kasniju upotrebu. Međutim, zbog neke svoje složenosti, SGML se uglavnom koristio za opisivanje sintakse drugih jezika (od kojih je najpoznatiji HTML), a malo je aplikacija radilo izravno sa SGML dokumentima.

    HTML je mnogo praktičniji i lakši za korištenje jezik od SGML-a. Ne dopušta definiranje dodatnih jezika na njegovoj osnovi. Korištenje HTML-a uključuje označavanje dokumenta prema standardu koji je definiran prilično ograničenim skupom uputa ili oznaka. Takve upute imaju za cilj, prije svega, kontrolu procesa prikaza sadržaja dokumenta na ekranu klijentskog programa i time određuju način prikaza dokumenta, ali ne i njegovu cjelokupnu strukturu. U većini slučajeva, HTML podaci su predstavljeni u običnoj tekstualnoj datoteci koja se lako može prenijeti preko mreže koristeći http protokol.

    Međutim, kako vrijeme prolazi i postavlja sve strože zahtjeve pred popularne tehnologije, moderne aplikacije trebaju ne samo jezik za prezentaciju podataka na zaslonu klijenta, već i mehanizam koji omogućuje određivanje strukture dokumenta i opisivanje elemenata koje sadrži . HTML ima jednostavan skup naredbi i prilično se uspješno nosi sa zadatkom opisivanja tekstualnih informacija i njihovog prikazivanja na zaslonu programa za gledanje - preglednika. Međutim, sami prikazani podaci nisu ni na koji način povezani s oznakama koje se koriste za oblikovanje, tako da programi za raščlanjivanje nemaju mogućnost korištenja HTML oznaka za pronalaženje dijelova dokumenta koji su nam potrebni. Oni. naišavši npr. na takav opis

    ruža

    Gledatelj će znati kojom bojom treba prikazati tekst sadržan u oznakama i, najvjerojatnije, ispravno će je prikazati, ali apsolutno je svejedno gdje se u dokumentu ta oznaka nalazi, u kojim drugim oznakama je trenutačni fragment okružen, je li postoje fragmenti ugniježđeni u njemu, jesu li odnosi između objekata ispravno konstruirani. Ova "ravnodušnost" prema strukturi dokumenta dovodi do činjenice da se pretraživanje ili analiza informacija unutar njega neće razlikovati od rada s kontinuiranom tekstualnom datotekom koja nije razbijena na elemente. A ovo, kao što znate, nije najučinkovitiji način rada s informacijama.

    Drugi značajan nedostatak same ideje, implementirane u HTML-u, je ograničeni skup njezinih oznaka. DTD pravila za HTML definiraju fiksni skup deskriptora i stoga programer nema mogućnost unosa vlastitih, posebnih oznaka. Iako se s vremena na vrijeme pojavljuju nova jezična proširenja (danas je najnovija verzija HTML-a HTML 4.0), dugi put do njihove standardizacije, popraćen stalnim nesuglasicama između glavnih proizvođača preglednika, čini gotovo nemogućom brzu prilagodbu jezika, njegovu upotrebu za prikaz specijaliziranih informacija (na primjer, multimedijskih, matematičkih, kemijskih formula itd.).

    Sumirajući sve što je rečeno, može se tvrditi da HTML danas ne zadovoljava u potpunosti zahtjeve koje nameću moderni programeri za jezike ove vrste. A da ga zamijeni, predložen je novi jezik za označavanje hiperteksta: snažan, fleksibilan i, u isto vrijeme, prikladan XML jezik.

    XML (Extensible Markup Language) je označni jezik koji opisuje cijelu klasu podatkovnih objekata koji se nazivaju XML dokumenti. Ovaj jezik se koristi kao sredstvo za opisivanje gramatike drugih jezika i za kontrolu ispravnosti dokumenata. Oni. Sam XML ne sadrži nikakve oznake namijenjene označavanju, on jednostavno definira redoslijed kojim su kreirani. Dakle, ako, na primjer, mislimo da trebamo upotrijebiti oznaku za predstavljanje elementa ruže u dokumentu, tada nam XML dopušta da slobodno koristimo oznaku koju definiramo, au dokument možemo uključiti isječke poput sljedećih:

    ruža

    Skup oznaka može se lako proširiti. Ako, pretpostavimo, također želimo naznačiti da bi opis cvijeta trebao smisleno ići unutar opisa staklenika u kojem cvjeta, tada jednostavno postavljamo nove oznake i biramo redoslijed kojim se pojavljuju:

    ruža

    Ako tamo želimo posaditi još nekoliko cvjetova, moramo napraviti sljedeće promjene:

    ruža

    lala

    kaktus

    Kao što možete vidjeti, proces kreiranja XML dokumenta je vrlo jednostavan i zahtijeva od nas samo osnovno znanje o HTML-u i razumijevanje zadataka koje želimo obaviti korištenjem XML-a kao jezika za označavanje. To programerima daje jedinstvenu mogućnost definiranja prilagođenih naredbi koje im omogućuju najučinkovitije definiranje podataka sadržanih u dokumentu. Autor dokumenta kreira njegovu strukturu, gradi potrebne veze među elementima, koristeći one naredbe koje zadovoljavaju njegove zahtjeve, te postiže vrstu označavanja koja mu je potrebna za obavljanje operacija pregledavanja, pretraživanja i analize dokumenta.

    Još jedna očita prednost XML-a je mogućnost da se koristi kao univerzalni jezik upita za repozitorije informacija. Danas se u dubinama W3C-a razmatra radna verzija XML-QL (ili XQL) standarda, koji bi u budućnosti mogao postati ozbiljan konkurent SQL-u. Osim toga, XML dokumenti mogu djelovati kao jedinstveni način pohranjivanja podataka koji uključuje i sredstva za analizu informacija i njihovo predstavljanje na strani klijenta. U ovom području jedno od obećavajućih područja je integracija Java i XML tehnologija, što omogućuje korištenje snage obiju tehnologija pri izgradnji aplikacija neovisnih o stroju koje također koriste univerzalni format podataka za razmjenu informacija.

    XML također omogućuje kontrolu ispravnosti podataka pohranjenih u dokumentima, provjeru hijerarhijskih odnosa unutar dokumenta i uspostavljanje jedinstvenog standarda za strukturu dokumenata, čiji sadržaj mogu biti različiti podaci. To znači da se može koristiti pri izgradnji složenih informacijskih sustava, u kojima je vrlo važno pitanje razmjene informacija između različitih aplikacija koje rade u istom sustavu. Stvaranjem strukture za mehanizam razmjene informacija na samom početku rada na projektu, menadžer se u budućnosti može spasiti od mnogih problema povezanih s nekompatibilnošću formata podataka koje koriste različite komponente sustava.

    Također, jedna od prednosti XML-a je što su programi za obradu XML dokumenata jednostavni, a danas se slobodno distribuiraju sve vrste programskih proizvoda namijenjenih za rad s XML dokumentima. XML je danas podržan u svim preglednicima obitelji Microsoft Internet Explorer, počevši od verzije 4.0. Najavljeno je da će biti podržan u sljedećim verzijama aplikacija Netscape Communicator, Oracle DBMS, DB-2 i MS-Office. Sve to daje razloga za pretpostavku da će najvjerojatnije u bliskoj budućnosti XML postati glavni jezik za razmjenu informacija za informacijske sustave, čime će zamijeniti HTML. Dobro poznati specijalizirani označni jezici kao što su SMIL, CDF, MathML, XSL već su stvoreni na temelju XML-a, a popis radnih nacrta novih jezika koje W3C razmatra stalno raste.

    Kako izgleda XML dokument?

    Ako ste upoznati s HTML-om, učenje XML-a neće zahtijevati puno truda s vaše strane. Iako se XML u svojim mogućnostima i namjerama svakako jako razlikuje od HyperText Markup Language, oba su jezika podskupovi SGML-a i stoga nasljeđuju njegova osnovna načela.

    Struktura dokumenta

    Jednostavan XML dokument mogao bi izgledati kao Primjer 1

    Prvi

    Drugi podstavak 1

    Treći

    Posljednji

    Imajte na umu da je ovaj dokument vrlo sličan običnoj HTML stranici. Baš kao u HTML-u, upute u uglastim zagradama nazivaju se oznakama i služe za označavanje tijela dokumenta. U XML-u postoje oznake za otvaranje, zatvaranje i prazne oznake (u HTML-u također postoji koncept prazne oznake, ali nije potrebno posebno označavanje).

    Tijelo XML dokumenta sastoji se od markup elemenata i stvarnog sadržaja dokumenta – podataka (content). XML oznake dizajnirane su za definiranje elemenata dokumenta, njihovih atributa i drugih jezičnih konstrukcija. Razgovarat ćemo detaljnije o vrstama oznaka koje se koriste u dokumentima malo kasnije.

    Svaki XML dokument mora uvijek započeti uputom, unutar koje također možete navesti broj jezične verzije, broj kodne stranice i druge parametre potrebne da bi analizator analizirao dokument.

    Pravila za izradu XML dokumenta

    Općenito, XML dokumenti moraju zadovoljiti sljedeće zahtjeve:

    Zaglavlje dokumenta sadrži XML deklaraciju koja navodi označni jezik dokumenta, broj verzije i dodatne informacije.

    Svaka početna oznaka koja definira neko područje podataka u dokumentu mora imati svog završnog "partnera", tj. za razliku od HTML-a, završne oznake se ne mogu izostaviti.

    XML je osjetljiv na velika i mala slova.

    Sve vrijednosti atributa koje se koriste u definicijama oznaka moraju biti u navodnicima.

    Ugniježđenje oznaka u XML-u je strogo kontrolirano, stoga je potrebno pratiti redoslijed otvaranja i zatvaranja oznaka.

    Sve informacije između početne i završne oznake tretiraju se kao podaci u XML-u, pa se stoga svi znakovi oblikovanja uzimaju u obzir (tj. razmaci, prijelomi retka, tabulatori se ne zanemaruju kao u HTML-u).

    Ako XML dokument ne krši gornja pravila, tada se naziva formalno ispravnim i svi analizatori dizajnirani za analizu XML dokumenata moći će ispravno raditi s njim.

    Međutim, osim provjere formalne usklađenosti s gramatikom jezika, dokument može sadržavati sredstva kontrole nad sadržajem dokumenta, nad usklađenošću s pravilima koja određuju potrebne odnose među elementima i oblikuju strukturu dokumenta. Na primjer, sljedeći tekst, iako savršeno ispravan XML dokument, bit će potpuno besmislen:

    Rusija Novosibirsk

    Kako bi se osigurala provjera ispravnosti XML dokumenata, potrebno je koristiti analizatore koji vrše takvu provjeru, a nazivaju se verifikatori.

    Danas postoje dva glavna načina kontrole ispravnosti XML dokumenta: DTD definicije (Document Type Definition) i podatkovne sheme (Semantic Schema). Sljedeći put ćemo više govoriti o korištenju DTD-ova i shema. Za razliku od SGML-a, definiranje DTD pravila u XML-u nije potrebno, a ova nam okolnost omogućuje stvaranje bilo kakvih XML dokumenata bez razbijanja glave oko prilično komplicirane DTD sintakse.

    Osnovno načelo

    Element je osnovna strukturna jedinica XML dokumenta. Stavljanjem riječi ruža u oznake definiramo neprazan element pod nazivom , čiji je sadržaj ruža. U općem slučaju, sadržaj elemenata može biti jednostavno neki tekst ili drugi ugniježđeni elementi dokumenta, CDATA odjeljci, upute za obradu, komentari, tj. gotovo bilo koji dio XML dokumenta.

    Svaki element koji nije prazan mora se sastojati od početne oznake, završne oznake i podataka između njih.

    Skup svih elemenata sadržanih u dokumentu definira njegovu strukturu i određuje sve hijerarhijske odnose. Pomoću elemenata, ravni model podataka transformira se u složen hijerarhijski sustav s mnogo mogućih odnosa među elementima.

    Prilikom naknadnog pretraživanja dokumenta klijentski program će se osloniti na informacije ugrađene u njegovu strukturu - pomoću elemenata dokumenta. Oni. ako, na primjer, želite pronaći pravo sveučilište u pravom gradu, tada ćete morati pogledati sadržaj određenog elementa koji se nalazi unutar određenog elementa. Pretraživanje će u ovom slučaju, naravno, biti mnogo učinkovitije od pronalaženja željenog niza kroz cijeli dokument.

    U XML dokumentu, u pravilu, definiran je barem jedan element, koji se naziva root, i parseri počinju skenirati dokument od tog elementa. U gornjem primjeru, ovaj element je .

    U nekim slučajevima oznake mogu promijeniti i pojasniti semantiku određenih fragmenata dokumenta, definirajući iste informacije na različite načine i tako aplikaciji koja analizira ovaj dokument pružiti informacije o kontekstu korištenja opisanih podataka. Na primjer, nakon čitanja holivudskog fragmenta, možemo pretpostaviti da je ovaj dio dokumenta o gradu, ali u holivudskom fragmentu riječ je o restoranu.

    Zaključak

    Jezik za oblikovanje web stranice HTML izvorno je predstavljen kao primjena SGML-a. Kasnije, s brzim razvojem WWW-a, HTML se počeo širiti na sve moguće načine kako bi autoru omogućio veću kontrolu nad vanjskim prikazom informacija. Novi elementi i atributi, kao što su ili , usmjereni su na vizualno oblikovanje. Pojavili su se i počeli aktivno koristiti alati koji nisu dio samog označnog jezika: imagemaps, Java i JavaScript, dodaci itd. Također postoje mnogi HTML elementi koje podržavaju samo određeni preglednici ili koji rade drugačije u različitim preglednicima. Stoga je sada teško reći je li HTML SGML aplikacija ili nije. Vrlo je mali broj stranica izrađen prema HTML specifikacijama i odgovarajućim DTD-ovima.

    Ovaj problem djelomično se namjerava ublažiti kaskadnim stilovima, čiji je standard usvojio konzorcij W3. CSS1 odvaja stil koji definira vizualni izgled elemenata od oznake elementa.

    Od velikog je interesa XML jezik, koji bi trebao zamijeniti HTML kao označni jezik za web stranice. Ovo je varijanta SGML-a, prvenstveno usmjerena na korištenje na WWW-u. Ne zahtijeva DTD, a sam jezik je pojednostavljen zbog rijetko korištenih složenih struktura. Ovo će parsere učiniti jednostavnima, što će omogućiti aktivnu upotrebu XML-a u preglednicima. (Vjerojatnost za to je prilično velika, s obzirom na naklonost oba glavna igrača u području preglednika prema XML-u).


    VERZIJA ZA ISPIS>>
    Članak pročitan:jednom.

    (Standardni generalizirani označni jezik), predstavljen u standardu ISO 8879. Ovaj jezik usvojen je kao glavni jezik za dizajn tehničke dokumentacije, uključujući interaktivne elektroničke tehničke priručnike za proizvode izrađene pomoću CALS tehnologije.

    SGML definira strukturu dokumenata kao niz podatkovnih objekata. Podatkovni objekti koji predstavljaju dijelove dokumenta mogu se pohraniti u različite datoteke. Standard SGML uspostavlja skup simbola i pravila za predstavljanje informacija koji omogućuju različitim sustavima da ispravno prepoznaju i identificiraju te informacije. Ovi skupovi su opisani u zasebnom dijelu dokumenta koji se zove DTD deklaracija(Document Type Decfinition), koji se prenosi zajedno s glavnim SGML dokumentom. DTD specificira korespondenciju znakova i njihovih kodova, maksimalnu duljinu korištenih identifikatora, način na koji su graničnici za oznake predstavljeni, druge moguće konvencije, DTD sintaksu te vrstu i verziju dokumenta. Stoga se SGML može nazvati metajezikom za obitelj specifičnih označnih jezika. Konkretno, XML jezici za označavanje mogu se smatrati podskupovima SGML-a i HTML.

    Tehnički opis u obliku SGML dokumenta uključuje:

    • glavna datoteka s tehničkim priručnikom, označena SGML oznakama;
    • opis entiteta, ako dokument pripada skupini u kojoj se koriste isti entiteti i njihova se slava podrazumijeva;
    • rječnik za objašnjenje SGML oznaka;

    Međutim, SGML je teško naučiti i koristiti. Stoga, za široku upotrebu označavanja u dokumentima koji se podnose na WWW-tehnologije, 1991. godine razvijen je pojednostavljeni HTML jezik temeljen na SGML-u(HyperText Markup Language), a 1996. jezik XML(eXtensible Markup Language), koji u kombinaciji s HTML-om postaje glavni jezik za prezentaciju dokumenata u različitim aplikacijama.

    HTML jezik je razvijen za široku upotrebu označavanja u dokumentima predstavljenim u WWW tehnologijama.

    HTML opis sastoji se od ASCII teksta i niza naredbi (kontrolnih kodova) uključenih u njega, koji se također nazivaju deskriptori ili oznake. Taj se tekst naziva HTML dokument ili HTML stranica, ili kada se objavi na web poslužitelju, web stranica.. Oznake se postavljaju na prava mjesta u izvornom tekstu; one određuju fontove, crtice, izgled grafike, poveznice itd. Kada koristite WWW editore, naredbe se ubacuju jednostavnim pritiskom na odgovarajuće tipke.

    XML se, kao i HTML, smatra podskupom SGML-a. Trenutno, XML jezik tvrdi da je glavni jezik za prezentaciju dokumenata u informacijskoj tehnologiji; može se smatrati metajezikom koji služi kao osnova za stvaranje privatnih jezika za označavanje u različitim aplikacijama. U isto vrijeme, XML je praktičniji od SGML-a, što je osigurano uklanjanjem nekih manjih značajki SGML-a u XML-u. Opisi u XML-u su lakši za razumijevanje i prilagođeni za korištenje u modernim preglednicima zadržavajući osnovne značajke SGML-a.

    Za određene aplikacije stvaraju se vlastite verzije XML-a, koje se nazivaju XML rječnici ili XML aplikacije. Stoga je razvijen XML aplikacijski OSD (Open Software Description) za opisivanje tekstova s ​​određenim matematičkim simbolima. Od interesa za CALS je opcija Product Definition eXchange (PDX) namijenjena razmjeni podataka. Postoje rječnici za kemiju (CML - Chemical Markup Language), biologiju (BSML - Bioinformatic Sequence Markup Language) itd.

    Svaki dokument ima tri komponente:

    · struktura;

    Sadržaj je informacija koja se prikazuje u dokumentu. Sadržaj dokumenta na papiru može biti čisto tekstualni i sadržavati i slike. Ako je dokument predstavljen u elektroničkom obliku, može sadržavati multimedijske podatke, kao i poveznice na druge dokumente. Iako se sadržaj različitih dokumenata razlikuje, oni se mogu razvrstati u vrste, poput knjige ili karte za vlak.

    Stil dokumenta određuje oblik u kojem će se njegov sadržaj prikazati na određenom uređaju (na primjer, pisaču ili zaslonu). Koncept stila uključuje karakteristike fonta (naziv, veličina, boja) cijelog izlaznog dokumenta ili njegovih pojedinačnih blokova, redoslijed paginacije, položaj blokova na stranicama i druge parametre. Isti dokument može biti ispisan u različitim stilovima, na različitim medijima i na istom mediju.

    Označni jezici dokumenta su umjetni jezici dizajnirani za opisivanje strukture dokumenta i odnosa između različitih objekata strukture. Označni podaci nazivaju se i metapodaci.

    Prvi označni jezik je GML (Generalized Markup Language), koji su razvili zaposlenici IBM-a još 60-ih godina prošlog stoljeća. Njegov neposredni nasljednik bio je jezik SGML (Standard Generalized Markup Language), koji definira pravila za pisanje elemenata za označavanje dokumenta. Dokument koji slijedi pravila jezika naziva se SGML dokument.

    Jezik SGML definiran je u standardu ISO 8879, koji specificira sljedeće osnovne zahtjeve za jezik za označavanje dokumenata:

    · Jezik mora biti čitljiv ljudima.

    · datoteke s označenim dokumentima moraju biti tekstualne i kodirane korištenjem znakova ASCII koda (Američki standardni kod za razmjenu informacija). Međutim, sadržaj dokumenta ne mora biti ASCII kodiran ili tekst.

    SGML i slični jezici koriste posebne alate za označavanje dokumenata:

    · elementi i popratni atributi;

    · entiteti;

    · komentari.

    Strukturna jedinica SGML dokumenta je element. U označenom tekstu svaki element mora biti istaknut na određeni način. Odabir se vrši umetanjem početne oznake (od engleske riječi tag - oznaka) na početak elementa (start tag) i završne oznake (end tag) na kraj elementa. Početna i završna oznaka imaju isti naziv. Kako bi se oznake razlikovale od običnog teksta, moraju započeti znakom koji označava početak oznake i završavati znakom koji označava kraj oznake. Osim toga, u završnoj oznaci naveden je simbol - znak završne oznake. U SGML-u se kao takve karakteristike mogu navesti bilo koji znakovi, ali najčešće se znak “” (lijeva ugla zagrada) koristi kao početak oznake, a znak “/” (kosa crta) koristi se kao završni znak oznake. Elementi u SGML dokumentu mogu uključivati ​​druge elemente, što rezultira grafičkim prikazom SGML dokumenta kao hijerarhijske strukture (stablo).


    Primjer 4.3.1. SGML dokument koji navodi popis studenata s rezultatima njihovih ispita može se navesti na sljedeći način:

    Popis studentskih ocjena na sesiji

    Ivanov Ivan Ivanovič

    TS-61

    A

    B

    B

    B

    Petrov Petr Petrovič

    TS-62

    C

    C

    D

    C

    U ovom dokumentu, prvi element je element liste učenika. Ovaj element sadrži jedan element naslova (title) i nekoliko elemenata student (podaci o studentu). Zauzvrat, svaki element studenta sadrži jedan element punog imena (prezime, ime i patronim studenta), jedan element broja grupe (broj grupe) i jedan element popisa bodova (popis ocjena studenta u sesiji). I konačno, element popisa bodova sadrži nekoliko elemenata bodova (bod).

    Grafički prikaz ove liste na Sl. 4.3.1 ima strukturu stabla:

    Riža. 4.3.1. Struktura SGML dokumenta u grafičkom prikazu

    Atributi se mogu koristiti za pročišćavanje SGML elemenata. Atributi su zapisani u početnoj oznaci elementa na sljedeći način:

    naziv-atributa="vrijednost-atributa".

    Element može imati više navedenih atributa. Atributi su međusobno i od naziva elementa odvojeni najmanje jednim razmakom.

    Primjer 4.3.2. Za elemente ocjene u primjeru 4.3.1 možete postaviti atribut predmet čija je vrijednost naziv discipline iz koje se ispit polagao. Tada će za prvog učenika elementi imati sljedeći oblik:

    A

    B

    B

    B

    Jezici kao što je SGML koriste entitete za rad sa grupama podataka. Entitet je bilo koji imenovani podatak, tekstualni i netekstualni. Prilikom pregledavanja dokumenta, naziv entiteta zamjenjuje se njegovom vrijednošću. Tako će, na primjer, naziv tekstualnog entiteta kpi biti zamijenjen njegovom vrijednošću: Kijevski politehnički institut, a netekstualni entitet slika1 bit će zamijenjen slikom pod nazivom slika1.

    označni jezici) skup je posebnih uputa, nazvanih oznakama, osmišljenih za oblikovanje strukture u dokumentima i definiranje odnosa između različitih elemenata te strukture. Drugim riječima, oznaka pokazuje koji je dio dokumenta naslov, koji podnaslov, što treba smatrati imenom autora itd. Oznaka se dijeli na stilsku, strukturnu i semantičku. Stilsko označavanje

    Stilsko označavanje odgovorno je za izgled dokumenta. Na primjer, u HTML-u ova vrsta označavanja uključuje oznake kao što su (kurziv), (podebljano), (podvučeno), (precrtani tekst) itd.

    Strukturno označavanje

    Strukturne oznake definiraju strukturu dokumenta. U HTML-u, na primjer, oznake (odlomak), (naslov), (odjeljak) itd. odgovorne su za ovu vrstu označavanja.

    Semantičko označavanje

    Semantičko označavanje informira o sadržaju podataka. Primjeri ove vrste označavanja su oznake (naziv dokumenta), (kod, koji se koristi za popis kodova), (varijabla), (adresa autora).

    Osnovni pojmovi svakog jezika za označavanje su oznake, elementi i atributi.

    Oznake i elementi.

    Značenja oznaka i elemenata često se brkaju.

    Oznake, ili kontrolni deskriptori kako se još nazivaju, služe kao upute programu koji prikazuje sadržaj dokumenta na strani klijenta o tome što učiniti sa sadržajem oznake. Kako bi se označila oznaka u odnosu na glavni sadržaj dokumenta, koriste se uglaste zagrade: oznaka počinje znakom manje od (), unutar kojeg se nalazi naziv instrukcija i njihovih parametara. Na primjer, u HTML-u oznaka označava da tekst koji slijedi treba biti u kurzivu.

    Element su oznake zajedno s njihovim sadržajem. Sljedeća konstrukcija je primjer elementa:

    Ovaj tekst je u kurzivu .

    Element se sastoji od uvodne oznake (u našem primjeru to je oznaka ), sadržaj oznake (u primjeru je to tekst "Ovo je tekst u kurzivu") i završnu oznaku (), iako se ponekad u HTML-u završna oznaka može izostaviti.

    Atributi

    Kako bi se postavili bilo koji parametri koji pojašnjavaju karakteristike ovog elementa prilikom definiranja elementa, koriste se atributi.

    Atributi se sastoje od para naziv = vrijednost koji se može navesti prilikom definiranja elementa u početnoj oznaci. Možete ostaviti razmake lijevo i desno od simbola jednakosti. Vrijednost atributa navedena je kao niz u jednostrukim ili dvostrukim navodnicima.

    Svaka oznaka može imati atribut ako je taj atribut definiran.

    Kada se koristi atribut, element ima sljedeći oblik:

    sadržaj oznake

    Tekst je poravnat prema sredini

    Jedna početna oznaka može sadržavati više atributa, na primjer:

    Određena veličina i boja teksta

    Povijest razvoja označnih jezika.

    Koncept hiperteksta uveo je W. Bush 1945. godine, a počevši od 60-ih godina počele su se pojavljivati ​​prve aplikacije koje koriste hipertekstualne podatke. Međutim, ova je tehnologija dobila svoj glavni razvoj kada se pojavila stvarna potreba za mehanizmom za kombiniranje više izvora informacija, pružajući mogućnost stvaranja i pregleda nelinearnog teksta.

    Godine 1986. ISO je odobrio standardizirani generalizirani označni jezik. Ovaj jezik namijenjen je stvaranju drugih označnih jezika, definira važeći skup oznaka, njihove atribute i unutarnju strukturu dokumenta. Tako je moguće kreirati vlastite oznake vezane uz sadržaj dokumenta. Sada postaje očito da je takve dokumente teško interpretirati bez definicije označnog jezika, koja je pohranjena u Definiciji tipa dokumenta (DTD). DTD grupira sva pravila jezika u SGML standardu. Drugim riječima, DTD opisuje međusobni odnos oznaka i pravila za njihovu upotrebu. Štoviše, za svaku klasu dokumenata definiran je vlastiti skup pravila koja opisuju gramatiku odgovarajućeg jezika za označavanje. Dakle, samo uz pomoć DTD-a može se provjeriti ispravna upotreba oznaka i stoga se mora poslati zajedno s SGML dokumentom ili uključiti u dokument.

    U to vrijeme, osim SGML-a, postojalo je još nekoliko sličnih jezika koji su se međusobno natjecali, ali popularnost (HTML, koji je jedan od njegovih potomaka) dala je SGML-u neosporivu prednost nad svojim kolegama.

    Pomoću SGML-a možete opisati strukturirane podatke, organizirati informacije sadržane u dokumentima i predstaviti te informacije u nekom standardiziranom formatu. Ali zbog svoje složenosti, SGML se prvenstveno koristio za opisivanje sintakse drugih jezika, a nekoliko je aplikacija radilo izravno sa SGML dokumentima. SGML se obično koristi samo u velikim projektima, na primjer, za stvaranje jedinstvenog sustava upravljanja dokumentima za veliku tvrtku.

    HTML označni jezik mnogo je jednostavniji i praktičniji od SGML-a, njegove upute prvenstveno su namijenjene kontroli procesa prikazivanja sadržaja dokumenta na ekranu. HTML kao način označavanja tehničkih dokumenata osmislio je Tim Berners-Lee 1991. posebno za znanstvenu zajednicu. Izvorno je to bila samo jedna od SGML aplikacija.

    Unatoč činjenici da je jedino što HTML može klasificirati dijelove dokumenta i osigurati njegov točan prikaz u pregledniku, on je najpopularniji označni jezik. To je zato što je HTML vrlo lako naučiti. Sve što trebate učiniti je naučiti HTML naredbe. DTD za HTML pohranjuje se u pregledniku. Osim toga, treba napomenuti da je HTML dizajniran za rad na velikom broju platformi. Ali ima niz značajnih ograničenja:

  • HTML ima fiksni skup oznaka, a ovaj skup se ne može proširiti ili promijeniti;
  • Tagovi HTML jezika pokazuju samo kako podaci trebaju biti prikazani, odnosno izgled dokumenta. HTML ne nosi informacije o značenju sadržaja sadržanog u oznakama ili strukturi dokumenta.