Ett speciellt uppmärkningsspråk för textdokument kallas. HTML-dokumentmarkeringsspråk. Logisk och visuell markering

markup languages) är en uppsättning speciella instruktioner, kallade taggar, utformade för att bilda en struktur i dokument och definiera relationerna mellan olika delar av denna struktur. Med andra ord visar uppmärkning vilken del av dokumentet som är en rubrik, vilken är en underrubrik, vad som ska anses vara författarens namn etc. Uppmärkning är indelad i stilistisk uppmärkning, strukturell och semantisk. Stilistisk uppmärkning

Stilistisk uppmärkning är ansvarig för dokumentets utseende. Till exempel, i HTML inkluderar denna typ av uppmärkning taggar som t.ex (kursiv), (fet), (understruken), (genomstruken text) osv.

Strukturell märkning

Strukturell uppmärkning definierar strukturen för dokumentet. I HTML är till exempel taggar (stycke), (titel), (sektion) etc. ansvariga för denna typ av uppmärkning.

Semantisk uppmärkning

Semantisk uppmärkning informerar innehållet i data. Exempel på denna typ av uppmärkning är taggarna (dokumentnamn), (kod, används för kodlistor), (variabel), (författarens adress).

De grundläggande begreppen för alla märkningsspråk är taggar, element och attribut.

Taggar och element.

Betydelsen av taggar och element är ofta förvirrade.

Taggar, eller kontrolldeskriptorer som de också kallas, fungerar som instruktioner för programmet som visar innehållet i dokumentet på klientsidan om vad man ska göra med innehållet i taggen. För att markera taggen i förhållande till huvudinnehållet i dokumentet används vinkelparenteser: taggen börjar med ett mindre-än-tecken (), inuti vilket namnet på instruktionerna och deras parametrar är placerade. Till exempel i HTML taggen anger att texten som följer ska vara i kursiv stil.

Ett element är taggar tillsammans med deras innehåll. Följande konstruktion är ett exempel på ett element:

Denna text är i kursiv stil .

Elementet består av en öppningstagg (i vårt exempel är detta taggen ), tagginnehåll (i exemplet är detta texten "Detta är text i kursiv stil") och den avslutande taggen(), men ibland i HTML kan den avslutande taggen utelämnas.

Attribut
För att ställa in parametrar som klargör egenskaperna för detta element när ett element definieras, används attribut.
Attribut består av ett namn = värdepar som kan anges när ett element definieras i starttaggen. Du kan lämna mellanslag till vänster och höger om likhetssymbolen. Attributvärdet anges som en sträng omsluten av enkla eller dubbla citattecken.
Vilken tagg som helst kan ha ett attribut om det attributet är definierat.
När attributet används har elementet följande form:
tagginnehåll
Texten är mittjusterad

En öppningstagg kan innehålla flera attribut, till exempel:
Angiven textstorlek och färg
Historien om utvecklingen av märkningsspråk.
Begreppet hypertext introducerades av W. Bush 1945, och från och med 60-talet började de första applikationerna som använder hypertextdata dyka upp. Denna teknik fick dock sin huvudsakliga utveckling när ett verkligt behov uppstod av en mekanism för att kombinera flera informationsresurser, vilket ger möjligheten att skapa och visa icke-linjär text.
1986 godkände ISO Standardized Generalized Markup Language. Detta språk är avsett för att skapa andra märkningsspråk; det definierar en giltig uppsättning taggar, deras attribut och dokumentets interna struktur. Således är det möjligt att skapa egna taggar relaterade till innehållet i dokumentet. Det blir nu uppenbart att sådana dokument är svåra att tolka utan märkningsspråksdefinitionen, som lagras i Document Type Definition (DTD). DTD grupperar alla språkets regler i SGML-standarden. Med andra ord beskriver DTD:n taggarnas förhållande till varandra och reglerna för deras användning. Dessutom, för varje klass av dokument, definieras en egen uppsättning regler som beskriver grammatiken för motsvarande märkningsspråk. Endast med hjälp av en DTD kan man alltså verifiera korrekt användning av taggar och därför måste den skickas tillsammans med SGML-dokumentet eller inkluderas i dokumentet.
Vid den tiden, förutom SGML, fanns det flera andra liknande språk som konkurrerade med varandra, men populariteten (HTML, som är en av dess ättlingar) gav SGML en obestridlig fördel gentemot sina motsvarigheter.
Med SGML kan du beskriva strukturerad data, organisera information som finns i dokument och presentera denna information i något standardiserat format. Men på grund av dess komplexitet användes SGML främst för att beskriva syntaxen för andra språk, och få applikationer fungerade direkt med SGML-dokument. SGML används vanligtvis endast i stora projekt, till exempel för att skapa ett enhetligt dokumenthanteringssystem för ett stort företag.
HTML-markeringsspråk är mycket enklare och bekvämare än SGML, dess instruktioner är främst avsedda att styra processen för att visa dokumentinnehåll på skärmen. HTML som ett sätt att märka upp tekniska dokument skapades av Tim Berners-Lee 1991 speciellt för det vetenskapliga samfundet. Det var ursprungligen bara en av SGML-applikationerna.
Trots att det enda HTML kan göra är att klassificera delar av ett dokument och säkerställa att det visas korrekt i webbläsaren, är det det mest populära märkningsspråket. Detta beror på att HTML är ganska lätt att lära sig. Allt du behöver göra är att lära dig HTML-kommandona. DTD för HTML lagras i webbläsaren. Dessutom bör det noteras att HTML är designat för att fungera på en mängd olika plattformar. Men det har ett antal betydande begränsningar:
HTML har en fast uppsättning taggar, och denna uppsättning kan inte utökas eller ändras.

HTML-språktaggar visar bara hur data ska presenteras, det vill säga dokumentets utseende. HTML innehåller inte information om innebörden av innehållet i taggarna eller strukturen i dokumentet.

I början av februari 1998 godkände den internationella organisationen W3C specifikationen Extensible Markup Language (XML) 1.0, vilket markerade början på utvecklingen av många nya märkningsspråk för att överföra information över Internet baserat på XML-standarden. I huvudsak innebar detta ett nytt steg i utvecklingen av hypertextmarkeringsspråk. Under de fyra år som XML funnits har det inte bara väckt stor uppmärksamhet från både vanliga användare och många webbdesigners, utan har också blivit en integrerad del av Internet. Idag finns det praktiskt taget inga servrar som inte, i en eller annan grad, använder denna teknik som en analog till HTML. Det är dock fortfarande åtminstone för tidigt att säga att XML nu håller på att bli huvudmetoden för att överföra hypertext över det globala nätverket. Språket i sig är fortfarande ganska ungt, och några av dess element är fortfarande under utveckling. Hittills har bara ett generellt ramverk skapats för vad som kanske kommer att ersätta HTML i framtiden, men i vilken specifik form det kommer att vara är omöjligt att säga ännu.
Från start
I november 1990, när Internetanvändare första gången hörde talas om en ny teknik, vars namn lätt kunde rymmas på bara tre bokstäver, kunde nästan ingen föreställa sig att mycket kort tid skulle gå och denna teknik skulle bli praktiskt taget det enda sättet att överföra information om det globala nätverket. Idag, för många oerfarna användare, är ordet Internet starkt förknippat med WWW, även om dessa saker i själva verket är relaterade till varandra, men ändå lite olika.
I stort sett var det den otroliga populariteten för World Wide Web och dess integrerade del, HTML, som verkligen blev orsaken till den extremt ökade uppmärksamheten på strukturerna för hypertextmarkering av dokument.
Begreppet hypertext introducerades först av V. Bush redan 1945. Men verkliga applikationer som använder sådana datastrukturer började användas först från 60-talet, och en verkligt extraordinär ökning av aktivitet kring denna teknik började först när det fanns ett verkligt behov av en mekanism för att kombinera flera informationsresurser, vilket ger möjligheten att skapa och visa icke-linjär text. Och ett exempel på implementeringen av denna mekanism var samma WWW.
Själva dokumentmarkeringsspråket är en uppsättning speciella instruktioner som kallas taggar (i vissa översatta publikationer kallas taggar för genvägar), utformade för att skapa en struktur i dokument respektive definiera relationer mellan de olika elementen i denna struktur. Markup language-taggar, eller kontrolldeskriptorer som de ibland kallas, kodas i sådana dokument på ett mycket specifikt sätt, allokeras i förhållande till huvudinnehållet i dokumentet, och fungerar sedan som instruktioner för programmet som tolkar och visar innehållet i dokumentet. dokumentera, faktiskt, till den person som det visas, om du försöker hitta analogier med Internet, då är denna någon klienten, och tolkprogrammet i det vanligaste fallet är webbläsaren). Redan i de allra första systemen beslutades det att använda symbolerna "" för att beteckna dessa kommandon, i vilka namnen på instruktionerna och deras parametrar placerades. Idag är denna metod att namnge taggar en allmänt accepterad standard.
Själva användningen av hypertextuppdelning av ett textdokument i moderna informationssystem beror till stor del på det faktum att hypertext låter dig skapa en mekanism för den så kallade olinjära visningen av information. Detta innebär att data i system inte presenteras som en kontinuerlig ström av textstrukturer, utan som en uppsättning sammanlänkade komponenter, som navigeras med hjälp av hyperlänkar.
Det mest populära och välkända hypertextmarkeringsspråket idag, HTML, skapades specifikt för att strukturera och överföra information som finns på Internet och är utan tvekan en nyckelkomponent i WWW-tekniken. Med användningen av hypertextdokumentmodellen har sättet att presentera olika informationsresurser på nätverket blivit mer ordnat, och användarna har fått en bekväm mekanism för att söka och visa nödvändig information. Det första tecknet i denna fråga anses dock fortfarande vara ett mycket äldre språk - SGML.
SGML (Standard Generalized Markup Language) antogs officiellt 1986 som en internationell standard (ISO 8879:1986) för att beskriva in-/utdataenhet och miljöoberoende metoder för att representera textinformation i elektronisk form. Grunden för dess skapelse var det ganska gamla märkspråket GML (Generalized Markup Language), utvecklat av IBM redan under de första persondatorernas dagar. För att vara exakt är SGML ett metaspråk designat för att beskriva andra märkningsspråk.
Ursprungligen användes ordet markup vanligtvis för att beskriva anteckningar eller andra markeringar i text som var avsedda att instruera dokumentskribenten, eller "layout designer" som det ibland kallas, exakt hur ett visst avsnitt ska skrivas. Sådana metoder kan inkludera snirklig understrykning för att indikera kursiv stil, några speciella ikoner för att hoppa över vissa fraser eller skriva ut dem i ett specifikt teckensnitt, och så vidare. Eftersom formatering och utskrift blev automatiserad med tiden, omfattade termen alla typer av speciella uppmärkningskoder som infogades i elektroniska textdokument för att styra formatering, utskrift eller annan bearbetning.
Ett uppmärkningsspråk hänvisar alltså till en uppsättning formateringskonventioner som används för att koda textblock. Uppmärkningsspråket måste tydligt ange vilken uppmärkning som är acceptabel i ett visst dokument, vilken uppmärkning som krävs, hur man kan skilja dess element från vanlig text och vad uppmärkningen betyder. SGML kunde lösa de tre första problemen, lösningen på det sista krävde närvaron av en informell beskrivning.
SGML, till skillnad från alla andra märkningsspråk som skapats på grundval av den, använder principen om så kallad beskrivande märkning istället för procedurmässig märkning. Ett sådant system använder uppmärkningselement som helt enkelt ger namn för att tilldela enskilda delar av ett dokument till vissa kategorier. Med andra ord, taggar som Or \end(lista) identifierar helt enkelt en del av ett dokument och anger att "den här delen är ett stycke" eller att "den här delen är slutet på en startad lista" etc. Ett system som använder proceduruppmärkning (detta inkluderar ordbehandlare, till exempel Microsoft Word) bestämmer vilken typ av bearbetning som kommer att utföras vid en specifik punkt i ett textdokument: "på den här platsen, ring en sådan och en sådan procedur med parametrarna 5, e och z" eller "flytta dokumentets kant 7 mm till höger i förhållande till ett element, hoppa över en rad, börja nästa från den röda linjen, etc. I SGML är instruktionerna som behövs för att bearbeta ett dokument för något specifikt ändamål (till exempel formatering) tydligt separerade från den beskrivande uppmärkning som förekommer i dokumentet. De samlas vanligtvis utanför dokumentet i separata procedurer eller program.
Genom att använda beskrivande snarare än procedurmässig uppmärkning kan samma dokument bearbetas av olika program, som vart och ett kan tillämpa sina egna bearbetningsinstruktioner på de delar av det som det anser vara viktiga. Till exempel kan ett innehållsanalysprogram ignorera fotnoter helt, medan ett formateringsprogram kan extrahera och sammanställa dem för utskrift i slutet av varje del. Olika typer av bearbetningsinstruktioner kan vara associerade med samma del av filen. Till exempel kan ett program extrahera personers namn och platsnamn från ett dokument för att skapa ett index eller en databas, medan ett annat program som behandlar samma text kan skriva ut namnen i ett annat typsnitt.
SGML introducerar också begreppet en dokumenttyp, och följaktligen sätt att definiera den (dokumenttypsdefinition, DTD). Dokument anses maskinskrivna, precis som andra datorbehandlade objekt. Typen av dokument bestäms formellt av dess beståndsdelar och deras struktur. Till exempel kan man definiera en dokumenttyp så att den består av en titel och kanske en författares namn, följt av ett sammandrag och en sekvens av ett eller flera stycken. Varje dokument som saknar en titel, enligt denna formella definition, kommer inte att vara en rapport, inte mer än en sekvens av stycken följt av ett sammandrag kommer att vara, oavsett hur rapportlikt dokumentet kan vara från en människas synvinkel läsare. .
Eftersom dokument är av känd typ, kan du använda ett speciellt program som kallas en parser för att bearbeta ett dokument som påstår sig vara av en viss typ och kontrollera om alla element som krävs för den dokumenttypen finns och hittas. i rätt ordningsföljd och korrekt. strukturerad. Ännu viktigare är att olika dokument av samma typ kan behandlas på ett enhetligt sätt. Det är möjligt att skriva program som använder den kunskap som finns i informationsstrukturen i ett dokument, som därmed kan bli mer intelligent.
SGML, som ett metaspråk, tillåter definition av specifika språk (ofta kallade "SGML-applikationer") som riktar sig mot specifika applikationer. Ett exempel på detta är HTML-språket, som ofta används på WWW. Varje sådant språk beskrivs i form av en DTD, som definierar element och deras attribut. När den väl har fått en sådan DTD kan SGML-programvaran korrekt bearbeta dokument skrivna enligt den DTD:n.
Även i projektet utformades detta språk specifikt för att implementera modellen för informationsöverföring till det globala nätverk som vi har nu. HTML är med andra ord en produkt av Internet. Även om HTML i själva verket är en förenklad version av Standard Generalized Markup Language - SGML (Standard Generalized Markup Language), som godkändes av ISO som standard redan på 80-talet av förra seklet. SGTML är inte ett språk i sin rena form, utan snarare en uppsättning regler och beskrivningar för att skapa andra språk; det definierar en giltig uppsättning taggar, deras attribut och dokumentets interna struktur. Kontroll över korrekt användning av deskriptorer utförs med hjälp av en speciell uppsättning regler som kallas DTD-beskrivningar, som används av klienttolkarprogrammet vid analys av dokumentet. För varje klass av dokument definieras en egen uppsättning regler som beskriver grammatiken för motsvarande märkningsspråk. Med SGML kan du organisera informationen i dokument, beskriva strukturerad data och presentera denna information i något standardiserat format för senare användning. Men på grund av en del av dess komplexitet användes SGML främst för att beskriva syntaxen för andra språk (det mest kända av dem är HTML), och få applikationer arbetade direkt med SGML-dokument.
HTML är ett mycket mer bekvämt och lättanvänt språk än SGML. Det tillåter inte att ytterligare språk definieras på grundval av detta. Att använda HTML innebär att märka upp ett dokument enligt en standard, som definieras av en ganska begränsad uppsättning instruktioner eller taggar. Sådana instruktioner är först och främst avsedda att styra processen att visa innehållet i ett dokument på skärmen i ett klientprogram och därigenom bestämma metoden för att presentera dokumentet, men inte dess övergripande struktur. I de flesta fall representeras HTML-data i en vanlig textfil som enkelt kan överföras över nätverket med hjälp av http-protokollet.
Men allt eftersom tiden går och ställer allt strängare krav på populära tekniker, behöver moderna applikationer inte bara ett språk för att presentera data på klientskärmen, utan också en mekanism som gör att man kan bestämma strukturen för ett dokument och beskriva de element det innehåller . HTML har en enkel uppsättning kommandon och klarar ganska framgångsrikt uppgiften att beskriva textinformation och visa den på skärmen i ett visningsprogram - en webbläsare. Den visade data i sig är dock inte på något sätt relaterad till de taggar som används för formatering, så parsingprogram har inte möjlighet att använda HTML-taggar för att hitta de dokumentfragment vi behöver. De där. ha stött på till exempel en sådan beskrivning
reste sig
Tittaren kommer att veta vilken färg som ska visa texten i taggarna och kommer troligen att visa den korrekt, men det är absolut likgiltigt var i dokumentet denna tagg finns, vilka andra taggar det aktuella fragmentet är inneslutet i, om det finns fragment kapslade i den, oavsett om relationerna mellan objekt är konstruerade på rätt sätt. Denna "likgiltighet" för strukturen av ett dokument leder till det faktum att sökning eller analys av information inuti det inte kommer att skilja sig från att arbeta med en kontinuerlig textfil som inte är uppdelad i element. Och detta är, som ni vet, inte det mest effektiva sättet att arbeta med information.
En annan betydande nackdel med själva idén, implementerad i HTML, är den begränsade uppsättningen av dess taggar. DTD-regler för HTML definierar en fast uppsättning deskriptorer och därför har utvecklaren inte möjlighet att ange sina egna, speciella taggar. Även om nya språktillägg dyker upp då och då (idag är den senaste versionen av HTML HTML 4.0), den långa vägen till deras standardisering, åtföljd av ständiga meningsskiljaktigheter mellan de största webbläsartillverkarna, gör det nästan omöjligt att snabbt anpassa språket, dess användning för att visa specialiserad information (till exempel multimedia, matematiska, kemiska formler, etc.).
För att sammanfatta allt som har sagts kan man hävda att HTML idag inte helt uppfyller de krav som moderna utvecklare ställer på språk av detta slag. Och för att ersätta det föreslogs ett nytt hypertextmarkeringsspråk: ett kraftfullt, flexibelt och samtidigt bekvämt XML-språk.
XML (Extensible Markup Language) är ett märkningsspråk som beskriver en hel klass av dataobjekt som kallas XML-dokument. Detta språk används som ett sätt att beskriva grammatiken för andra språk och för att kontrollera dokumentens korrekthet. De där. XML i sig innehåller inga taggar avsedda för uppmärkning, den definierar helt enkelt i vilken ordning de skapas. Så om vi till exempel tror att vi behöver använda en tagg för att representera roselementet i ett dokument, tillåter XML oss att fritt använda taggen vi definierar, och vi kan inkludera utdrag som följande i dokumentet:
reste sig
Uppsättningen taggar kan enkelt utökas. Om vi antar att vi också vill indikera att beskrivningen av blomman på ett meningsfullt sätt ska gå in i beskrivningen av växthuset där den blommar, så sätter vi helt enkelt nya taggar och väljer i vilken ordning de visas:

reste sig

Om vi vill plantera några fler blommor där måste vi göra följande ändringar:

reste sig
tulpan
kaktus

Som du kan se är processen att skapa ett XML-dokument mycket enkel och kräver bara att vi har grundläggande kunskaper i HTML och en förståelse för de uppgifter vi vill utföra med hjälp av XML som märkningsspråk. Detta ger utvecklare den unika möjligheten att definiera anpassade kommandon som gör att de på ett mest effektivt sätt kan definiera data som finns i ett dokument. Författaren till dokumentet skapar dess struktur, bygger de nödvändiga kopplingarna mellan element, med hjälp av de kommandon som uppfyller hans krav, och uppnår den typ av markering som han behöver för att utföra operationerna för att visa, söka och analysera dokumentet.
En annan uppenbar fördel med XML är möjligheten att använda det som ett universellt frågespråk för informationsarkiv. Idag, i djupet av W3C, övervägs en fungerande version av XML-QL (eller XQL) standarden, som i framtiden kan bli en allvarlig konkurrent till SQL. Dessutom kan XML-dokument fungera som ett unikt sätt att lagra data som inkluderar både metoder för att analysera information och presentera den på klientsidan. Inom detta område är ett av de lovande områdena integrationen av Java- och XML-teknologier, vilket gör det möjligt att använda kraften i båda teknologierna när man bygger maskinoberoende applikationer som också använder ett universellt dataformat för informationsutbyte.

XML låter dig också kontrollera riktigheten av data som lagras i dokument, kontrollera hierarkiska relationer i ett dokument och upprätta en enhetlig standard för strukturen av dokument, vars innehåll kan vara en mängd olika data. Detta innebär att det kan användas vid uppbyggnad av komplexa informationssystem, där frågan om informationsutbyte mellan olika applikationer som körs i samma system är mycket viktig. Genom att skapa en struktur för en informationsutbytesmekanism i början av arbetet med ett projekt, kan en chef i framtiden rädda sig själv från många problem som är förknippade med inkompatibiliteten hos dataformat som används av olika komponenter i systemet.
En av fördelarna med XML är också att XML-dokumentbehandlingsprogram är enkla, och idag distribueras alla typer av mjukvaruprodukter som är utformade för att fungera med XML-dokument fritt. XML stöds idag i alla webbläsare i Microsoft Internet Explorer-familjen, från och med version 4.0. Det tillkännagavs att det skulle stödjas i efterföljande versioner av Netscape Communicator, Oracle DBMS, DB-2 och MS-Office. Allt detta ger anledning att anta att XML sannolikt inom en snar framtid kommer att bli det huvudsakliga informationsutbytesspråket för informationssystem och därigenom ersätta HTML. Välkända specialiserade märkningsspråk som SMIL, CDF, MathML, XSL har redan skapats på basis av XML, och listan över arbetsutkast till nya språk som W3C överväger växer ständigt.
Hur ser ett XML-dokument ut?
Om du är bekant med HTML kommer att lära dig XML inte ta mycket ansträngning från din sida. Även om XML verkligen skiljer sig mycket i dess kapacitet och syfte från HyperText Markup Language, är båda språken undergrupper av SGML och ärver därför dess grundläggande principer.
Dokumentstruktur
Ett enkelt XML-dokument kan se ut som exempel 1

Först
Andra stycket 1
Tredje
Sista

Observera att detta dokument är mycket likt en vanlig HTML-sida. Precis som i HTML kallas instruktioner inom vinkelparenteser taggar och tjänar till att markera dokumentets brödtext. I XML finns öppnings-, stängnings- och tomma taggar (i HTML finns även konceptet med en tom tagg, men ingen speciell beteckning krävs).
Texten i ett XML-dokument består av uppmärkningselement och det faktiska innehållet i dokumentet - data (innehåll). XML-taggar är designade för att definiera dokumentelement, deras attribut och andra språkkonstruktioner. Vi kommer att prata mer i detalj om de typer av uppmärkning som används i dokument lite senare.
Alla XML-dokument måste alltid börja med en instruktion, i vilken du också kan ange språkversionsnummer, teckentabellsnummer och andra parametrar som behövs för att analysprogrammet ska kunna analysera dokumentet.
Regler för att skapa ett XML-dokument
I allmänhet måste XML-dokument uppfylla följande krav:
Dokumenthuvudet innehåller en XML-deklaration som anger dokumentets märkningsspråk, versionsnummer och ytterligare information.
Varje öppningstagg som definierar ett dataområde i dokumentet måste ha sin egen avslutande "partner", dvs. till skillnad från HTML kan stängningstaggar inte utelämnas.
XML är skiftlägeskänsligt.
Alla attributvärden som används i taggdefinitioner måste omges av citattecken.
Kapslingen av taggar i XML är strikt kontrollerad, så det är nödvändigt att övervaka ordningen för öppnings- och stängningstaggar.
All information mellan start- och sluttaggar behandlas som data i XML, och därför tas hänsyn till alla formateringstecken (dvs mellanslag, radbrytningar, tabbar ignoreras inte som i HTML).
Om ett XML-dokument inte bryter mot reglerna ovan, kallas det formellt korrekt och alla analysatorer som är utformade för att tolka XML-dokument kommer att kunna arbeta med det korrekt.
Utöver att kontrollera om språkets grammatik formellt följs, kan dokumentet dock innehålla kontrollmedel för dokumentets innehåll, över efterlevnaden av de regler som bestämmer de nödvändiga förhållandena mellan element och bildar dokumentets struktur. Till exempel kommer följande text, även om det är ett helt giltigt XML-dokument, helt meningslöst:
Ryssland Novosibirsk
För att säkerställa att XML-dokumenten kontrolleras är det nödvändigt att använda analysatorer som utför sådan kontroll och kallas verifierare.
Idag finns det två huvudsakliga sätt att kontrollera korrektheten av ett XML-dokument: DTD-definitioner (Document Type Definition) och datascheman (Semantic Schema). Vi kommer att prata mer om att använda DTD:er och scheman nästa gång. Till skillnad från SGML är det inte nödvändigt att definiera DTD-regler i XML, och denna omständighet gör att vi kan skapa vilka XML-dokument som helst utan att förvirra vår hjärna över den ganska komplicerade DTD-syntaxen.
Grundprincipen
Ett element är den grundläggande strukturella enheten i ett XML-dokument. Genom att innesluta ordet rose i taggarna definierar vi ett icke-tomt element som heter , vars innehåll är rose. I det allmänna fallet kan innehållet i element helt enkelt vara viss text, eller andra kapslade dokumentelement, CDATA-sektioner, bearbetningsinstruktioner, kommentarer, d.v.s. nästan vilken del som helst av ett XML-dokument.
Alla element som inte är tomma måste bestå av en starttagg, en sluttagg och den data som är innesluten mellan dem.
Uppsättningen av alla element som finns i ett dokument definierar dess struktur och bestämmer alla hierarkiska relationer. Med hjälp av element omvandlas en platt datamodell till ett komplext hierarkiskt system med många möjliga samband mellan element.
När du senare söker i ett dokument, kommer klientprogrammet att förlita sig på informationen som är inbäddad i dess struktur - med hjälp av dokumentets element. De där. om du till exempel vill hitta rätt universitet i rätt stad, måste du se innehållet i ett specifikt element som finns inuti ett specifikt element. Sökningen i detta fall kommer naturligtvis att vara mycket effektivare än att hitta den önskade sekvensen genom hela dokumentet.
I ett XML-dokument är som regel minst ett element definierat, kallat roten, och parsare börjar skanna dokumentet från detta element. I exemplet ovan är detta element .
I vissa fall kan taggar ändra och förtydliga semantiken för vissa fragment av ett dokument, definiera samma information på olika sätt och därigenom förse applikationen som analyserar detta dokument med information om sammanhanget för användningen av de beskrivna data. Till exempel, efter att ha läst Holliwood-fragmentet, kan vi gissa att den här delen av dokumentet handlar om en stad, men i Holliwood-fragmentet handlar det om en middag.
Slutsats
Webbsideformateringsspråket HTML introducerades ursprungligen som en tillämpning av SGML. Senare, med den snabba utvecklingen av WWW, började HTML att expandera på alla möjliga sätt för att ge författaren mer kontroll över den externa presentationen av information. Nya element och attribut, som eller , fokuserade på visuell formatering. Verktyg som inte ingår i själva märkningsspråket dök upp och började användas aktivt: imagemaps, Java och JavaScript, plugins, etc. Det finns också många HTML-element som endast stöds av vissa webbläsare, eller som fungerar olika i olika webbläsare. Därför är det nu svårt att säga om HTML är en SGML-applikation eller inte. Mycket få sidor skapas enligt HTML-specifikationer och motsvarande DTD:er.
Detta problem är delvis avsett att lindras genom kaskadstilar, standarden för vilka W3-konsortiet har antagits. CSS1 separerar stilen som definierar elementens visuella utseende från elementets uppmärkning.
Av stort intresse är XML-språket, som ska ersätta HTML som märkningsspråk för webbsidor. Detta är en variant av SGML, främst inriktad på användning på WWW. Det kräver ingen DTD, och språket i sig är förenklat på grund av sällan använda komplexa strukturer. Detta kommer att göra parsers enkla, vilket gör det möjligt att aktivt använda XML i webbläsare. (Sannolikheten är ganska stor, med tanke på de båda stora aktörernas nickningar i webbläsarfältet mot XML).

UTSKRIFTSBAR VERSION>>
Artikel läst:en gång.
(Standard Generalized Markup Language), som presenteras i ISO 8879-standarden. Detta språk används som huvudspråk för utformning av teknisk dokumentation, inklusive interaktiva elektroniska tekniska manualer för produkter skapade med CALS-teknik.

SGML definierar strukturen av dokument som en sekvens av dataobjekt. Dataobjekt som representerar delar av ett dokument kan lagras i olika filer. SGML-standarden upprättar en uppsättning symboler och regler för att representera information som gör det möjligt för olika system att korrekt känna igen och identifiera denna information. Dessa uppsättningar beskrivs i en separat del av dokumentet som kallas DTD-deklarationen(Document Type Decfinition), som sänds tillsammans med SGML-huvuddokumentet. DTD specificerar överensstämmelsen mellan tecken och deras koder, de maximala längderna på identifierarna som används, hur avgränsare för taggar representeras, andra möjliga konventioner, DTD-syntaxen och dokumenttyp och version. Därför kan SGML kallas ett metaspråk för en familj av specifika märkningsspråk. I synnerhet kan XML-markeringsspråk betraktas som delmängder av SGML och HTML.

Den tekniska beskrivningen i form av ett SGML-dokument inkluderar:

huvudfil med teknisk manual, märkt med SGML-taggar;

beskrivning av enheter, om dokumentet tillhör en grupp där samma enheter används och deras berömmelse antyds;

en ordbok för att förklara SGML-taggar;

SGML är dock svårt att lära sig och använda. Därför, för den utbredda användningen av uppmärkning i dokument som skickas till WWW-technologies, 1991 utvecklades ett förenklat HTML-språk baserat på SGML(HyperText Markup Language), och 1996 XML-språket(eXtensible Markup Language), som i kombination med HTML blir huvudspråket för att presentera dokument i olika applikationer.

HTML-språket utvecklades för den utbredda användningen av uppmärkning i dokument som presenteras i WWW-tekniker.

En HTML-beskrivning består av ASCII-text och en sekvens av kommandon (kontrollkoder) som ingår i den, även kallade deskriptorer eller taggar. Denna text kallas ett HTML-dokument, eller en HTML-sida, eller en webbsida, när den publiceras på en webbserver.. Taggar placeras på rätt ställen i källtexten, de bestämmer typsnitt, bindestreck, utseende på grafik, länkar, etc. När du använder WWW-redigerare infogas kommandon genom att helt enkelt trycka på lämpliga tangenter.

XML, liksom HTML, anses vara en delmängd av SGML. För närvarande hävdar XML-språket att det är det huvudsakliga dokumentpresentationsspråket inom informationsteknologi; det kan betraktas som ett metaspråk som fungerar som grund för att skapa privata märkningsspråk i olika applikationer. Samtidigt är XML bekvämare än SGML, vilket säkerställs genom eliminering av några mindre funktioner i SGML i XML. Beskrivningar i XML är lättare att förstå och anpassade för användning i moderna webbläsare samtidigt som kärnfunktionerna i SGML bibehålls.

För specifika applikationer skapas deras egna versioner av XML, kallade XML-ordböcker eller XML-applikationer. Således har en XML-applikation OSD (Open Software Description) utvecklats för att beskriva texter med specifika matematiska symboler. Av intresse för CALS är alternativet Product Definition eXchange (PDX) dedikerat till datautbyte. Det finns ordböcker för kemi (CML - Chemical Markup Language), biologi (BSML - Bioinformatic Sequence Markup Language) osv.

Varje dokument har tre komponenter:

· struktur;

Innehåll är den information som visas i dokumentet. Innehållet i ett dokument på papper kan vara rent textmässigt och även innehålla bilder. Om ett dokument presenteras i elektronisk form kan det innehålla multimediadata, samt länkar till andra dokument. Även om innehållet i olika dokument varierar, kan de klassificeras i typer, till exempel en bok eller en tågbiljett.

Formatet på ett dokument avgör i vilken form dess innehåll kommer att visas på en viss enhet (till exempel en skrivare eller bildskärm). Stilkonceptet inkluderar egenskaperna hos teckensnittet (namn, storlek, färg) för hela utdatadokumentet eller dess individuella block, pagineringsordningen, platsen för blocken på sidorna och andra parametrar. Samma dokument kan matas ut i olika format, både på olika media och på samma media.

Dokumentmarkeringsspråk är konstgjorda språk utformade för att beskriva ett dokuments struktur och relationerna mellan olika objekt i strukturen. Uppmärkningsdata kallas även metadata.

Det första märkningsspråket är GML (Generalized Markup Language), utvecklat av IBM-anställda redan på 60-talet av förra seklet. Dess omedelbara efterträdare var SGML-språket (Standard Generalized Markup Language), som definierar reglerna för att skriva dokumentmarkeringselement. Ett dokument som följer reglerna för ett språk kallas ett SGML-dokument.

SGML-språket definieras i ISO 8879-standarden, som specificerar följande grundläggande krav för dokumentmarkeringsspråk:

· Språket ska vara läsbart för människor.

· Markerade dokumentfiler måste vara text och kodade med ASCII-kodtecken (American Standard Code for Information Interchange). Innehållet i dokumentet behöver dock inte vara ASCII-kodat eller text.

SGML och liknande språk använder speciella dokumentuppmärkningsverktyg:

· element och tillhörande attribut;

· enheter;

· kommentarer.

Den strukturella enheten i ett SGML-dokument är elementet. I markerad text måste varje element markeras på ett visst sätt. Urvalet görs genom att infoga en starttagg (från det engelska ordet tag - label) i början av elementet (starttagg) och en sluttagg (sluttagg) i slutet av elementet. Start- och sluttaggarna har samma namn. För att skilja taggar från vanlig text måste de börja med ett tecken för att indikera början på en tagg och sluta med ett tecken för att indikera slutet på en tagg. Dessutom anges en symbol i slutbrickan - ett tecken på slutbrickan. I SGML kan alla tecken anges som sådana egenskaper, men oftast används tecknet "" (vänster vinkelparentes) som början på en tagg, och tecknet "/" (snedstreck) används som sluttagstecken. Element i ett SGML-dokument kan omsluta andra element, vilket resulterar i en grafisk representation av SGML-dokumentet som en hierarkisk (träd)struktur.

Exempel 4.3.1. Ett SGML-dokument som anger en lista över studenter med resultaten av deras examinationstillfälle kan specificeras enligt följande:

Lista över elevbedömningar i passet

Ivanov Ivan Ivanovich

TS-61

A

B

B

B

Petrov Petr Petrovich

TS-62

C

C

D

C

I det här dokumentet är det första elementet elevlistelementet. Detta element innehåller ett titelelement (titel) och flera elevelement (elevdata). Varje elevelement innehåller i sin tur ett fullständigt namnelement (efternamn, förnamn och patronym för eleven), ett gruppnummerelement (gruppnummer) och ett poänglistaelement (lista över elevbetyg i sessionen). Och slutligen innehåller mark-list-elementet flera mark-element (poäng).

En grafisk representation av denna lista i fig. 4.3.1 har en trädstruktur:

Ris. 4.3.1. SGML dokumentstruktur i grafisk representation

Attribut kan användas för att förfina SGML-element. Attribut skrivs i elementets starttagg enligt följande:

attribut-name="attribut-värde".

Ett element kan ha flera specificerade attribut. Attribut är separerade från varandra och elementnamnet med minst ett mellanslag.

Exempel 4.3.2. För betygselementen i exempel 4.3.1 kan du ställa in ämnesattributet, vars värde är namnet på disciplinen där provet togs. Sedan för den första studenten kommer elementen att ha följande form:

A

B

B

B

Språk som SGML använder entiteter för att arbeta med grupper av data. En entitet är alla namngivna data, både text och icke-text. När du visar ett dokument ersätts enhetsnamnet med dess värde. Så, till exempel, namnet på textentiteten kpi kommer att ersättas med dess värde: Kiev Polytechnic Institute, och den icke-textbaserade entiteten image1 kommer att ersättas av en bild som heter image1.
markup languages) är en uppsättning speciella instruktioner, kallade taggar, utformade för att bilda en struktur i dokument och definiera relationerna mellan olika delar av denna struktur. Med andra ord visar uppmärkning vilken del av dokumentet som är en rubrik, vilken är en underrubrik, vad som ska anses vara författarens namn etc. Uppmärkning är indelad i stilistisk uppmärkning, strukturell och semantisk. Stilistisk uppmärkning
Stilistisk uppmärkning är ansvarig för dokumentets utseende. Till exempel, i HTML inkluderar denna typ av uppmärkning taggar som t.ex (kursiv), (fet), (understruken), (genomstruken text) osv.
Strukturell märkning
Strukturell uppmärkning definierar strukturen för dokumentet. I HTML är till exempel taggar (stycke), (titel), (sektion) etc. ansvariga för denna typ av uppmärkning.
Semantisk uppmärkning
Semantisk uppmärkning informerar innehållet i data. Exempel på denna typ av uppmärkning är taggarna (dokumentnamn), (kod, används för kodlistor), (variabel), (författarens adress).
De grundläggande begreppen för alla märkningsspråk är taggar, element och attribut.
Taggar och element.
Betydelsen av taggar och element är ofta förvirrade.
Taggar, eller kontrolldeskriptorer som de också kallas, fungerar som instruktioner för programmet som visar innehållet i dokumentet på klientsidan om vad man ska göra med innehållet i taggen. För att markera taggen i förhållande till huvudinnehållet i dokumentet används vinkelparenteser: taggen börjar med ett mindre-än-tecken (), inuti vilket namnet på instruktionerna och deras parametrar är placerade. Till exempel i HTML taggen anger att texten som följer ska vara i kursiv stil.
Ett element är taggar tillsammans med deras innehåll. Följande konstruktion är ett exempel på ett element:
Denna text är i kursiv stil .
Elementet består av en öppningstagg (i vårt exempel är detta taggen ), tagginnehåll (i exemplet är detta texten "Detta är text i kursiv stil") och den avslutande taggen(), men ibland i HTML kan den avslutande taggen utelämnas.
Attribut
För att ställa in parametrar som klargör egenskaperna för detta element när ett element definieras, används attribut.
Attribut består av ett namn = värdepar som kan anges när ett element definieras i starttaggen. Du kan lämna mellanslag till vänster och höger om likhetssymbolen. Attributvärdet anges som en sträng omsluten av enkla eller dubbla citattecken.
Vilken tagg som helst kan ha ett attribut om det attributet är definierat.
När attributet används har elementet följande form:
tagginnehåll
Texten är mittjusterad

En öppningstagg kan innehålla flera attribut, till exempel:
Angiven textstorlek och färg
Historien om utvecklingen av märkningsspråk.
Begreppet hypertext introducerades av W. Bush 1945, och från och med 60-talet började de första applikationerna som använder hypertextdata dyka upp. Denna teknik fick dock sin huvudsakliga utveckling när ett verkligt behov uppstod av en mekanism för att kombinera flera informationsresurser, vilket ger möjligheten att skapa och visa icke-linjär text.
1986 godkände ISO Standardized Generalized Markup Language. Detta språk är avsett för att skapa andra märkningsspråk; det definierar en giltig uppsättning taggar, deras attribut och dokumentets interna struktur. Således är det möjligt att skapa egna taggar relaterade till innehållet i dokumentet. Det blir nu uppenbart att sådana dokument är svåra att tolka utan märkningsspråksdefinitionen, som lagras i Document Type Definition (DTD). DTD grupperar alla språkets regler i SGML-standarden. Med andra ord beskriver DTD:n taggarnas förhållande till varandra och reglerna för deras användning. Dessutom, för varje klass av dokument, definieras en egen uppsättning regler som beskriver grammatiken för motsvarande märkningsspråk. Endast med hjälp av en DTD kan man alltså verifiera korrekt användning av taggar och därför måste den skickas tillsammans med SGML-dokumentet eller inkluderas i dokumentet.
Vid den tiden, förutom SGML, fanns det flera andra liknande språk som konkurrerade med varandra, men populariteten (HTML, som är en av dess ättlingar) gav SGML en obestridlig fördel gentemot sina motsvarigheter.
Med SGML kan du beskriva strukturerad data, organisera information som finns i dokument och presentera denna information i något standardiserat format. Men på grund av dess komplexitet användes SGML främst för att beskriva syntaxen för andra språk, och få applikationer fungerade direkt med SGML-dokument. SGML används vanligtvis endast i stora projekt, till exempel för att skapa ett enhetligt dokumenthanteringssystem för ett stort företag.
HTML-markeringsspråk är mycket enklare och bekvämare än SGML, dess instruktioner är främst avsedda att styra processen för att visa dokumentinnehåll på skärmen. HTML som ett sätt att märka upp tekniska dokument skapades av Tim Berners-Lee 1991 speciellt för det vetenskapliga samfundet. Det var ursprungligen bara en av SGML-applikationerna.
Trots att det enda HTML kan göra är att klassificera delar av ett dokument och säkerställa att det visas korrekt i webbläsaren, är det det mest populära märkningsspråket. Detta beror på att HTML är ganska lätt att lära sig. Allt du behöver göra är att lära dig HTML-kommandona. DTD för HTML lagras i webbläsaren. Dessutom bör det noteras att HTML är designat för att fungera på en mängd olika plattformar. Men det har ett antal betydande begränsningar:
HTML har en fast uppsättning taggar, och denna uppsättning kan inte utökas eller ändras.

HTML-språktaggar visar bara hur data ska presenteras, det vill säga dokumentets utseende. HTML innehåller inte information om innebörden av innehållet i taggarna eller strukturen i dokumentet.