Μια ειδική γλώσσα σήμανσης για έγγραφα κειμένου ονομάζεται. Γλώσσα σήμανσης εγγράφου HTML. Λογική και οπτική σήμανση

γλώσσες σήμανσης) είναι ένα σύνολο ειδικών οδηγιών, που ονομάζονται ετικέτες, που έχουν σχεδιαστεί για να σχηματίζουν μια δομή σε έγγραφα και να ορίζουν τις σχέσεις μεταξύ διαφόρων στοιχείων αυτής της δομής. Με άλλα λόγια, η σήμανση δείχνει ποιο μέρος του εγγράφου είναι τίτλος, ποιο υπότιτλος, ποιο πρέπει να θεωρείται το όνομα του συγγραφέα κ.λπ. Η σήμανση χωρίζεται σε στυλιστική σήμανση, δομική και σημασιολογική. Στιλιστική σήμανση

Η στιλιστική σήμανση είναι υπεύθυνη για την εμφάνιση του εγγράφου. Για παράδειγμα, σε HTML αυτός ο τύπος σήμανσης περιλαμβάνει ετικέτες όπως π.χ (πλάγια γράμματα), (έντονα), (υπογράμμιση), (διαγραμμένο κείμενο) κ.λπ.

Δομική σήμανση

Η δομική σήμανση καθορίζει τη δομή του εγγράφου. Στην HTML, για παράδειγμα, οι ετικέτες (παράγραφος), (τίτλος), (ενότητα) κ.λπ. είναι υπεύθυνες για αυτόν τον τύπο σήμανσης.

Σημασιολογική σήμανση

Η σημασιολογική σήμανση ενημερώνει το περιεχόμενο των δεδομένων. Παραδείγματα αυτού του τύπου σήμανσης είναι οι ετικέτες (όνομα εγγράφου), (κωδικός, που χρησιμοποιείται για καταχωρίσεις κωδικών), (μεταβλητή), (διεύθυνση συγγραφέα).

Οι βασικές έννοιες οποιασδήποτε γλώσσας σήμανσης είναι ετικέτες, στοιχεία και χαρακτηριστικά.

Ετικέτες και στοιχεία.

Οι έννοιες των ετικετών και των στοιχείων συχνά συγχέονται.

Οι ετικέτες ή οι περιγραφείς ελέγχου, όπως ονομάζονται επίσης, χρησιμεύουν ως οδηγίες για το πρόγραμμα που εμφανίζει τα περιεχόμενα του εγγράφου στην πλευρά του πελάτη σχετικά με το τι πρέπει να κάνει με τα περιεχόμενα της ετικέτας. Για να τονιστεί η ετικέτα σε σχέση με το κύριο περιεχόμενο του εγγράφου, χρησιμοποιούνται γωνιακές αγκύλες: η ετικέτα αρχίζει με ένα σύμβολο μικρότερο από (), μέσα στο οποίο τοποθετούνται το όνομα των οδηγιών και οι παράμετροί τους. Για παράδειγμα, σε HTML η ετικέτα υποδεικνύει ότι το κείμενο που ακολουθεί πρέπει να είναι με πλάγιους χαρακτήρες.

Ένα στοιχείο είναι οι ετικέτες μαζί με το περιεχόμενό τους. Η ακόλουθη κατασκευή είναι ένα παράδειγμα στοιχείου:

Αυτό το κείμενο είναι με πλάγιους χαρακτήρες .

Το στοιχείο αποτελείται από μια ετικέτα ανοίγματος (στο παράδειγμά μας αυτή είναι η ετικέτα ), το περιεχόμενο της ετικέτας (στο παράδειγμα αυτό είναι το κείμενο "Αυτό είναι κείμενο με πλάγιους χαρακτήρες") και η ετικέτα κλεισίματος (), αν και μερικές φορές σε HTML, η ετικέτα κλεισίματος μπορεί να παραλειφθεί.

Γνωρίσματα

Για να ορίσετε τυχόν παραμέτρους που διευκρινίζουν τα χαρακτηριστικά αυτού του στοιχείου κατά τον ορισμό ενός στοιχείου, χρησιμοποιούνται χαρακτηριστικά.

Τα χαρακτηριστικά αποτελούνται από ένα ζεύγος ονόματος = τιμής που μπορεί να καθοριστεί κατά τον ορισμό ενός στοιχείου στην ετικέτα έναρξης. Μπορείτε να αφήσετε κενά στα αριστερά και δεξιά του συμβόλου ίσων. Η τιμή του χαρακτηριστικού καθορίζεται ως συμβολοσειρά που περικλείεται σε μονά ή διπλά εισαγωγικά.

Οποιαδήποτε ετικέτα μπορεί να έχει ένα χαρακτηριστικό εάν έχει οριστεί αυτό το χαρακτηριστικό.

Όταν χρησιμοποιείται το χαρακτηριστικό, το στοιχείο παίρνει την ακόλουθη μορφή:

περιεχόμενο ετικέτας

Το κείμενο στοιχίζεται στο κέντρο

Μια ετικέτα ανοίγματος μπορεί να περιέχει πολλά χαρακτηριστικά, για παράδειγμα:

Καθορισμένο μέγεθος και χρώμα κειμένου

Ιστορία της ανάπτυξης των γλωσσών σήμανσης.

Η έννοια του υπερκειμένου εισήχθη από τον W. Bush το 1945 και ξεκινώντας από τη δεκαετία του '60, άρχισαν να εμφανίζονται οι πρώτες εφαρμογές που χρησιμοποιούν δεδομένα υπερκειμένου. Ωστόσο, αυτή η τεχνολογία έλαβε την κύρια ανάπτυξη της όταν προέκυψε πραγματική ανάγκη για έναν μηχανισμό συνδυασμού πολλαπλών πόρων πληροφοριών, παρέχοντας τη δυνατότητα δημιουργίας και προβολής μη γραμμικού κειμένου.

Το 1986, ο ISO ενέκρινε την Τυποποιημένη Γενικευμένη Γλώσσα Σήμανσης. Αυτή η γλώσσα προορίζεται για τη δημιουργία άλλων γλωσσών σήμανσης· ορίζει ένα έγκυρο σύνολο ετικετών, τα χαρακτηριστικά τους και την εσωτερική δομή του εγγράφου. Έτσι, είναι δυνατό να δημιουργήσετε τις δικές σας ετικέτες που σχετίζονται με το περιεχόμενο του εγγράφου. Γίνεται πλέον προφανές ότι τέτοια έγγραφα είναι δύσκολο να ερμηνευτούν χωρίς τον ορισμό της γλώσσας σήμανσης, ο οποίος είναι αποθηκευμένος στο Document Type Definition (DTD). Το DTD ομαδοποιεί όλους τους κανόνες της γλώσσας στο πρότυπο SGML. Με άλλα λόγια, το DTD περιγράφει τη σχέση των ετικετών μεταξύ τους και τους κανόνες χρήσης τους. Επιπλέον, για κάθε κατηγορία εγγράφων, ορίζεται το δικό της σύνολο κανόνων που περιγράφουν τη γραμματική της αντίστοιχης γλώσσας σήμανσης. Έτσι, μόνο με τη βοήθεια ενός DTD μπορεί κανείς να επαληθεύσει τη σωστή χρήση των ετικετών και, επομένως, πρέπει να αποσταλεί μαζί με το έγγραφο SGML ή να συμπεριληφθεί στο έγγραφο.

Εκείνη την εποχή, εκτός από την SGML, υπήρχαν πολλές άλλες παρόμοιες γλώσσες που ανταγωνίζονταν μεταξύ τους, αλλά η δημοτικότητα (HTML, που είναι ένας από τους απογόνους του) έδωσε στο SGML ένα αναμφισβήτητο πλεονέκτημα έναντι των ομολόγων του.

Χρησιμοποιώντας το SGML, μπορείτε να περιγράψετε δομημένα δεδομένα, να οργανώσετε πληροφορίες που περιέχονται σε έγγραφα και να παρουσιάσετε αυτές τις πληροφορίες σε κάποια τυποποιημένη μορφή. Αλλά λόγω της πολυπλοκότητάς του, το SGML χρησιμοποιήθηκε κυρίως για να περιγράψει τη σύνταξη άλλων γλωσσών και λίγες εφαρμογές δούλευαν απευθείας με έγγραφα SGML. Το SGML χρησιμοποιείται συνήθως μόνο σε μεγάλα έργα, για παράδειγμα, για τη δημιουργία ενός ενοποιημένου συστήματος διαχείρισης εγγράφων για μια μεγάλη εταιρεία.

Η γλώσσα σήμανσης HTML είναι πολύ πιο απλή και πιο βολική από την SGML, οι οδηγίες της προορίζονται κυρίως για τον έλεγχο της διαδικασίας εμφάνισης του περιεχομένου του εγγράφου στην οθόνη. Η HTML ως τρόπος επισήμανσης τεχνικών εγγράφων δημιουργήθηκε από τον Tim Berners-Lee το 1991 ειδικά για την επιστημονική κοινότητα. Αρχικά ήταν μόνο μία από τις εφαρμογές SGML.

Παρά το γεγονός ότι το μόνο πράγμα που μπορεί να κάνει η HTML είναι να ταξινομήσει μέρη ενός εγγράφου και να εξασφαλίσει τη σωστή εμφάνιση του στο πρόγραμμα περιήγησης, είναι η πιο δημοφιλής γλώσσα σήμανσης. Αυτό συμβαίνει επειδή η εκμάθηση της HTML είναι αρκετά εύκολη. Το μόνο που έχετε να κάνετε είναι να μάθετε τις εντολές HTML. Το DTD για HTML αποθηκεύεται στο πρόγραμμα περιήγησης. Επιπλέον, πρέπει να σημειωθεί ότι η HTML έχει σχεδιαστεί για να λειτουργεί σε μια μεγάλη ποικιλία πλατφορμών. Αλλά έχει ορισμένους σημαντικούς περιορισμούς:

  • Το HTML έχει ένα σταθερό σύνολο ετικετών και αυτό το σύνολο δεν μπορεί να επεκταθεί ή να αλλάξει.
  • Οι ετικέτες γλώσσας HTML δείχνουν μόνο τον τρόπο παρουσίασης των δεδομένων, δηλαδή την εμφάνιση του εγγράφου. Η HTML δεν φέρει πληροφορίες σχετικά με τη σημασία του περιεχομένου που περιέχεται στις ετικέτες ή τη δομή του εγγράφου.
  • Στις αρχές Φεβρουαρίου 1998, ο διεθνής οργανισμός W3C ενέκρινε την προδιαγραφή Extensible Markup Language (XML) 1.0, η οποία σηματοδότησε την αρχή της ανάπτυξης πολλών νέων γλωσσών σήμανσης για τη μετάδοση πληροφοριών μέσω του Διαδικτύου με βάση το πρότυπο XML. Στην ουσία, αυτό σήμαινε ένα νέο βήμα στην ανάπτυξη γλωσσών σήμανσης υπερκειμένου. Κατά τη διάρκεια των τεσσάρων ετών της ύπαρξής της, η XML όχι μόνο έχει προσελκύσει αρκετά μεγάλη προσοχή τόσο από απλούς χρήστες όσο και από πολλούς σχεδιαστές ιστοσελίδων, αλλά έχει γίνει επίσης αναπόσπαστο μέρος του Διαδικτύου. Σήμερα δεν υπάρχουν ουσιαστικά διακομιστές που να μην χρησιμοποιούν, στον ένα ή τον άλλο βαθμό, αυτή την τεχνολογία ως ανάλογο της HTML. Ωστόσο, είναι ακόμη τουλάχιστον πρόωρο να πούμε ότι η XML γίνεται πλέον η κύρια μέθοδος μετάδοσης υπερκειμένου μέσω του παγκόσμιου δικτύου. Η ίδια η γλώσσα είναι ακόμα αρκετά νέα και ορισμένα από τα στοιχεία της είναι ακόμη υπό ανάπτυξη. Μέχρι στιγμής, έχει δημιουργηθεί μόνο ένα γενικό πλαίσιο για το τι, ίσως, θα αντικαταστήσει την HTML στο μέλλον, αλλά σε ποια συγκεκριμένη μορφή θα είναι είναι αδύνατο να πούμε ακόμα.

    Από την αρχή

    Τον Νοέμβριο του 1990, όταν οι χρήστες του Διαδικτύου άκουσαν για πρώτη φορά για μια νέα τεχνολογία, το όνομα της οποίας μπορούσε εύκολα να χωρέσει σε τρία μόνο γράμματα, σχεδόν κανείς δεν μπορούσε να φανταστεί ότι θα περνούσε πολύ λίγος χρόνος και αυτή η τεχνολογία θα γινόταν ουσιαστικά ο μόνος τρόπος μετάδοσης πληροφοριών για το παγκόσμιο δίκτυο. Σήμερα, για πολλούς άπειρους χρήστες, η λέξη Διαδίκτυο συνδέεται έντονα με το WWW, αν και στην πραγματικότητα αυτά τα πράγματα σχετίζονται, φυσικά, μεταξύ τους, αλλά και πάλι λίγο διαφορετικά.

    Σε γενικές γραμμές, ήταν η απίστευτη δημοτικότητα του Παγκόσμιου Ιστού και του αναπόσπαστου μέρους του, του HTML, που έγινε σίγουρα η αιτία για την εξαιρετικά αυξημένη προσοχή στις δομές της σήμανσης υπερκειμένου των εγγράφων.

    Η έννοια του υπερκειμένου εισήχθη για πρώτη φορά από τον V. Bush το 1945. Ωστόσο, οι πραγματικές εφαρμογές που χρησιμοποιούν τέτοιες δομές δεδομένων άρχισαν να χρησιμοποιούνται μόνο από τη δεκαετία του '60 και μια πραγματικά ασυνήθιστη άνοδος της δραστηριότητας γύρω από αυτήν την τεχνολογία ξεκίνησε μόνο όταν υπήρχε πραγματική ανάγκη για έναν μηχανισμό για το συνδυασμό πολλαπλών πόρων πληροφοριών, παρέχοντας τη δυνατότητα δημιουργίας και προβολή μη γραμμικού κειμένου. Και ένα παράδειγμα εφαρμογής αυτού του μηχανισμού ήταν το ίδιο WWW.

    Η ίδια η γλώσσα σήμανσης εγγράφων είναι ένα σύνολο ειδικών οδηγιών που ονομάζονται ετικέτες (σε ορισμένες μεταφρασμένες δημοσιεύσεις, οι ετικέτες ονομάζονται συντομεύσεις), σχεδιασμένες να δημιουργούν μια δομή σε έγγραφα και να ορίζουν σχέσεις, αντίστοιχα, μεταξύ των διαφόρων στοιχείων αυτής της δομής. Οι ετικέτες γλώσσας σήμανσης ή οι περιγραφείς ελέγχου, όπως αποκαλούνται μερικές φορές, κωδικοποιούνται σε τέτοια έγγραφα με πολύ συγκεκριμένο τρόπο, κατανέμονται σε σχέση με το κύριο περιεχόμενο του εγγράφου και στη συνέχεια χρησιμεύουν ως οδηγίες για το πρόγραμμα που ερμηνεύει και εμφανίζει τα περιεχόμενα του τεκμηριώστε, στην πραγματικότητα, στο άτομο στο οποίο προβάλλεται, εάν προσπαθήσετε να βρείτε αναλογίες με το Διαδίκτυο, τότε αυτός είναι ο πελάτης και το πρόγραμμα διερμηνέα στην πιο συνηθισμένη περίπτωση είναι το πρόγραμμα περιήγησης). Ήδη στα πρώτα συστήματα, αποφασίστηκε να χρησιμοποιηθούν τα σύμβολα "" για τον προσδιορισμό αυτών των εντολών, μέσα στις οποίες τοποθετήθηκαν τα ονόματα των εντολών και οι παράμετροί τους. Σήμερα, αυτή η μέθοδος ονομασίας ετικετών είναι ένα γενικά αποδεκτό πρότυπο.

    Η ίδια η χρήση της ανάλυσης υπερκειμένου ενός εγγράφου κειμένου στα σύγχρονα συστήματα πληροφοριών οφείλεται σε μεγάλο βαθμό στο γεγονός ότι το υπερκείμενο σας επιτρέπει να δημιουργήσετε έναν μηχανισμό για τη λεγόμενη μη γραμμική προβολή πληροφοριών. Αυτό σημαίνει ότι στα συστήματα, τα δεδομένα δεν παρουσιάζονται ως μια συνεχής ροή δομών κειμένου, αλλά ως ένα σύνολο διασυνδεδεμένων στοιχείων, τα οποία πλοηγούνται χρησιμοποιώντας υπερσυνδέσμους.

    Η πιο δημοφιλής και γνωστή γλώσσα σήμανσης υπερκειμένου σήμερα, η HTML, δημιουργήθηκε ειδικά για τη δομή και τη μετάδοση πληροφοριών που βρίσκονται στο Διαδίκτυο και αποτελεί αναμφίβολα βασικό συστατικό της τεχνολογίας WWW. Με τη χρήση του μοντέλου εγγράφου υπερκειμένου, ο τρόπος παρουσίασης διαφόρων πόρων πληροφοριών στο δίκτυο έχει γίνει πιο τακτικός και οι χρήστες έχουν λάβει έναν βολικό μηχανισμό για την αναζήτηση και την προβολή των απαραίτητων πληροφοριών. Ωστόσο, το πρώτο σημάδι σε αυτό το θέμα εξακολουθεί να θεωρείται μια πολύ παλαιότερη γλώσσα - η SGML.

    Η SGML (Standard Generalized Markup Language) υιοθετήθηκε επίσημα το 1986 ως διεθνές πρότυπο (ISO 8879:1986) για την περιγραφή ανεξάρτητων μεθόδων συσκευής εισόδου/εξόδου και περιβάλλοντος για την αναπαράσταση κειμενικών πληροφοριών σε ηλεκτρονική μορφή. Η βάση για τη δημιουργία του ήταν η μάλλον παλιά γλώσσα σήμανσης GML (Generalized Markup Language), που αναπτύχθηκε από την IBM την εποχή των πρώτων προσωπικών υπολογιστών. Για την ακρίβεια, η SGML είναι μια μεταγλώσσα που έχει σχεδιαστεί για να περιγράφει άλλες γλώσσες σήμανσης.

    Αρχικά, η λέξη σήμανσης χρησιμοποιήθηκε τυπικά για να περιγράψει σχολιασμούς ή άλλες σημάνσεις μέσα στο κείμενο που είχαν σκοπό να καθοδηγήσουν τον συγγραφέα του εγγράφου ή τον "σχεδιαστή διάταξης", όπως αποκαλείται μερικές φορές, πώς ακριβώς θα έπρεπε να πληκτρολογηθεί ένα συγκεκριμένο απόσπασμα. Τέτοιες μέθοδοι μπορεί να περιλαμβάνουν στριμωγμένη υπογράμμιση για να υποδείξετε πλάγιους χαρακτήρες, ορισμένα ειδικά εικονίδια για να παραλείψετε ορισμένες φράσεις ή να τις εκτυπώσετε σε μια συγκεκριμένη γραμματοσειρά και ούτω καθεξής. Καθώς η μορφοποίηση και η εκτύπωση αυτοματοποιήθηκαν με την πάροδο του χρόνου, ο όρος περιλάμβανε όλα τα είδη ειδικών κωδικών σήμανσης που εισήχθησαν σε ηλεκτρονικά έγγραφα κειμένου για τον έλεγχο της μορφοποίησης, της εκτύπωσης ή άλλης επεξεργασίας.

    Επομένως, μια γλώσσα σήμανσης αναφέρεται σε ένα σύνολο συμβάσεων μορφοποίησης που χρησιμοποιούνται για την κωδικοποίηση μπλοκ κειμένου. Η γλώσσα σήμανσης πρέπει να υποδεικνύει με σαφήνεια ποια σήμανση είναι αποδεκτή σε ένα δεδομένο έγγραφο, ποια σήμανση απαιτείται, πώς να διακρίνονται τα στοιχεία της από το απλό κείμενο και τι σημαίνει η σήμανση. Η SGML μπόρεσε να λύσει τα τρία πρώτα προβλήματα, η λύση στο τελευταίο απαιτούσε την παρουσία μιας άτυπης περιγραφής.

    Η SGML, σε αντίθεση με όλες τις άλλες γλώσσες σήμανσης που δημιουργήθηκαν στη βάση της, χρησιμοποιεί την αρχή της λεγόμενης περιγραφικής σήμανσης αντί της διαδικαστικής σήμανσης. Ένα τέτοιο σύστημα χρησιμοποιεί στοιχεία σήμανσης που παρέχουν απλώς ονόματα για να εκχωρήσει μεμονωμένα μέρη ενός εγγράφου σε ορισμένες κατηγορίες. Με άλλα λόγια, ετικέτες όπως το Or \end(list) απλώς προσδιορίζουν ένα τμήμα ενός εγγράφου και δηλώνουν ότι "αυτό το τμήμα είναι μια παράγραφος" ή ότι "αυτό το τμήμα είναι το τέλος μιας αρχικής λίστας" κ.λπ. Ένα σύστημα που χρησιμοποιεί διαδικαστική σήμανση (περιλαμβάνει επεξεργαστές κειμένου, για παράδειγμα, το Microsoft Word) καθορίζει το είδος της επεξεργασίας που θα εκτελεστεί σε ένα συγκεκριμένο σημείο ενός εγγράφου κειμένου: "σε αυτό το μέρος, καλέστε αυτή ή τέτοια διαδικασία με παραμέτρους 5, e και z» ή «μετακινήστε το περίγραμμα του εγγράφου 7 mm προς τα δεξιά σε σχέση με οποιοδήποτε στοιχείο, παραλείψτε μια γραμμή, ξεκινήστε την επόμενη από την κόκκινη γραμμή κ.λπ. Στο SGML, οι οδηγίες που απαιτούνται για την επεξεργασία ενός εγγράφου για κάποιο συγκεκριμένο σκοπό (για παράδειγμα, μορφοποίηση) διαχωρίζονται σαφώς από την περιγραφική σήμανση που εμφανίζεται μέσα στο έγγραφο. Συνήθως συλλέγονται εκτός του εγγράφου σε ξεχωριστές διαδικασίες ή προγράμματα.

    Χρησιμοποιώντας περιγραφική και όχι διαδικαστική σήμανση, το ίδιο έγγραφο μπορεί να υποβληθεί σε επεξεργασία από διαφορετικά προγράμματα, καθένα από τα οποία μπορεί να εφαρμόσει τις δικές του οδηγίες επεξεργασίας σε εκείνα τα μέρη του που θεωρεί σημαντικά. Για παράδειγμα, ένα πρόγραμμα ανάλυσης περιεχομένου μπορεί να αγνοεί εντελώς τις υποσημειώσεις, ενώ ένα πρόγραμμα μορφοποίησης μπορεί να τις εξάγει και να τις συναρμολογεί για εκτύπωση στο τέλος κάθε τμήματος. Διαφορετικά είδη οδηγιών επεξεργασίας ενδέχεται να σχετίζονται με το ίδιο τμήμα του αρχείου. Για παράδειγμα, ένα πρόγραμμα μπορεί να εξάγει τα ονόματα και τα τοπωνύμια ατόμων από ένα έγγραφο για να δημιουργήσει ένα ευρετήριο ή μια βάση δεδομένων, ενώ ένα άλλο πρόγραμμα που επεξεργάζεται το ίδιο κείμενο μπορεί να εκτυπώσει τα ονόματα με διαφορετική γραμματοσειρά.

    Το SGML εισάγει επίσης την έννοια του τύπου εγγράφου και, κατά συνέπεια, τρόπους ορισμού του (ορισμός τύπου εγγράφου, DTD). Τα έγγραφα θεωρούνται δακτυλογραφημένα, όπως και άλλα αντικείμενα που υποβάλλονται σε επεξεργασία από υπολογιστή. Ο τύπος του εγγράφου καθορίζεται επίσημα από τα συστατικά μέρη του και τη δομή τους. Για παράδειγμα, μπορεί κανείς να ορίσει έναν τύπο εγγράφου έτσι ώστε να αποτελείται από έναν τίτλο και ίσως ένα όνομα συγγραφέα, ακολουθούμενο από μια περίληψη και μια ακολουθία μιας ή περισσότερων παραγράφων. Οποιοδήποτε έγγραφο στερείται τίτλου, σύμφωνα με αυτόν τον επίσημο ορισμό, δεν θα είναι έκθεση, όπως θα είναι μια ακολουθία παραγράφων ακολουθούμενη από μια περίληψη, ανεξάρτητα από το πόσο μοιάζει με αναφορά το έγγραφο από τη σκοπιά ενός ανθρώπου αναγνώστης..

    Επειδή τα έγγραφα είναι γνωστών τύπων, μπορείτε να χρησιμοποιήσετε ένα ειδικό πρόγραμμα που ονομάζεται αναλυτής για να επεξεργαστείτε ένα έγγραφο που ισχυρίζεται ότι είναι συγκεκριμένου τύπου και να ελέγξετε εάν υπάρχουν και βρίσκονται όλα τα στοιχεία που απαιτούνται για αυτόν τον τύπο εγγράφου. με τη σωστή σειρά και σωστά δομημένος. Το πιο σημαντικό είναι ότι διαφορετικά έγγραφα του ίδιου τύπου μπορούν να υποβληθούν σε επεξεργασία με ομοιόμορφο τρόπο. Είναι δυνατό να γραφτούν προγράμματα που χρησιμοποιούν τη γνώση που περιέχεται στη δομή πληροφοριών ενός εγγράφου, τα οποία μπορούν έτσι να είναι πιο έξυπνα.

    Η SGML, ως μεταγλώσσα, επιτρέπει τον ορισμό συγκεκριμένων γλωσσών (συχνά αποκαλούμενες "εφαρμογές SGML") που στοχεύουν συγκεκριμένες εφαρμογές. Ένα παράδειγμα αυτού είναι η γλώσσα HTML, που χρησιμοποιείται ευρέως στο WWW. Κάθε τέτοια γλώσσα περιγράφεται με τη μορφή DTD, που ορίζει στοιχεία και τα χαρακτηριστικά τους. Μόλις δοθεί ένα τέτοιο DTD, το λογισμικό SGML μπορεί να επεξεργαστεί σωστά έγγραφα που έχουν γραφτεί σύμφωνα με αυτό το DTD.

    Ακόμη και στο έργο, αυτή η γλώσσα σχεδιάστηκε ειδικά για να εφαρμόσει το μοντέλο μεταφοράς πληροφοριών στο παγκόσμιο δίκτυο που έχουμε τώρα. Με άλλα λόγια, η HTML είναι προϊόν του Διαδικτύου. Αν και, στην πραγματικότητα, η HTML είναι μια απλοποιημένη έκδοση της Standard Generalized Markup Language - SGML (Standard Generalized Markup Language), η οποία εγκρίθηκε από το ISO ως πρότυπο στη δεκαετία του '80 του περασμένου αιώνα. Η SGTML δεν είναι μια γλώσσα στην καθαρή της μορφή, αλλά μάλλον ένα σύνολο κανόνων και περιγραφών για τη δημιουργία άλλων γλωσσών· ορίζει ένα έγκυρο σύνολο ετικετών, τα χαρακτηριστικά τους και την εσωτερική δομή του εγγράφου. Ο έλεγχος της σωστής χρήσης των περιγραφέων πραγματοποιείται χρησιμοποιώντας ένα ειδικό σύνολο κανόνων που ονομάζονται περιγραφές DTD, οι οποίες χρησιμοποιούνται από το πρόγραμμα διερμηνέα πελάτη κατά την ανάλυση του εγγράφου. Για κάθε κατηγορία εγγράφων, ορίζεται το δικό της σύνολο κανόνων που περιγράφουν τη γραμματική της αντίστοιχης γλώσσας σήμανσης. Χρησιμοποιώντας το SGML, μπορείτε να οργανώσετε τις πληροφορίες που περιέχονται στα έγγραφα, να περιγράψετε δομημένα δεδομένα και να παρουσιάσετε αυτές τις πληροφορίες σε κάποια τυποποιημένη μορφή για μεταγενέστερη χρήση. Ωστόσο, λόγω κάποιας πολυπλοκότητάς του, το SGML χρησιμοποιήθηκε κυρίως για την περιγραφή της σύνταξης άλλων γλωσσών (η πιο διάσημη από τις οποίες είναι η HTML), και λίγες εφαρμογές δούλευαν απευθείας με έγγραφα SGML.

    Η HTML είναι μια πολύ πιο βολική και εύχρηστη γλώσσα από την SGML. Δεν επιτρέπει τον καθορισμό πρόσθετων γλωσσών βάσει του. Η χρήση HTML περιλαμβάνει τη σήμανση ενός εγγράφου σύμφωνα με ένα πρότυπο, το οποίο ορίζεται από ένα αρκετά περιορισμένο σύνολο οδηγιών ή ετικετών. Τέτοιες οδηγίες προορίζονται, πρώτα απ 'όλα, στον έλεγχο της διαδικασίας εμφάνισης των περιεχομένων ενός εγγράφου στην οθόνη ενός προγράμματος-πελάτη και, ως εκ τούτου, στον καθορισμό της μεθόδου παρουσίασης του εγγράφου, αλλά όχι της συνολικής δομής του. Στις περισσότερες περιπτώσεις, τα δεδομένα HTML αντιπροσωπεύονται σε ένα αρχείο απλού κειμένου που μπορεί εύκολα να μεταφερθεί μέσω του δικτύου χρησιμοποιώντας το πρωτόκολλο http.

    Ωστόσο, όσο περνά ο καιρός και θέτει ολοένα και πιο αυστηρές απαιτήσεις σε δημοφιλείς τεχνολογίες, οι σύγχρονες εφαρμογές χρειάζονται όχι μόνο μια γλώσσα για την παρουσίαση δεδομένων στην οθόνη πελάτη, αλλά και έναν μηχανισμό που επιτρέπει σε κάποιον να προσδιορίζει τη δομή ενός εγγράφου και να περιγράφει τα στοιχεία που περιέχει. . Η HTML έχει ένα απλό σύνολο εντολών και αντιμετωπίζει με επιτυχία το έργο της περιγραφής πληροφοριών κειμένου και της εμφάνισής τους στην οθόνη ενός προγράμματος προβολής - ενός προγράμματος περιήγησης. Ωστόσο, τα ίδια τα δεδομένα που εμφανίζονται δεν σχετίζονται σε καμία περίπτωση με τις ετικέτες που χρησιμοποιούνται για τη μορφοποίηση, επομένως τα προγράμματα ανάλυσης δεν έχουν τη δυνατότητα να χρησιμοποιήσουν ετικέτες HTML για να βρουν τα θραύσματα εγγράφων που χρειαζόμαστε. Εκείνοι. έχοντας συναντήσει, για παράδειγμα, μια τέτοια περιγραφή

    τριαντάφυλλο

    Ο θεατής θα ξέρει τι χρώμα να εμφανίσει το κείμενο που περιέχεται στις ετικέτες και, πιθανότατα, θα το εμφανίσει σωστά, αλλά αδιαφορεί για το πού στο έγγραφο βρίσκεται αυτή η ετικέτα, σε ποιες άλλες ετικέτες περικλείεται το τρέχον τμήμα, αν υπάρχουν θραύσματα φωλιασμένα σε αυτό, είτε οι σχέσεις μεταξύ των αντικειμένων έχουν κατασκευαστεί σωστά. Αυτή η «αδιαφορία» για τη δομή ενός εγγράφου οδηγεί στο γεγονός ότι η αναζήτηση ή η ανάλυση πληροφοριών μέσα σε αυτό δεν θα διαφέρει από την εργασία με ένα συνεχές αρχείο κειμένου που δεν είναι χωρισμένο σε στοιχεία. Και αυτός, όπως γνωρίζετε, δεν είναι ο πιο αποτελεσματικός τρόπος για να εργαστείτε με πληροφορίες.

    Ένα άλλο σημαντικό μειονέκτημα της ίδιας της ιδέας, που εφαρμόζεται σε HTML, είναι το περιορισμένο σύνολο των ετικετών της. Οι κανόνες DTD για την HTML ορίζουν ένα σταθερό σύνολο περιγραφέων και επομένως ο προγραμματιστής δεν έχει την ευκαιρία να εισαγάγει τις δικές του, ειδικές ετικέτες. Παρόλο που εμφανίζονται κατά καιρούς νέες επεκτάσεις γλώσσας (σήμερα η τελευταία έκδοση της HTML είναι η HTML 4.0), ο μακρύς δρόμος για την τυποποίησή τους, που συνοδεύεται από συνεχείς διαφωνίες μεταξύ των κύριων κατασκευαστών προγραμμάτων περιήγησης, καθιστά σχεδόν αδύνατη τη γρήγορη προσαρμογή της γλώσσας, τη χρήση της για την εμφάνιση εξειδικευμένων πληροφοριών (για παράδειγμα, πολυμέσων, μαθηματικών, χημικών τύπων κ.λπ.).

    Για να συνοψίσουμε όλα όσα έχουν ειπωθεί, μπορεί να υποστηριχθεί ότι η HTML σήμερα δεν ικανοποιεί πλήρως τις απαιτήσεις που επιβάλλονται από σύγχρονους προγραμματιστές για γλώσσες αυτού του είδους. Και για να το αντικαταστήσει, προτάθηκε μια νέα γλώσσα σήμανσης υπερκειμένου: μια ισχυρή, ευέλικτη και, ταυτόχρονα, βολική γλώσσα XML.

    Η XML (Extensible Markup Language) είναι μια γλώσσα σήμανσης που περιγράφει μια ολόκληρη κατηγορία αντικειμένων δεδομένων που ονομάζονται έγγραφα XML. Αυτή η γλώσσα χρησιμοποιείται ως μέσο για την περιγραφή της γραμματικής άλλων γλωσσών και για τον έλεγχο της ορθότητας των εγγράφων. Εκείνοι. Η ίδια η XML δεν περιέχει ετικέτες που προορίζονται για σήμανση, απλώς ορίζει τη σειρά με την οποία δημιουργούνται. Έτσι, εάν, για παράδειγμα, πιστεύουμε ότι πρέπει να χρησιμοποιήσουμε μια ετικέτα για να αναπαραστήσουμε το στοιχείο rose σε ένα έγγραφο, τότε η XML μας επιτρέπει να χρησιμοποιήσουμε ελεύθερα την ετικέτα που ορίζουμε και μπορούμε να συμπεριλάβουμε αποσπάσματα όπως τα παρακάτω στο έγγραφο:

    τριαντάφυλλο

    Το σύνολο των ετικετών μπορεί εύκολα να επεκταθεί. Εάν, ας υποθέσουμε, θέλουμε επίσης να υποδείξουμε ότι η περιγραφή του λουλουδιού πρέπει να μπαίνει ουσιαστικά στην περιγραφή του θερμοκηπίου στο οποίο ανθίζει, τότε απλώς ορίζουμε νέες ετικέτες και επιλέγουμε τη σειρά με την οποία εμφανίζονται:

    τριαντάφυλλο

    Αν θέλουμε να φυτέψουμε μερικά ακόμη λουλούδια εκεί, πρέπει να κάνουμε τις εξής αλλαγές:

    τριαντάφυλλο

    τουλίπα

    κάκτος

    Όπως μπορείτε να δείτε, η διαδικασία δημιουργίας ενός εγγράφου XML είναι πολύ απλή και απαιτεί μόνο βασικές γνώσεις HTML και κατανόηση των εργασιών που θέλουμε να εκτελέσουμε χρησιμοποιώντας την XML ως γλώσσα σήμανσης. Αυτό δίνει στους προγραμματιστές τη μοναδική δυνατότητα να ορίζουν προσαρμοσμένες εντολές που τους επιτρέπουν να ορίζουν αποτελεσματικότερα τα δεδομένα που περιέχονται σε ένα έγγραφο. Ο συγγραφέας του εγγράφου δημιουργεί τη δομή του, δημιουργεί τις απαραίτητες συνδέσεις μεταξύ στοιχείων, χρησιμοποιώντας εκείνες τις εντολές που ικανοποιούν τις απαιτήσεις του και επιτυγχάνει τον τύπο σήμανσης που χρειάζεται για να εκτελέσει τις λειτουργίες προβολής, αναζήτησης και ανάλυσης του εγγράφου.

    Ένα άλλο προφανές πλεονέκτημα της XML είναι η δυνατότητα χρήσης της ως καθολικής γλώσσας ερωτημάτων για αποθήκες πληροφοριών. Σήμερα, στα βάθη του W3C, εξετάζεται μια λειτουργική έκδοση του προτύπου XML-QL (ή XQL), που μπορεί στο μέλλον να γίνει σοβαρός ανταγωνιστής της SQL. Επιπλέον, τα έγγραφα XML μπορούν να λειτουργήσουν ως ένας μοναδικός τρόπος αποθήκευσης δεδομένων που περιλαμβάνει τόσο τα μέσα για την ανάλυση πληροφοριών όσο και την παρουσίασή τους στην πλευρά του πελάτη. Σε αυτόν τον τομέα, ένας από τους πολλά υποσχόμενους τομείς είναι η ενσωμάτωση των τεχνολογιών Java και XML, που καθιστά δυνατή τη χρήση της ισχύος και των δύο τεχνολογιών κατά την κατασκευή εφαρμογών ανεξάρτητων από μηχανή που χρησιμοποιούν επίσης μια καθολική μορφή δεδομένων για ανταλλαγή πληροφοριών.

    Η XML σάς επιτρέπει επίσης να ελέγχετε την ορθότητα των δεδομένων που αποθηκεύονται σε έγγραφα, να ελέγχετε τις ιεραρχικές σχέσεις μέσα σε ένα έγγραφο και να δημιουργείτε ένα ενιαίο πρότυπο για τη δομή των εγγράφων, το περιεχόμενο του οποίου μπορεί να είναι μια ποικιλία δεδομένων. Αυτό σημαίνει ότι μπορεί να χρησιμοποιηθεί κατά την κατασκευή πολύπλοκων πληροφοριακών συστημάτων, στα οποία το ζήτημα της ανταλλαγής πληροφοριών μεταξύ διαφορετικών εφαρμογών που εκτελούνται στο ίδιο σύστημα είναι πολύ σημαντικό. Δημιουργώντας μια δομή για έναν μηχανισμό ανταλλαγής πληροφοριών στην αρχή της εργασίας σε ένα έργο, ένας διαχειριστής μπορεί να σωθεί στο μέλλον από πολλά προβλήματα που σχετίζονται με την ασυμβατότητα των μορφών δεδομένων που χρησιμοποιούνται από διάφορα στοιχεία του συστήματος.

    Επίσης, ένα από τα πλεονεκτήματα της XML είναι ότι τα προγράμματα επεξεργασίας εγγράφων XML είναι απλά και σήμερα όλα τα είδη προϊόντων λογισμικού που έχουν σχεδιαστεί για να λειτουργούν με έγγραφα XML διανέμονται ελεύθερα. Η XML υποστηρίζεται σήμερα σε όλα τα προγράμματα περιήγησης της οικογένειας Microsoft Internet Explorer, ξεκινώντας από την έκδοση 4.0. Ανακοινώθηκε ότι θα υποστηρίζεται σε επόμενες εκδόσεις των εφαρμογών Netscape Communicator, Oracle DBMS, DB-2 και MS-Office. Όλα αυτά δίνουν λόγο να υποθέσουμε ότι, πιθανότατα, στο εγγύς μέλλον, η XML θα γίνει η κύρια γλώσσα ανταλλαγής πληροφοριών για συστήματα πληροφοριών, αντικαθιστώντας έτσι την HTML. Γνωστές εξειδικευμένες γλώσσες σήμανσης όπως SMIL, CDF, MathML, XSL έχουν ήδη δημιουργηθεί με βάση την XML, και η λίστα με τα λειτουργικά προσχέδια νέων γλωσσών που εξετάζονται από το W3C αυξάνεται συνεχώς.

    Πώς μοιάζει ένα έγγραφο XML;

    Εάν είστε εξοικειωμένοι με την HTML, η εκμάθηση της XML δεν θα απαιτήσει μεγάλη προσπάθεια από μέρους σας. Αν και η XML είναι σίγουρα πολύ διαφορετική ως προς τις δυνατότητες και τις προθέσεις της από τη γλώσσα σήμανσης HyperText, και οι δύο γλώσσες είναι υποσύνολα της SGML και επομένως κληρονομούν τις βασικές αρχές της.

    Δομή εγγράφου

    Ένα απλό έγγραφο XML μπορεί να μοιάζει με το Παράδειγμα 1

    Πρώτα

    Δεύτερο εδάφιο 1

    Τρίτος

    τελευταίος

    Λάβετε υπόψη ότι αυτό το έγγραφο μοιάζει πολύ με μια κανονική σελίδα HTML. Όπως και στην HTML, οι οδηγίες που περικλείονται σε γωνιακές αγκύλες ονομάζονται ετικέτες και χρησιμεύουν για τη σήμανση του σώματος του εγγράφου. Στην XML, υπάρχουν ετικέτες ανοίγματος, κλεισίματος και κενές (στην HTML, υπάρχει επίσης η έννοια της άδειας ετικέτας, αλλά δεν απαιτείται ειδικός προσδιορισμός).

    Το σώμα ενός εγγράφου XML αποτελείται από στοιχεία σήμανσης και το πραγματικό περιεχόμενο του εγγράφου - δεδομένα (περιεχόμενο). Οι ετικέτες XML έχουν σχεδιαστεί για να ορίζουν στοιχεία εγγράφου, τα χαρακτηριστικά τους και άλλες γλωσσικές κατασκευές. Θα μιλήσουμε λεπτομερέστερα για τους τύπους σήμανσης που χρησιμοποιούνται στα έγγραφα λίγο αργότερα.

    Οποιοδήποτε έγγραφο XML πρέπει πάντα να ξεκινά με μια οδηγία, μέσα στην οποία μπορείτε επίσης να καθορίσετε τον αριθμό έκδοσης της γλώσσας, τον αριθμό της κωδικοσελίδας και άλλες παραμέτρους που είναι απαραίτητες για το πρόγραμμα ανάλυσης για την ανάλυση του εγγράφου.

    Κανόνες για τη δημιουργία ενός εγγράφου XML

    Γενικά, τα έγγραφα XML πρέπει να πληρούν τις ακόλουθες απαιτήσεις:

    Η κεφαλίδα του εγγράφου περιέχει μια δήλωση XML που καθορίζει τη γλώσσα σήμανσης του εγγράφου, τον αριθμό έκδοσης και πρόσθετες πληροφορίες.

    Κάθε ετικέτα ανοίγματος που ορίζει κάποια περιοχή δεδομένων στο έγγραφο πρέπει να έχει τον δικό της "συνεργάτη" κλεισίματος, δηλαδή, σε αντίθεση με την HTML, οι ετικέτες κλεισίματος δεν μπορούν να παραληφθούν.

    Η XML κάνει διάκριση πεζών-κεφαλαίων.

    Όλες οι τιμές χαρακτηριστικών που χρησιμοποιούνται στους ορισμούς των ετικετών πρέπει να περικλείονται σε εισαγωγικά.

    Η ένθεση των ετικετών σε XML ελέγχεται αυστηρά, επομένως είναι απαραίτητο να παρακολουθείται η σειρά ανοίγματος και κλεισίματος των ετικετών.

    Όλες οι πληροφορίες μεταξύ των ετικετών έναρξης και τέλους αντιμετωπίζονται ως δεδομένα σε XML, και επομένως όλοι οι χαρακτήρες μορφοποίησης λαμβάνονται υπόψη (δηλαδή τα κενά, οι αλλαγές γραμμής, οι καρτέλες δεν αγνοούνται όπως στην HTML).

    Εάν ένα έγγραφο XML δεν παραβιάζει τους παραπάνω κανόνες, τότε ονομάζεται τυπικά σωστό και όλοι οι αναλυτές που έχουν σχεδιαστεί για την ανάλυση εγγράφων XML θα μπορούν να λειτουργούν σωστά μαζί του.

    Ωστόσο, εκτός από τον έλεγχο της τυπικής συμμόρφωσης με τη γραμματική της γλώσσας, το έγγραφο μπορεί να περιέχει μέσα ελέγχου του περιεχομένου του εγγράφου, της συμμόρφωσης με τους κανόνες που καθορίζουν τις απαραίτητες σχέσεις μεταξύ των στοιχείων και σχηματίζουν τη δομή του εγγράφου. Για παράδειγμα, το ακόλουθο κείμενο, αν και είναι απολύτως έγκυρο έγγραφο XML, θα είναι εντελώς άνευ σημασίας:

    Ρωσία Νοβοσιμπίρσκ

    Προκειμένου να διασφαλιστεί ότι ελέγχεται η ορθότητα των εγγράφων XML, είναι απαραίτητο να χρησιμοποιηθούν αναλυτές που εκτελούν τέτοιους ελέγχους και ονομάζονται επαληθευτές.

    Σήμερα, υπάρχουν δύο κύριοι τρόποι ελέγχου της ορθότητας ενός εγγράφου XML: ορισμοί DTD (Ορισμός Τύπου Εγγράφου) και σχήματα δεδομένων (Σημασιολογικό σχήμα). Θα μιλήσουμε περισσότερα για τη χρήση DTD και σχημάτων την επόμενη φορά. Σε αντίθεση με το SGML, ο καθορισμός κανόνων DTD σε XML δεν είναι απαραίτητος και αυτή η περίσταση μας επιτρέπει να δημιουργήσουμε οποιαδήποτε έγγραφα XML χωρίς να ταλαιπωρούμε τον εγκέφαλό μας για τη μάλλον περίπλοκη σύνταξη DTD.

    Η βασική αρχή

    Ένα στοιχείο είναι η βασική δομική μονάδα ενός εγγράφου XML. Περικλείοντας τη λέξη τριαντάφυλλο στις ετικέτες, ορίζουμε ένα μη κενό στοιχείο που ονομάζεται , του οποίου το περιεχόμενο είναι τριαντάφυλλο. Στη γενική περίπτωση, το περιεχόμενο των στοιχείων μπορεί να είναι απλώς κάποιο κείμενο ή άλλα ένθετα στοιχεία εγγράφου, ενότητες CDATA, οδηγίες επεξεργασίας, σχόλια, π.χ. σχεδόν οποιοδήποτε μέρος ενός εγγράφου XML.

    Οποιοδήποτε μη κενό στοιχείο πρέπει να αποτελείται από μια ετικέτα έναρξης, μια ετικέτα τέλους και τα δεδομένα που περικλείονται μεταξύ τους.

    Το σύνολο όλων των στοιχείων που περιέχονται σε ένα έγγραφο ορίζει τη δομή του και καθορίζει όλες τις ιεραρχικές σχέσεις. Χρησιμοποιώντας στοιχεία, ένα επίπεδο μοντέλο δεδομένων μετατρέπεται σε ένα σύνθετο ιεραρχικό σύστημα με πολλές πιθανές σχέσεις μεταξύ των στοιχείων.

    Κατά τη μεταγενέστερη αναζήτηση ενός εγγράφου, το πρόγραμμα-πελάτη θα βασίζεται στις πληροφορίες που είναι ενσωματωμένες στη δομή του - χρησιμοποιώντας τα στοιχεία του εγγράφου. Εκείνοι. εάν, για παράδειγμα, θέλετε να βρείτε το κατάλληλο πανεπιστήμιο στη σωστή πόλη, τότε θα χρειαστεί να δείτε τα περιεχόμενα ενός συγκεκριμένου στοιχείου που βρίσκεται μέσα σε ένα συγκεκριμένο στοιχείο. Η αναζήτηση σε αυτήν την περίπτωση, φυσικά, θα είναι πολύ πιο αποτελεσματική από την εύρεση της επιθυμητής ακολουθίας σε ολόκληρο το έγγραφο.

    Σε ένα έγγραφο XML, κατά κανόνα, ορίζεται τουλάχιστον ένα στοιχείο, που ονομάζεται ρίζα, και οι αναλυτές αρχίζουν να σαρώνουν το έγγραφο από αυτό το στοιχείο. Στο παραπάνω παράδειγμα, αυτό το στοιχείο είναι .

    Σε ορισμένες περιπτώσεις, οι ετικέτες μπορούν να αλλάξουν και να αποσαφηνίσουν τη σημασιολογία ορισμένων τμημάτων ενός εγγράφου, ορίζοντας τις ίδιες πληροφορίες με διαφορετικούς τρόπους και παρέχοντας έτσι στην εφαρμογή που αναλύει αυτό το έγγραφο πληροφορίες σχετικά με το πλαίσιο χρήσης των περιγραφόμενων δεδομένων. Για παράδειγμα, αφού διαβάσουμε το απόσπασμα του Χόλιγουντ, μπορούμε να μαντέψουμε ότι αυτό το μέρος του εγγράφου αφορά μια πόλη, αλλά στο απόσπασμα του Χόλιγουντ αφορά ένα εστιατόριο.

    συμπέρασμα

    Η γλώσσα μορφοποίησης ιστοσελίδας HTML εισήχθη αρχικά ως εφαρμογή του SGML. Αργότερα, με την ταχεία ανάπτυξη του WWW, η HTML άρχισε να επεκτείνεται με κάθε δυνατό τρόπο προκειμένου να δώσει στον συγγραφέα περισσότερο έλεγχο στην εξωτερική παρουσίαση των πληροφοριών. Νέα στοιχεία και χαρακτηριστικά, όπως ή , επικεντρωμένα στην οπτική μορφοποίηση. Εμφανίστηκαν και άρχισαν να χρησιμοποιούνται ενεργά εργαλεία που δεν αποτελούν μέρος της ίδιας της γλώσσας σήμανσης: χάρτες εικόνας, Java και JavaScript, πρόσθετα κ.λπ. Υπάρχουν επίσης πολλά στοιχεία HTML που υποστηρίζονται μόνο από συγκεκριμένα προγράμματα περιήγησης ή που λειτουργούν διαφορετικά σε διαφορετικά προγράμματα περιήγησης. Επομένως, είναι πλέον δύσκολο να πούμε εάν η HTML είναι εφαρμογή SGML ή όχι. Πολύ λίγες σελίδες δημιουργούνται σύμφωνα με τις προδιαγραφές HTML και τα αντίστοιχα DTD.

    Αυτό το πρόβλημα προορίζεται εν μέρει να αμβλυνθεί από τα στυλ cascading, το πρότυπο για το οποίο έχει υιοθετηθεί από την κοινοπραξία W3. Το CSS1 διαχωρίζει το στυλ που ορίζει την οπτική εμφάνιση των στοιχείων από τη σήμανση του στοιχείου.

    Μεγάλο ενδιαφέρον παρουσιάζει η γλώσσα XML, η οποία υποτίθεται ότι αντικαθιστά την HTML ως γλώσσα σήμανσης για ιστοσελίδες. Αυτή είναι μια παραλλαγή του SGML, που στοχεύει κυρίως στη χρήση στο WWW. Δεν απαιτεί DTD και η ίδια η γλώσσα είναι απλοποιημένη λόγω των πολύπλοκων δομών που χρησιμοποιούνται σπάνια. Αυτό θα κάνει τους αναλυτές απλούς, γεγονός που θα επιτρέψει την ενεργή χρήση XML σε προγράμματα περιήγησης. (Η πιθανότητα του οποίου είναι αρκετά υψηλή, λαμβάνοντας υπόψη τα νεύματα και των δύο σημαντικών παικτών στον τομέα του προγράμματος περιήγησης προς την XML).


    ΕΚΤΥΠΩΣΗ ΕΚΔΟΣΗ>>
    Διαβάστηκε το άρθρο:μια φορά.

    (Standard Generalized Markup Language), που παρουσιάζεται στο πρότυπο ISO 8879. Αυτή η γλώσσα υιοθετείται ως η κύρια γλώσσα για το σχεδιασμό της τεχνικής τεκμηρίωσης, συμπεριλαμβανομένων των διαδραστικών ηλεκτρονικών τεχνικών εγχειριδίωνγια προϊόντα που δημιουργούνται με χρήση τεχνολογιών CALS.

    Το SGML ορίζει τη δομή των εγγράφων ως μια ακολουθία αντικειμένων δεδομένων. Τα αντικείμενα δεδομένων που αντιπροσωπεύουν μέρη ενός εγγράφου μπορούν να αποθηκευτούν σε διαφορετικά αρχεία. Το πρότυπο SGML καθιερώνει ένα σύνολο συμβόλων και κανόνων για την αναπαράσταση πληροφοριών που επιτρέπουν σε διάφορα συστήματα να αναγνωρίζουν και να αναγνωρίζουν σωστά αυτές τις πληροφορίες. Αυτά τα σύνολα περιγράφονται σε ένα ξεχωριστό μέρος του εγγράφου που ονομάζεται δήλωση DTD(Document Type Decfinition), το οποίο μεταδίδεται μαζί με το κύριο έγγραφο SGML. Το DTD καθορίζει την αντιστοιχία των χαρακτήρων και τους κωδικούς τους, τα μέγιστα μήκη των αναγνωριστικών που χρησιμοποιούνται, τον τρόπο με τον οποίο αναπαρίστανται οι οριοθέτες για ετικέτες, άλλες πιθανές συμβάσεις, τη σύνταξη DTD και τον τύπο και την έκδοση του εγγράφου. Επομένως, η SGML μπορεί να ονομαστεί μεταγλώσσα για μια οικογένεια συγκεκριμένων γλωσσών σήμανσης. Συγκεκριμένα, οι γλώσσες σήμανσης XML μπορούν να θεωρηθούν υποσύνολα του SGMLκαι HTML.

    Η τεχνική περιγραφή με τη μορφή εγγράφου SGML περιλαμβάνει:

    • κύριο αρχείο με τεχνικό εγχειρίδιο, σημειωμένο με ετικέτες SGML.
    • περιγραφή των οντοτήτων, εάν το έγγραφο ανήκει σε ομάδα στην οποία χρησιμοποιούνται οι ίδιες οντότητες και υπονοείται η γνώση τους·
    • ένα λεξικό για να εξηγήσει τις ετικέτες SGML.

    Ωστόσο, το SGML είναι δύσκολο να μαθευτεί και να χρησιμοποιηθεί. Ως εκ τούτου, για την ευρεία χρήση της σήμανσης σε έγγραφα που υποβάλλονται στο WWW-technologies, το 1991, αναπτύχθηκε μια απλοποιημένη γλώσσα HTML με βάση την SGML(HyperText Markup Language), και το 1996 η γλώσσα XML(eXtensible Markup Language), η οποία σε συνδυασμό με την HTML γίνεται η κύρια γλώσσα για την παρουσίαση εγγράφων σε διάφορες εφαρμογές.

    Η γλώσσα HTML αναπτύχθηκε για την ευρεία χρήση της σήμανσης σε έγγραφα που παρουσιάζονται σε τεχνολογίες WWW.

    Μια περιγραφή HTML αποτελείται από κείμενο ASCII και μια ακολουθία εντολών (κώδικες ελέγχου) που περιλαμβάνονται σε αυτό, που ονομάζονται επίσης περιγραφείς ή ετικέτες. Αυτό το κείμενο ονομάζεται έγγραφο HTML ή σελίδα HTML ή όταν δημοσιεύεται σε διακομιστή Ιστού, ιστοσελίδα.. Οι ετικέτες τοποθετούνται στις σωστές θέσεις στο αρχικό κείμενο· καθορίζουν γραμματοσειρές, παύλες, εμφάνιση γραφικών, συνδέσμους κ.λπ. Όταν χρησιμοποιείτε προγράμματα επεξεργασίας WWW, οι εντολές εισάγονται πατώντας απλά τα κατάλληλα πλήκτρα.

    Η XML, όπως και η HTML, θεωρείται υποσύνολο της SGML. Επί του παρόντος, η γλώσσα XML ισχυρίζεται ότι είναι η κύρια γλώσσα παρουσίασης εγγράφων στην τεχνολογία πληροφοριών· μπορεί να θεωρηθεί ως μια μεταγλώσσα που χρησιμεύει ως βάση για τη δημιουργία ιδιωτικών γλωσσών σήμανσης σε διάφορες εφαρμογές. Ταυτόχρονα, η XML είναι πιο βολική από την SGML, κάτι που εξασφαλίζεται με την εξάλειψη ορισμένων δευτερευόντων χαρακτηριστικών της SGML σε XML. Οι περιγραφές σε XML είναι πιο κατανοητές και προσαρμόζονται για χρήση σε σύγχρονα προγράμματα περιήγησηςδιατηρώντας τα βασικά χαρακτηριστικά του SGML.

    Για συγκεκριμένες εφαρμογές, δημιουργούνται οι δικές τους εκδόσεις XML, που ονομάζονται λεξικά XML ή εφαρμογές XML. Έτσι, έχει αναπτυχθεί μια εφαρμογή XML OSD (Open Software Description) για την περιγραφή κειμένων με συγκεκριμένα μαθηματικά σύμβολα. Ενδιαφέρον για την CALS είναι η επιλογή Product Definition eXchange (PDX) που είναι αφιερωμένη στην ανταλλαγή δεδομένων. Υπάρχουν γνωστά λεξικά για τη χημεία (CML - Chemical Markup Language), τη βιολογία (BSML - Bioinformatic Sequence Markup Language) κ.λπ.

    Κάθε έγγραφο έχει τρία στοιχεία:

    · δομή?

    Περιεχόμενο είναι οι πληροφορίες που εμφανίζονται στο έγγραφο. Το περιεχόμενο ενός εγγράφου σε χαρτί μπορεί να είναι καθαρά κείμενο και να περιέχει επίσης εικόνες. Εάν ένα έγγραφο παρουσιάζεται σε ηλεκτρονική μορφή, μπορεί να περιέχει δεδομένα πολυμέσων, καθώς και συνδέσμους προς άλλα έγγραφα. Αν και τα περιεχόμενα διαφορετικών εγγράφων ποικίλλουν, μπορούν να ταξινομηθούν σε τύπους, όπως ένα βιβλίο ή ένα εισιτήριο τρένου.

    Το στυλ ενός εγγράφου καθορίζει τη μορφή με την οποία θα εμφανίζονται τα περιεχόμενά του σε μια συγκεκριμένη συσκευή (για παράδειγμα, έναν εκτυπωτή ή οθόνη). Η έννοια του στυλ περιλαμβάνει τα χαρακτηριστικά της γραμματοσειράς (όνομα, μέγεθος, χρώμα) ολόκληρου του εγγράφου εξόδου ή των μεμονωμένων μπλοκ του, τη σειρά σελιδοποίησης, τη θέση των μπλοκ στις σελίδες και άλλες παραμέτρους. Το ίδιο έγγραφο μπορεί να εκδοθεί σε διαφορετικά στυλ, τόσο σε διαφορετικά μέσα όσο και στο ίδιο μέσο.

    Οι γλώσσες σήμανσης εγγράφων είναι τεχνητές γλώσσες που έχουν σχεδιαστεί για να περιγράφουν τη δομή ενός εγγράφου και τις σχέσεις μεταξύ των διαφόρων αντικειμένων της δομής. Τα δεδομένα σήμανσης ονομάζονται επίσης μεταδεδομένα.

    Η πρώτη γλώσσα σήμανσης είναι η GML (Generalized Markup Language), που αναπτύχθηκε από υπαλλήλους της IBM στη δεκαετία του '60 του περασμένου αιώνα. Ο άμεσος διάδοχός της ήταν η γλώσσα SGML (Standard Generalized Markup Language), η οποία ορίζει τους κανόνες για την εγγραφή στοιχείων σήμανσης εγγράφων. Ένα έγγραφο που ακολουθεί τους κανόνες μιας γλώσσας ονομάζεται έγγραφο SGML.

    Η γλώσσα SGML ορίζεται στο πρότυπο ISO 8879, το οποίο καθορίζει τις ακόλουθες βασικές απαιτήσεις για τη γλώσσα σήμανσης εγγράφων:

    · Η γλώσσα πρέπει να είναι ευανάγνωστη από τον άνθρωπο.

    · Τα επισημασμένα αρχεία εγγράφων πρέπει να είναι κείμενο και να κωδικοποιούνται με κωδικούς χαρακτήρες ASCII (Αμερικανικός Τυπικός Κώδικας για Ανταλλαγή Πληροφοριών). Ωστόσο, το περιεχόμενο του εγγράφου δεν χρειάζεται να είναι κωδικοποιημένο ASCII ή κείμενο.

    Η SGML και παρόμοιες γλώσσες χρησιμοποιούν ειδικά εργαλεία σήμανσης εγγράφων:

    · Στοιχεία και συνοδευτικά χαρακτηριστικά.

    · οντότητες

    · σχόλια.

    Η δομική μονάδα ενός εγγράφου SGML είναι το στοιχείο. Σε επισημασμένο κείμενο, κάθε στοιχείο πρέπει να επισημαίνεται με συγκεκριμένο τρόπο. Η επιλογή πραγματοποιείται με την εισαγωγή μιας ετικέτας έναρξης (από την αγγλική λέξη tag - label) στην αρχή του στοιχείου (ετικέτα έναρξης) και μιας ετικέτας τερματισμού (end tag) στο τέλος του στοιχείου. Οι ετικέτες έναρξης και λήξης έχουν το ίδιο όνομα. Για να ξεχωρίσετε τις ετικέτες από το απλό κείμενο, πρέπει να ξεκινούν με έναν χαρακτήρα που υποδηλώνει την αρχή μιας ετικέτας και να τελειώνει με έναν χαρακτήρα για να υποδεικνύει το τέλος μιας ετικέτας. Επιπλέον, ένα σύμβολο καθορίζεται στην ετικέτα τέλους - ένα σημάδι της ετικέτας τέλους. Στο SGML, οποιοιδήποτε χαρακτήρες μπορούν να καθοριστούν ως τέτοια χαρακτηριστικά, αλλά ο πιο συνηθισμένος χαρακτήρας που χρησιμοποιείται είναι ο χαρακτήρας "" (αριστερή αγκύλη) ως αρχή μιας ετικέτας και ο χαρακτήρας "/" (κάθετο) ως χαρακτήρας της ετικέτας τέλους. Τα στοιχεία σε ένα έγγραφο SGML μπορούν να περικλείουν άλλα στοιχεία, με αποτέλεσμα μια γραφική αναπαράσταση του εγγράφου SGML ως ιεραρχική (δενδρική) δομή.


    Παράδειγμα 4.3.1.Ένα έγγραφο SGML που καθορίζει μια λίστα μαθητών με τα αποτελέσματα της συνεδρίας εξέτασής τους μπορεί να καθοριστεί ως εξής:

    Κατάλογος των αξιολογήσεων των μαθητών στη συνεδρία

    Ιβάνοφ Ιβάν Ιβάνοβιτς

    TS-61

    ΕΝΑ

    σι

    σι

    σι

    Πετρόφ Πετρ Πέτροβιτς

    TS-62

    ντο

    ντο

    ρε

    ντο

    Σε αυτό το έγγραφο, το πρώτο στοιχείο είναι το στοιχείο λίστας σπουδαστών. Αυτό το στοιχείο περιέχει ένα στοιχείο τίτλου (τίτλος) και πολλά στοιχεία μαθητή (στοιχεία μαθητή). Με τη σειρά του, κάθε στοιχείο μαθητή περιέχει ένα στοιχείο πλήρους ονόματος (επώνυμο, όνομα και πατρώνυμο του μαθητή), ένα στοιχείο αριθμού ομάδας (αριθμός ομάδας) και ένα στοιχείο λίστας σημείων (κατάλογος βαθμών μαθητή στη συνεδρία). Και τέλος, το στοιχείο λίστας σήμανσης περιέχει πολλά στοιχεία σήμανσης (βαθμολογία).

    Μια γραφική αναπαράσταση αυτής της λίστας στο Σχ. Το 4.3.1 έχει δομή δέντρου:

    Ρύζι. 4.3.1. Δομή εγγράφου SGML στη γραφική αναπαράσταση

    Τα χαρακτηριστικά μπορούν να χρησιμοποιηθούν για τη βελτίωση των στοιχείων SGML. Τα χαρακτηριστικά γράφονται στην ετικέτα έναρξης του στοιχείου ως εξής:

    χαρακτηριστικό-όνομα="χαρακτηριστικό-τιμή".

    Ένα στοιχείο μπορεί να έχει καθορισμένα πολλαπλά χαρακτηριστικά. Τα χαρακτηριστικά διαχωρίζονται μεταξύ τους και το όνομα του στοιχείου με τουλάχιστον ένα διάστημα.

    Παράδειγμα 4.3.2.Για τα στοιχεία βαθμού στο παράδειγμα 4.3.1, μπορείτε να ορίσετε το χαρακτηριστικό θέμα, η τιμή του οποίου είναι το όνομα του κλάδου στον οποίο δόθηκε η εξέταση. Στη συνέχεια, για τον πρώτο μαθητή τα στοιχεία θα έχουν την εξής μορφή:

    ΕΝΑ

    σι

    σι

    σι

    Γλώσσες όπως η SGML χρησιμοποιούν οντότητες για να εργαστούν με ομάδες δεδομένων. Μια οντότητα είναι οποιαδήποτε δεδομένα με όνομα, τόσο κείμενο όσο και μη κείμενο. Κατά την προβολή ενός εγγράφου, το όνομα της οντότητας αντικαθίσταται από την τιμή του. Έτσι, για παράδειγμα, το όνομα της οντότητας κειμένου kpi θα αντικατασταθεί από την τιμή της: Πολυτεχνικό Ινστιτούτο Κιέβου και η οντότητα χωρίς κείμενο image1 θα αντικατασταθεί από μια εικόνα με το όνομα image1.

    γλώσσες σήμανσης) είναι ένα σύνολο ειδικών οδηγιών, που ονομάζονται ετικέτες, που έχουν σχεδιαστεί για να σχηματίζουν μια δομή σε έγγραφα και να ορίζουν τις σχέσεις μεταξύ διαφόρων στοιχείων αυτής της δομής. Με άλλα λόγια, η σήμανση δείχνει ποιο μέρος του εγγράφου είναι τίτλος, ποιο υπότιτλος, ποιο πρέπει να θεωρείται το όνομα του συγγραφέα κ.λπ. Η σήμανση χωρίζεται σε στυλιστική σήμανση, δομική και σημασιολογική. Στιλιστική σήμανση

    Η στιλιστική σήμανση είναι υπεύθυνη για την εμφάνιση του εγγράφου. Για παράδειγμα, σε HTML αυτός ο τύπος σήμανσης περιλαμβάνει ετικέτες όπως π.χ (πλάγια γράμματα), (έντονα), (υπογράμμιση), (διαγραμμένο κείμενο) κ.λπ.

    Δομική σήμανση

    Η δομική σήμανση καθορίζει τη δομή του εγγράφου. Στην HTML, για παράδειγμα, οι ετικέτες (παράγραφος), (τίτλος), (ενότητα) κ.λπ. είναι υπεύθυνες για αυτόν τον τύπο σήμανσης.

    Σημασιολογική σήμανση

    Η σημασιολογική σήμανση ενημερώνει το περιεχόμενο των δεδομένων. Παραδείγματα αυτού του τύπου σήμανσης είναι οι ετικέτες (όνομα εγγράφου), (κωδικός, που χρησιμοποιείται για καταχωρίσεις κωδικών), (μεταβλητή), (διεύθυνση συγγραφέα).

    Οι βασικές έννοιες οποιασδήποτε γλώσσας σήμανσης είναι ετικέτες, στοιχεία και χαρακτηριστικά.

    Ετικέτες και στοιχεία.

    Οι έννοιες των ετικετών και των στοιχείων συχνά συγχέονται.

    Οι ετικέτες ή οι περιγραφείς ελέγχου, όπως ονομάζονται επίσης, χρησιμεύουν ως οδηγίες για το πρόγραμμα που εμφανίζει τα περιεχόμενα του εγγράφου στην πλευρά του πελάτη σχετικά με το τι πρέπει να κάνει με τα περιεχόμενα της ετικέτας. Για να τονιστεί η ετικέτα σε σχέση με το κύριο περιεχόμενο του εγγράφου, χρησιμοποιούνται γωνιακές αγκύλες: η ετικέτα αρχίζει με ένα σύμβολο μικρότερο από (), μέσα στο οποίο τοποθετούνται το όνομα των οδηγιών και οι παράμετροί τους. Για παράδειγμα, σε HTML η ετικέτα υποδεικνύει ότι το κείμενο που ακολουθεί πρέπει να είναι με πλάγιους χαρακτήρες.

    Ένα στοιχείο είναι οι ετικέτες μαζί με το περιεχόμενό τους. Η ακόλουθη κατασκευή είναι ένα παράδειγμα στοιχείου:

    Αυτό το κείμενο είναι με πλάγιους χαρακτήρες .

    Το στοιχείο αποτελείται από μια ετικέτα ανοίγματος (στο παράδειγμά μας αυτή είναι η ετικέτα ), το περιεχόμενο της ετικέτας (στο παράδειγμα αυτό είναι το κείμενο "Αυτό είναι κείμενο με πλάγιους χαρακτήρες") και η ετικέτα κλεισίματος (), αν και μερικές φορές σε HTML, η ετικέτα κλεισίματος μπορεί να παραλειφθεί.

    Γνωρίσματα

    Για να ορίσετε τυχόν παραμέτρους που διευκρινίζουν τα χαρακτηριστικά αυτού του στοιχείου κατά τον ορισμό ενός στοιχείου, χρησιμοποιούνται χαρακτηριστικά.

    Τα χαρακτηριστικά αποτελούνται από ένα ζεύγος ονόματος = τιμής που μπορεί να καθοριστεί κατά τον ορισμό ενός στοιχείου στην ετικέτα έναρξης. Μπορείτε να αφήσετε κενά στα αριστερά και δεξιά του συμβόλου ίσων. Η τιμή του χαρακτηριστικού καθορίζεται ως συμβολοσειρά που περικλείεται σε μονά ή διπλά εισαγωγικά.

    Οποιαδήποτε ετικέτα μπορεί να έχει ένα χαρακτηριστικό εάν έχει οριστεί αυτό το χαρακτηριστικό.

    Όταν χρησιμοποιείται το χαρακτηριστικό, το στοιχείο παίρνει την ακόλουθη μορφή:

    περιεχόμενο ετικέτας

    Το κείμενο στοιχίζεται στο κέντρο

    Μια ετικέτα ανοίγματος μπορεί να περιέχει πολλά χαρακτηριστικά, για παράδειγμα:

    Καθορισμένο μέγεθος και χρώμα κειμένου

    Ιστορία της ανάπτυξης των γλωσσών σήμανσης.

    Η έννοια του υπερκειμένου εισήχθη από τον W. Bush το 1945 και ξεκινώντας από τη δεκαετία του '60, άρχισαν να εμφανίζονται οι πρώτες εφαρμογές που χρησιμοποιούν δεδομένα υπερκειμένου. Ωστόσο, αυτή η τεχνολογία έλαβε την κύρια ανάπτυξη της όταν προέκυψε πραγματική ανάγκη για έναν μηχανισμό συνδυασμού πολλαπλών πόρων πληροφοριών, παρέχοντας τη δυνατότητα δημιουργίας και προβολής μη γραμμικού κειμένου.

    Το 1986, ο ISO ενέκρινε την Τυποποιημένη Γενικευμένη Γλώσσα Σήμανσης. Αυτή η γλώσσα προορίζεται για τη δημιουργία άλλων γλωσσών σήμανσης· ορίζει ένα έγκυρο σύνολο ετικετών, τα χαρακτηριστικά τους και την εσωτερική δομή του εγγράφου. Έτσι, είναι δυνατό να δημιουργήσετε τις δικές σας ετικέτες που σχετίζονται με το περιεχόμενο του εγγράφου. Γίνεται πλέον προφανές ότι τέτοια έγγραφα είναι δύσκολο να ερμηνευτούν χωρίς τον ορισμό της γλώσσας σήμανσης, ο οποίος είναι αποθηκευμένος στο Document Type Definition (DTD). Το DTD ομαδοποιεί όλους τους κανόνες της γλώσσας στο πρότυπο SGML. Με άλλα λόγια, το DTD περιγράφει τη σχέση των ετικετών μεταξύ τους και τους κανόνες χρήσης τους. Επιπλέον, για κάθε κατηγορία εγγράφων, ορίζεται το δικό της σύνολο κανόνων που περιγράφουν τη γραμματική της αντίστοιχης γλώσσας σήμανσης. Έτσι, μόνο με τη βοήθεια ενός DTD μπορεί κανείς να επαληθεύσει τη σωστή χρήση των ετικετών και, επομένως, πρέπει να αποσταλεί μαζί με το έγγραφο SGML ή να συμπεριληφθεί στο έγγραφο.

    Εκείνη την εποχή, εκτός από την SGML, υπήρχαν πολλές άλλες παρόμοιες γλώσσες που ανταγωνίζονταν μεταξύ τους, αλλά η δημοτικότητα (HTML, που είναι ένας από τους απογόνους του) έδωσε στο SGML ένα αναμφισβήτητο πλεονέκτημα έναντι των ομολόγων του.

    Χρησιμοποιώντας το SGML, μπορείτε να περιγράψετε δομημένα δεδομένα, να οργανώσετε πληροφορίες που περιέχονται σε έγγραφα και να παρουσιάσετε αυτές τις πληροφορίες σε κάποια τυποποιημένη μορφή. Αλλά λόγω της πολυπλοκότητάς του, το SGML χρησιμοποιήθηκε κυρίως για να περιγράψει τη σύνταξη άλλων γλωσσών και λίγες εφαρμογές δούλευαν απευθείας με έγγραφα SGML. Το SGML χρησιμοποιείται συνήθως μόνο σε μεγάλα έργα, για παράδειγμα, για τη δημιουργία ενός ενοποιημένου συστήματος διαχείρισης εγγράφων για μια μεγάλη εταιρεία.

    Η γλώσσα σήμανσης HTML είναι πολύ πιο απλή και πιο βολική από την SGML, οι οδηγίες της προορίζονται κυρίως για τον έλεγχο της διαδικασίας εμφάνισης του περιεχομένου του εγγράφου στην οθόνη. Η HTML ως τρόπος επισήμανσης τεχνικών εγγράφων δημιουργήθηκε από τον Tim Berners-Lee το 1991 ειδικά για την επιστημονική κοινότητα. Αρχικά ήταν μόνο μία από τις εφαρμογές SGML.

    Παρά το γεγονός ότι το μόνο πράγμα που μπορεί να κάνει η HTML είναι να ταξινομήσει μέρη ενός εγγράφου και να εξασφαλίσει τη σωστή εμφάνιση του στο πρόγραμμα περιήγησης, είναι η πιο δημοφιλής γλώσσα σήμανσης. Αυτό συμβαίνει επειδή η εκμάθηση της HTML είναι αρκετά εύκολη. Το μόνο που έχετε να κάνετε είναι να μάθετε τις εντολές HTML. Το DTD για HTML αποθηκεύεται στο πρόγραμμα περιήγησης. Επιπλέον, πρέπει να σημειωθεί ότι η HTML έχει σχεδιαστεί για να λειτουργεί σε μια μεγάλη ποικιλία πλατφορμών. Αλλά έχει ορισμένους σημαντικούς περιορισμούς:

  • Το HTML έχει ένα σταθερό σύνολο ετικετών και αυτό το σύνολο δεν μπορεί να επεκταθεί ή να αλλάξει.
  • Οι ετικέτες γλώσσας HTML δείχνουν μόνο τον τρόπο παρουσίασης των δεδομένων, δηλαδή την εμφάνιση του εγγράφου. Η HTML δεν φέρει πληροφορίες σχετικά με τη σημασία του περιεχομένου που περιέχεται στις ετικέτες ή τη δομή του εγγράφου.