یک زبان نشانه گذاری ویژه برای اسناد متنی نامیده می شود. زبان نشانه گذاری سند HTML. نشانه گذاری منطقی و بصری

زبان‌های نشانه‌گذاری) مجموعه‌ای از دستورالعمل‌های ویژه به نام برچسب‌ها است که برای تشکیل ساختاری در اسناد و تعریف روابط بین عناصر مختلف این ساختار طراحی شده‌اند. به عبارت دیگر، نشانه گذاری نشان می دهد که کدام قسمت از سند یک عنوان است، کدام یک عنوان فرعی است، نام نویسنده باید در نظر گرفته شود و غیره. نشانه گذاری به نشانه گذاری سبک، ساختاری و معنایی تقسیم می شود. نشانه گذاری سبکی

نشانه گذاری سبکی مسئول ظاهر سند است. به عنوان مثال، در HTML این نوع نشانه گذاری شامل برچسب هایی مانند (مورب)، (پررنگ)، (زیر خط بکشید)، (متن خط زده)، و غیره.

علامت گذاری ساختاری

نشانه گذاری ساختاری ساختار سند را تعریف می کند. به عنوان مثال در HTML تگ ها (پاراگراف)، (عنوان)، (بخش) و ... مسئول این نوع نشانه گذاری هستند.

نشانه گذاری معنایی

نشانه گذاری معنایی محتوای داده ها را اطلاع می دهد. نمونه هایی از این نوع نشانه گذاری عبارتند از برچسب ها (نام سند)، (کد، مورد استفاده برای فهرست کد)، (متغیر)، (آدرس نویسنده).

مفاهیم اساسی هر زبان نشانه گذاری برچسب ها، عناصر و ویژگی ها هستند.

برچسب ها و عناصر

معانی برچسب ها و عناصر اغلب اشتباه گرفته می شوند.

برچسب‌ها یا توصیفگرهای کنترلی که به آن‌ها نیز گفته می‌شود، به عنوان دستورالعمل‌هایی برای برنامه عمل می‌کنند که محتوای سند را در سمت کلاینت نشان می‌دهد که با محتویات برچسب چه باید کرد. برای برجسته کردن برچسب نسبت به محتوای اصلی سند، از براکت های زاویه ای استفاده می شود: برچسب با علامت کمتر از () شروع می شود که نام دستورالعمل ها و پارامترهای آنها در داخل آن قرار می گیرد. به عنوان مثال، در HTML تگ نشان می دهد که متن زیر باید به صورت مورب باشد.

یک عنصر برچسب ها همراه با محتوای آنها است. ساختار زیر نمونه ای از یک عنصر است:

این متن به صورت مورب است .

این عنصر از یک تگ باز تشکیل شده است (در مثال ما این تگ است )، محتوای برچسب (در مثال این متن "This is text in italic" است) و تگ پایانی (، اگرچه گاهی اوقات در HTML، تگ بسته شدن می تواند حذف شود.

ویژگی های

به منظور تنظیم هر پارامتری که ویژگی های این عنصر را در هنگام تعریف یک عنصر روشن می کند، از ویژگی ها استفاده می شود.

ویژگی ها از یک جفت نام = مقدار تشکیل شده اند که هنگام تعریف یک عنصر در تگ شروع می توان آنها را مشخص کرد. می توانید در سمت چپ و راست علامت مساوی فاصله بگذارید. مقدار مشخصه به عنوان یک رشته محصور شده در گیومه های تک یا دوگانه مشخص می شود.

اگر آن ویژگی تعریف شده باشد، هر تگ می تواند یک ویژگی داشته باشد.

هنگامی که از ویژگی استفاده می شود، عنصر شکل زیر را به خود می گیرد:

محتوا را تگ کنید

متن در مرکز تراز شده است

یک تگ باز می تواند چندین ویژگی داشته باشد، به عنوان مثال:

اندازه و رنگ متن مشخص شده است

تاریخچه توسعه زبان های نشانه گذاری.

مفهوم فرامتن توسط دبلیو بوش در سال 1945 معرفی شد و با شروع دهه 60، اولین برنامه های کاربردی با استفاده از داده های فرامتن شروع به ظهور کردند. با این حال، این فناوری زمانی توسعه اصلی خود را دریافت کرد که نیاز واقعی به مکانیزمی برای ترکیب چندین منبع اطلاعاتی ایجاد شد و توانایی ایجاد و مشاهده متن غیرخطی را فراهم کرد.

در سال 1986، ISO زبان نشانه گذاری عمومی استاندارد شده را تایید کرد. این زبان برای ایجاد زبان های نشانه گذاری دیگر در نظر گرفته شده است؛ مجموعه ای معتبر از برچسب ها، ویژگی های آنها و ساختار داخلی سند را تعریف می کند. بنابراین، این امکان وجود دارد که برچسب های مربوط به محتوای سند خود را ایجاد کنید. اکنون آشکار می شود که تفسیر چنین اسنادی بدون تعریف زبان نشانه گذاری، که در تعریف نوع سند (DTD) ذخیره می شود، دشوار است. DTD تمام قوانین زبان را در استاندارد SGML گروه بندی می کند. به عبارت دیگر، DTD رابطه برچسب ها با یکدیگر و قوانین استفاده از آنها را توضیح می دهد. علاوه بر این، برای هر دسته از اسناد، مجموعه قوانین خاص خود تعریف شده است که گرامر زبان نشانه گذاری مربوطه را توصیف می کند. بنابراین، تنها با کمک یک DTD می توان استفاده صحیح از برچسب ها را تأیید کرد و بنابراین، باید همراه با سند SGML ارسال شود یا در سند گنجانده شود.

در آن زمان، علاوه بر SGML، چندین زبان مشابه دیگر نیز با یکدیگر رقابت می کردند، اما محبوبیت (HTML که یکی از فرزندان آن است) به SGML برتری غیرقابل انکاری نسبت به همتایان خود داد.

با استفاده از SGML، می توانید داده های ساختار یافته را توصیف کنید، اطلاعات موجود در اسناد را سازماندهی کنید، و این اطلاعات را در قالبی استاندارد ارائه کنید. اما به دلیل پیچیدگی‌اش، SGML عمدتاً برای توصیف نحو زبان‌های دیگر مورد استفاده قرار می‌گرفت و تعداد کمی از برنامه‌ها مستقیماً با اسناد SGML کار می‌کردند. SGML معمولا فقط در پروژه های بزرگ استفاده می شود، به عنوان مثال، برای ایجاد یک سیستم مدیریت اسناد یکپارچه برای یک شرکت بزرگ.

زبان نشانه‌گذاری HTML بسیار ساده‌تر و راحت‌تر از SGML است، دستورالعمل‌های آن در درجه اول برای کنترل فرآیند نمایش محتوای سند روی صفحه است. HTML به عنوان راهی برای علامت گذاری اسناد فنی توسط تیم برنرز لی در سال 1991 به طور خاص برای جامعه علمی ایجاد شد. در ابتدا فقط یکی از برنامه های SGML بود.

با وجود این واقعیت که HTML تنها کاری که می تواند انجام دهد طبقه بندی بخش هایی از یک سند و اطمینان از نمایش صحیح آن در مرورگر است، محبوب ترین زبان نشانه گذاری است. این به این دلیل است که یادگیری HTML بسیار آسان است. تنها کاری که باید انجام دهید این است که دستورات HTML را یاد بگیرید. DTD برای HTML در مرورگر ذخیره می شود. علاوه بر این، لازم به ذکر است که HTML برای کار بر روی پلتفرم های مختلف طراحی شده است. اما تعدادی محدودیت قابل توجه دارد:

  • HTML دارای یک مجموعه ثابت از برچسب ها است و این مجموعه قابل گسترش یا تغییر نیست.
  • تگ های زبان HTML فقط نحوه نمایش داده ها، یعنی ظاهر سند را نشان می دهد. HTML اطلاعاتی در مورد معنای محتوای موجود در برچسب ها یا ساختار سند ندارد.
  • در اوایل فوریه 1998، سازمان بین المللی W3C مشخصات Extensible Markup Language (XML) 1.0 را تأیید کرد که آغاز توسعه بسیاری از زبان های نشانه گذاری جدید برای انتقال اطلاعات از طریق اینترنت بر اساس استاندارد XML بود. در اصل، این به معنای گامی جدید در توسعه زبان های نشانه گذاری فرامتن بود. XML در طول چهار سال عمر خود نه تنها توجه کاربران عادی و بسیاری از طراحان وب را به خود جلب کرده است، بلکه به بخشی جدایی ناپذیر از اینترنت نیز تبدیل شده است. امروزه عملا هیچ سروری وجود ندارد که تا حدی از این فناوری به عنوان آنالوگ HTML استفاده نکند. با این حال، هنوز حداقل زود است که بگوییم XML اکنون به روش اصلی انتقال ابرمتن از طریق شبکه جهانی تبدیل شده است. خود زبان هنوز کاملاً جوان است و برخی از عناصر آن هنوز در حال توسعه هستند. تا کنون، تنها یک چارچوب کلی برای آنچه که احتمالاً در آینده جایگزین HTML خواهد شد، ایجاد شده است، اما هنوز نمی توان گفت که در چه شکلی خواهد بود.

    از ابتدا

    در نوامبر سال 1990، هنگامی که کاربران اینترنت برای اولین بار در مورد فناوری جدیدی شنیدند که نام آن به راحتی فقط در سه حرف جای می گرفت، تقریباً هیچ کس نمی توانست تصور کند که زمان بسیار کمی می گذرد و این فناوری عملاً تنها راه انتقال اطلاعات خواهد بود. شبکه جهانی امروزه برای بسیاری از کاربران بی تجربه، کلمه اینترنت به شدت با WWW همراه است، اگرچه در واقع این موارد البته به یکدیگر مرتبط هستند، اما هنوز کمی متفاوت هستند.

    به طور کلی، این محبوبیت باورنکردنی وب جهانی و بخش جدایی ناپذیر آن، HTML بود که قطعاً دلیل افزایش توجه به ساختارهای نشانه گذاری فرامتن اسناد شد.

    مفهوم فرامتن برای اولین بار توسط V. Bush در سال 1945 معرفی شد. با این حال، برنامه های کاربردی واقعی با استفاده از چنین ساختارهای داده ای تنها از دهه 60 شروع به استفاده کردند و یک موج واقعاً خارق العاده از فعالیت در اطراف این فناوری تنها زمانی شروع شد که نیاز واقعی به مکانیزمی برای ترکیب منابع اطلاعاتی متعدد، فراهم کردن توانایی ایجاد و مشاهده متن غیر خطی و نمونه ای از اجرای این مکانیزم همان WWW بود.

    زبان نشانه گذاری سند خود مجموعه ای از دستورالعمل های ویژه به نام تگ است (در برخی از نشریات ترجمه شده، برچسب ها را میانبر می نامند)، که به ترتیب برای ایجاد ساختار در اسناد و تعریف روابط بین عناصر مختلف این ساختار طراحی شده است. برچسب‌های زبان نشانه‌گذاری یا توصیف‌گرهای کنترلی که گاهی اوقات نامیده می‌شوند، در چنین اسنادی به روشی بسیار خاص کدگذاری می‌شوند، نسبت به محتوای اصلی سند تخصیص داده می‌شوند و سپس به عنوان دستورالعمل‌هایی برای برنامه‌ای عمل می‌کنند که محتوای سند را تفسیر و نمایش می‌دهد. در واقع، به شخصی که مشاهده می شود، مستند کنید، اگر سعی کنید مشابهی با اینترنت پیدا کنید، این شخص مشتری است و برنامه مفسر در رایج ترین حالت مرورگر است). قبلاً در اولین سیستم ها ، تصمیم گرفته شد از نمادهای "" برای تعیین این دستورات استفاده شود که در داخل آنها نام دستورالعمل ها و پارامترهای آنها قرار داده شده است. امروزه این روش نامگذاری تگ ها یک استاندارد عمومی پذیرفته شده است.

    استفاده از تفکیک ابرمتن یک سند متنی در سیستم‌های اطلاعاتی مدرن تا حد زیادی به این دلیل است که فرامتن به شما امکان می‌دهد مکانیزمی برای مشاهده به اصطلاح غیرخطی اطلاعات ایجاد کنید. این بدان معناست که در سیستم‌ها، داده‌ها به‌عنوان یک جریان پیوسته از ساختارهای متنی ارائه نمی‌شوند، بلکه به‌عنوان مجموعه‌ای از مؤلفه‌های به هم پیوسته ارائه می‌شوند که با استفاده از لینک‌ها هدایت می‌شوند.

    محبوب ترین و شناخته شده ترین زبان نشانه گذاری فرامتن امروزه، HTML، به طور خاص برای ساختاردهی و انتقال اطلاعات موجود در اینترنت ایجاد شده است و بدون شک جزء کلیدی فناوری WWW است. با استفاده از مدل سند فرامتن، نحوه ارائه منابع مختلف اطلاعاتی در شبکه منظم شده و کاربران مکانیزم مناسبی برای جستجو و مشاهده اطلاعات لازم دریافت کرده اند. با این حال، اولین علامت در این موضوع هنوز هم یک زبان بسیار قدیمی در نظر گرفته می شود - SGML.

    SGML (Standard Generalized Markup Language) به طور رسمی در سال 1986 به عنوان یک استاندارد بین المللی (ISO 8879:1986) برای توصیف روش های مستقل از دستگاه ورودی/خروجی و محیط برای نمایش اطلاعات متنی به شکل الکترونیکی پذیرفته شد. اساس ایجاد آن زبان نشانه گذاری نسبتا قدیمی GML (زبان نشانه گذاری عمومی) بود که توسط IBM در روزهای اولین رایانه های شخصی توسعه یافت. به طور دقیق، SGML یک فرازبان است که برای توصیف سایر زبان های نشانه گذاری طراحی شده است.

    در اصل، کلمه نشانه گذاری معمولاً برای توصیف حاشیه نویسی یا سایر نشانه گذاری ها در متن استفاده می شد که در نظر گرفته شده بود تا به نویسنده سند یا همان طور که گاهی اوقات به آن "طراح صفحه بندی" گفته می شود، دقیقاً چگونه یک متن خاص را تایپ کند، راهنمایی کند. چنین روش‌هایی ممکن است شامل خط‌کش کردن به صورت مورب برای نشان دادن حروف کج، برخی نمادهای خاص برای رد کردن عبارات خاص یا چاپ آنها با فونت خاص و غیره باشد. همانطور که قالب بندی و چاپ در طول زمان خودکار شد، این اصطلاح شامل انواع کدهای نشانه گذاری ویژه ای می شود که در اسناد متنی الکترونیکی برای کنترل قالب بندی، چاپ یا سایر پردازش ها درج می شدند.

    بنابراین یک زبان نشانه گذاری به مجموعه ای از قراردادهای قالب بندی اشاره دارد که برای رمزگذاری بلوک های متن استفاده می شود. زبان نشانه گذاری باید به وضوح نشان دهد که چه نشانه گذاری در یک سند معین قابل قبول است، چه نشانه گذاری مورد نیاز است، چگونه عناصر آن را از متن ساده تشخیص دهیم، و نشانه گذاری به چه معناست. SGML توانست سه مشکل اول را حل کند، راه حل آخرین مورد نیاز به حضور یک توضیح غیر رسمی بود.

    SGML، بر خلاف سایر زبان های نشانه گذاری که بر اساس آن ایجاد شده اند، از اصل نشانه گذاری به اصطلاح توصیفی به جای نشانه گذاری رویه ای استفاده می کند. چنین سیستمی از عناصر نشانه گذاری استفاده می کند که به سادگی نام هایی را برای تخصیص بخش های جداگانه یک سند به دسته های خاص ارائه می دهد. به عبارت دیگر، برچسب‌هایی مانند Or \end(list) به سادگی بخشی از یک سند را شناسایی می‌کنند و بیان می‌کنند که "این بخش یک پاراگراف است" یا "این بخش پایان یک لیست آغاز شده است" و غیره. سیستمی که از نشانه گذاری رویه ای استفاده می کند (این شامل پردازشگرهای کلمه، به عنوان مثال، مایکروسافت ورد) است، نوع پردازش را در یک نقطه خاص از یک سند متنی تعیین می کند: "در این مکان، فلان رویه را با پارامترهای 5 فراخوانی کنید. e و z» یا «حاشیه سند را 7 میلی متر به سمت راست نسبت به هر عنصر منتقل کنید، یک خط را رد کنید، خط بعدی را از خط قرمز شروع کنید و غیره. در SGML، دستورالعمل‌هایی که برای پردازش یک سند برای اهداف خاص (مثلاً قالب‌بندی) مورد نیاز هستند، به وضوح از نشانه‌گذاری توصیفی که در سند رخ می‌دهد جدا می‌شوند. آنها معمولاً خارج از سند در رویه ها یا برنامه های جداگانه جمع آوری می شوند.

    با استفاده از نشانه‌گذاری توصیفی و نه رویه‌ای، یک سند می‌تواند توسط برنامه‌های مختلفی پردازش شود، که هر کدام می‌توانند دستورالعمل‌های پردازشی خود را در قسمت‌هایی از آن که مهم می‌دانند اعمال کنند. به عنوان مثال، یک برنامه تجزیه محتوا ممکن است پاورقی ها را به طور کامل نادیده بگیرد، در حالی که یک برنامه قالب بندی ممکن است آنها را برای چاپ در انتهای هر قسمت استخراج و جمع کند. انواع مختلفی از دستورالعمل‌های پردازش ممکن است با یک قسمت از فایل مرتبط باشد. به عنوان مثال، یک برنامه ممکن است نام افراد و نام مکان ها را از یک سند استخراج کند تا یک فهرست یا پایگاه داده ایجاد کند، در حالی که برنامه دیگری که همان متن را پردازش می کند ممکن است نام ها را با فونت دیگری چاپ کند.

    SGML همچنین مفهوم نوع سند، و بر این اساس، راه های تعریف آن (تعریف نوع سند، DTD) را معرفی می کند. اسناد تایپ شده در نظر گرفته می شوند، درست مانند سایر اشیاء پردازش شده توسط کامپیوتر. نوع سند به طور رسمی بر اساس اجزای تشکیل دهنده آن و ساختار آنها تعیین می شود. برای مثال، می‌توان نوع سندی را به گونه‌ای تعریف کرد که از یک عنوان و احتمالاً نام نویسنده تشکیل شده و سپس یک چکیده و دنباله‌ای از یک یا چند پاراگراف باشد. طبق این تعریف رسمی، هر سندی که فاقد عنوان باشد، گزارش نخواهد بود، بیشتر از یک توالی پاراگراف به دنبال یک چکیده، مهم نیست که سند از نظر یک انسان چقدر گزارش مانند باشد. خواننده. .

    از آنجایی که اسناد از انواع شناخته شده هستند، می توانید از یک برنامه خاص به نام تجزیه کننده برای پردازش سندی که ادعا می کند از نوع خاصی است استفاده کنید و بررسی کنید که آیا تمام عناصر مورد نیاز برای آن نوع سند وجود دارند و به ترتیب درست و به درستی یافت می شوند یا خیر. ساختار یافته مهمتر از آن، اسناد مختلف از یک نوع را می توان به روشی یکسان پردازش کرد. می‌توان برنامه‌هایی نوشت که از دانش موجود در ساختار اطلاعات یک سند استفاده می‌کنند، که در نتیجه می‌توانند هوشمندتر باشند.

    SGML، به عنوان یک فرازبان، امکان تعریف زبان‌های خاص (اغلب «برنامه‌های SGML» نامیده می‌شود) را می‌دهد که برنامه‌های خاص را هدف قرار می‌دهند. یک مثال از آن زبان HTML است که به طور گسترده در WWW استفاده می شود. هر یک از این زبان ها در قالب یک DTD توصیف می شود که عناصر و ویژگی های آنها را تعریف می کند. هنگامی که چنین DTD داده می شود، نرم افزار SGML می تواند اسناد نوشته شده بر اساس آن DTD را به درستی پردازش کند.

    حتی در پروژه، این زبان به طور خاص برای پیاده سازی مدل انتقال اطلاعات به شبکه جهانی که اکنون در اختیار داریم، در نظر گرفته شد. به عبارت دیگر، HTML محصول اینترنت است. اگرچه در واقع HTML یک نسخه ساده شده از زبان نشانه گذاری تعمیم یافته استاندارد - SGML (زبان نشانه گذاری تعمیم یافته استاندارد) است که در دهه 80 قرن گذشته توسط ISO به عنوان یک استاندارد تأیید شد. SGTML یک زبان در شکل خالص آن نیست، بلکه مجموعه ای از قوانین و توضیحات برای ایجاد زبان های دیگر است؛ مجموعه ای معتبر از برچسب ها، ویژگی های آنها و ساختار داخلی سند را تعریف می کند. کنترل استفاده صحیح از توصیفگرها با استفاده از مجموعه ای از قوانین خاص به نام توضیحات DTD انجام می شود که توسط برنامه مترجم مشتری هنگام تجزیه سند استفاده می شود. برای هر دسته از اسناد، مجموعه قوانین خاص خود تعریف شده است که دستور زبان زبان نشانه گذاری مربوطه را توصیف می کند. با استفاده از SGML، می توانید اطلاعات موجود در اسناد را سازماندهی کنید، داده های ساختار یافته را توصیف کنید و این اطلاعات را در قالبی استاندارد برای استفاده بعدی ارائه دهید. با این حال، به دلیل برخی پیچیدگی‌های آن، SGML عمدتاً برای توصیف نحو زبان‌های دیگر (معروف‌ترین آنها HTML است) استفاده می‌شود و تعداد کمی از برنامه‌ها مستقیماً با اسناد SGML کار می‌کنند.

    HTML زبانی بسیار راحت‌تر و آسان‌تر از SGML است. این اجازه نمی دهد که زبان های اضافی بر اساس آن تعریف شوند. استفاده از HTML شامل علامت گذاری یک سند بر اساس یک استاندارد است که توسط مجموعه نسبتاً محدودی از دستورالعمل ها یا برچسب ها تعریف می شود. این دستورالعمل ها، اول از همه، به منظور کنترل فرآیند نمایش محتوای یک سند بر روی صفحه نمایش برنامه مشتری و در نتیجه تعیین روش ارائه سند، اما نه ساختار کلی آن است. در بیشتر موارد، داده های HTML در یک فایل متنی ساده نمایش داده می شود که می تواند به راحتی با استفاده از پروتکل http از طریق شبکه منتقل شود.

    با این حال، با گذشت زمان و ایجاد تقاضاهای سختگیرانه فزاینده بر روی فناوری های رایج، برنامه های کاربردی مدرن نه تنها به زبانی برای ارائه داده ها در صفحه مشتری نیاز دارند، بلکه به مکانیزمی نیز نیاز دارند که به فرد امکان می دهد ساختار یک سند را تعیین کرده و عناصر موجود در آن را توصیف کند. . HTML دارای مجموعه ای ساده از دستورات است و با کار توصیف اطلاعات متنی و نمایش آن بر روی صفحه نمایش یک برنامه مشاهده - یک مرورگر، کاملاً موفقیت آمیز است. با این حال، خود داده های نمایش داده شده به هیچ وجه به برچسب هایی که برای قالب بندی استفاده می شوند مربوط نمی شود، بنابراین برنامه های تجزیه کننده توانایی استفاده از تگ های HTML برای یافتن قطعات سند مورد نیاز ما را ندارند. آن ها برای مثال با چنین توصیفی مواجه شده است

    گل سرخ

    بیننده می‌داند که متن موجود در برچسب‌ها را با چه رنگی نمایش دهد و به احتمال زیاد آن را به درستی نمایش می‌دهد، اما نسبت به اینکه این برچسب در کجای سند یافت می‌شود، قطعه فعلی در چه برچسب‌های دیگری محصور شده است، کاملا بی تفاوت است. قطعاتی در آن تودرتو وجود دارد، چه روابط بین اشیاء به درستی ساخته شده باشد. این "بی تفاوتی" نسبت به ساختار یک سند منجر به این واقعیت می شود که جستجو یا تجزیه و تحلیل اطلاعات در داخل آن هیچ تفاوتی با کار با یک فایل متنی پیوسته که به عناصر تقسیم نشده است نخواهد داشت. و این، همانطور که می دانید، موثرترین راه برای کار با اطلاعات نیست.

    یکی دیگر از اشکالات مهم خود این ایده که در HTML پیاده سازی شده است، مجموعه محدود برچسب های آن است. قوانین DTD برای HTML مجموعه ثابتی از توصیفگرها را تعریف می کنند و بنابراین توسعه دهنده فرصتی برای وارد کردن برچسب های خاص خود را ندارد. اگرچه برنامه های افزودنی زبان جدید هر از گاهی ظاهر می شوند (امروزه آخرین نسخه HTML HTML 4.0 است)، راه طولانی استانداردسازی آنها، همراه با اختلاف نظرهای مداوم بین تولید کنندگان اصلی مرورگرها، تطبیق سریع زبان و استفاده از آن را تقریبا غیرممکن می کند. برای نمایش اطلاعات تخصصی (به عنوان مثال، فرمول های چند رسانه ای، ریاضی، شیمیایی و غیره).

    به طور خلاصه تمام آنچه گفته شد، می توان استدلال کرد که HTML امروزه به طور کامل الزامات تحمیل شده توسط توسعه دهندگان مدرن برای زبان هایی از این نوع را برآورده نمی کند. و برای جایگزینی آن، یک زبان نشانه گذاری فرامتن جدید پیشنهاد شد: یک زبان XML قدرتمند، انعطاف پذیر و در عین حال راحت.

    XML (Extensible Markup Language) یک زبان نشانه گذاری است که یک کلاس کامل از اشیاء داده به نام اسناد XML را توصیف می کند. این زبان به عنوان وسیله ای برای توصیف گرامر زبان های دیگر و کنترل صحت اسناد استفاده می شود. آن ها XML خود حاوی هیچ برچسبی نیست که برای نشانه گذاری در نظر گرفته شده باشد، فقط ترتیب ایجاد آنها را مشخص می کند. بنابراین اگر، برای مثال، فکر می‌کنیم که باید از یک برچسب برای نشان دادن عنصر رز در یک سند استفاده کنیم، XML به ما اجازه می‌دهد آزادانه از برچسبی که تعریف می‌کنیم استفاده کنیم و می‌توانیم قطعاتی مانند زیر را در سند قرار دهیم:

    گل سرخ

    مجموعه برچسب ها را می توان به راحتی گسترش داد. اگر، فرض کنید، ما همچنین می خواهیم نشان دهیم که شرح گل باید به طور معنی داری در توضیحات گلخانه ای باشد که در آن شکوفا می شود، به سادگی برچسب های جدید را تنظیم می کنیم و ترتیب ظاهر شدن آنها را انتخاب می کنیم:

    گل سرخ

    اگر بخواهیم چند گل دیگر در آنجا بکاریم باید تغییرات زیر را انجام دهیم:

    گل سرخ

    گل لاله

    کاکتوس

    همانطور که می بینید، فرآیند ایجاد یک سند XML بسیار ساده است و ما را تنها به دانش اولیه HTML و درک وظایفی که می خواهیم با استفاده از XML به عنوان زبان نشانه گذاری انجام دهیم نیاز دارد. این به توسعه دهندگان توانایی منحصر به فردی برای تعریف دستورات سفارشی می دهد که به آنها اجازه می دهد تا داده های موجود در یک سند را به بهترین شکل تعریف کنند. نویسنده سند ساختار آن را ایجاد می کند، ارتباطات لازم را بین عناصر ایجاد می کند، با استفاده از دستوراتی که نیازهای او را برآورده می کند، و به نوع نشانه گذاری مورد نیاز برای انجام عملیات مشاهده، جستجو و تجزیه و تحلیل سند دست می یابد.

    یکی دیگر از مزایای آشکار XML توانایی استفاده از آن به عنوان یک زبان پرس و جو جهانی برای مخازن اطلاعات است. امروزه در اعماق W3C، نسخه‌ای از استاندارد XML-QL (یا XQL) در حال بررسی است که ممکن است در آینده به رقیبی جدی برای SQL تبدیل شود. علاوه بر این، اسناد XML می توانند به عنوان یک روش منحصر به فرد برای ذخیره داده ها عمل کنند که شامل ابزار تجزیه اطلاعات و ارائه آن در سمت مشتری می شود. در این زمینه، یکی از زمینه‌های امیدوارکننده، ادغام فناوری‌های جاوا و XML است که استفاده از قدرت هر دو فناوری را در هنگام ساخت برنامه‌های کاربردی مستقل از ماشین که همچنین از یک فرمت داده جهانی برای تبادل اطلاعات استفاده می‌کنند، ممکن می‌سازد.

    XML همچنین به شما امکان می دهد صحت داده های ذخیره شده در اسناد را کنترل کنید، روابط سلسله مراتبی را در یک سند بررسی کنید و یک استاندارد واحد برای ساختار اسناد ایجاد کنید که محتوای آن می تواند انواع داده ها باشد. این بدان معنی است که می توان از آن در هنگام ساخت سیستم های اطلاعاتی پیچیده استفاده کرد که در آن موضوع تبادل اطلاعات بین برنامه های مختلف در حال اجرا در یک سیستم بسیار مهم است. با ایجاد ساختاری برای مکانیزم تبادل اطلاعات در همان ابتدای کار بر روی یک پروژه، یک مدیر می تواند در آینده خود را از بسیاری از مشکلات مرتبط با ناسازگاری فرمت های داده مورد استفاده توسط اجزای مختلف سیستم نجات دهد.

    همچنین یکی از مزایای XML این است که برنامه های پردازش اسناد XML ساده هستند و امروزه انواع محصولات نرم افزاری طراحی شده برای کار با اسناد XML به صورت رایگان توزیع می شوند. XML امروزه در تمام مرورگرهای خانواده Microsoft Internet Explorer از نسخه 4.0 پشتیبانی می شود. اعلام شد که در نسخه‌های بعدی برنامه‌های Netscape Communicator، Oracle DBMS، DB-2 و MS-Office پشتیبانی خواهد شد. همه اینها دلیلی برای این فرض می‌کند که به احتمال زیاد، در آینده نزدیک، XML به زبان اصلی تبادل اطلاعات برای سیستم‌های اطلاعاتی تبدیل خواهد شد و در نتیجه جایگزین HTML خواهد شد. زبان‌های نشانه‌گذاری تخصصی معروف مانند SMIL، CDF، MathML، XSL قبلاً بر اساس XML ایجاد شده‌اند و فهرست پیش‌نویس‌های کاری زبان‌های جدید تحت بررسی W3C به طور مداوم در حال رشد است.

    یک سند XML چگونه است؟

    اگر با HTML آشنا هستید، یادگیری XML تلاش زیادی از جانب شما نمی خواهد. اگرچه XML قطعاً از نظر قابلیت‌ها و هدف بسیار متفاوت از زبان نشانه‌گذاری HyperText است، هر دو زبان زیرمجموعه‌های SGML هستند و بنابراین اصول اولیه آن را به ارث می‌برند.

    ساختار سند

    یک سند XML ساده ممکن است مانند مثال 1 باشد

    اولین

    بند دوم 1

    سوم

    آخر

    لطفا توجه داشته باشید که این سند بسیار شبیه به یک صفحه معمولی HTML است. درست مانند HTML، دستورالعمل‌های محصور شده در پرانتزهای زاویه‌ای، برچسب نامیده می‌شوند و برای علامت‌گذاری بدنه سند استفاده می‌شوند. در XML، تگ های باز، بسته و خالی وجود دارد (در HTML، مفهوم تگ خالی نیز وجود دارد، اما هیچ تعیین خاصی لازم نیست).

    بدنه یک سند XML از عناصر نشانه گذاری و محتوای واقعی سند - داده ها (محتوا) تشکیل شده است. تگ‌های XML برای تعریف عناصر سند، ویژگی‌های آنها و سایر ساختارهای زبان طراحی شده‌اند. در مورد انواع نشانه گذاری مورد استفاده در اسناد کمی بعد با جزئیات بیشتری صحبت خواهیم کرد.

    هر سند XML باید همیشه با یک دستورالعمل شروع شود که در داخل آن می‌توانید شماره نسخه زبان، شماره صفحه کد و سایر پارامترهای لازم برای تجزیه و تحلیل سند توسط برنامه تحلیلگر را مشخص کنید.

    قوانین ایجاد یک سند XML

    به طور کلی، اسناد XML باید شرایط زیر را برآورده کنند:

    هدر سند حاوی یک اعلان XML است که زبان نشانه گذاری سند، شماره نسخه و اطلاعات اضافی را مشخص می کند.

    هر تگ باز که قسمتی از داده را در سند تعریف می‌کند باید «شریک» بسته‌کننده خود را داشته باشد، یعنی برخلاف HTML، تگ‌های بسته نمی‌توانند حذف شوند.

    XML به حروف بزرگ و کوچک حساس است.

    تمام مقادیر مشخصه های مورد استفاده در تعاریف برچسب باید در علامت نقل قول قرار داده شوند.

    تودرتو تگ ها در XML به شدت کنترل می شود، بنابراین لازم است ترتیب باز و بسته شدن تگ ها نظارت شود.

    تمام اطلاعات بین تگ های شروع و پایان به عنوان داده در XML در نظر گرفته می شود، و بنابراین همه کاراکترهای قالب بندی در نظر گرفته می شوند (یعنی فاصله ها، خطوط شکسته، برگه ها مانند HTML نادیده گرفته نمی شوند).

    اگر یک سند XML قوانین فوق را نقض نکند، آن را به طور رسمی صحیح می نامند و تمام تحلیلگرهایی که برای تجزیه اسناد XML طراحی شده اند، می توانند به درستی با آن کار کنند.

    با این حال، علاوه بر بررسی انطباق رسمی با دستور زبان، سند ممکن است حاوی ابزارهایی برای کنترل محتوای سند، بیش از انطباق با قوانینی باشد که روابط لازم بین عناصر را تعیین می کند و ساختار سند را تشکیل می دهد. به عنوان مثال، متن زیر، اگرچه یک سند XML کاملا معتبر است، اما کاملاً بی معنی خواهد بود:

    روسیه نووسیبیرسک

    برای اطمینان از صحت اسناد XML، لازم است از تحلیلگرهایی استفاده شود که چنین بررسی هایی را انجام می دهند و به آنها تأیید کننده می گویند.

    امروزه دو راه اصلی برای کنترل صحت یک سند XML وجود دارد: تعاریف DTD (تعریف نوع سند) و طرحواره های داده (Semantic Schema). دفعه بعد در مورد استفاده از DTD ها و طرحواره ها بیشتر صحبت خواهیم کرد. بر خلاف SGML، تعریف قوانین DTD در XML ضروری نیست، و این شرایط به ما اجازه می‌دهد تا هر گونه سند XML را بدون درهم‌تنیدگی مغزمان بر روی نحو نسبتاً پیچیده DTD ایجاد کنیم.

    اصل اساسی

    یک عنصر واحد ساختاری اصلی یک سند XML است. با قرار دادن کلمه rose در تگ ها یک عنصر غیر خالی به نام تعریف می کنیم که محتوای آن rose است. در حالت کلی، محتوای عناصر می تواند به سادگی برخی از متن ها، یا سایر عناصر سند تودرتو، بخش های CDATA، دستورالعمل های پردازش، نظرات، به عنوان مثال باشد. تقریباً هر بخشی از یک سند XML.

    هر عنصر غیر خالی باید شامل یک تگ شروع، یک تگ پایان و داده های محصور شده بین آنها باشد.

    مجموعه تمام عناصر موجود در یک سند ساختار آن را تعریف می کند و همه روابط سلسله مراتبی را تعیین می کند. با استفاده از عناصر، یک مدل داده مسطح به یک سیستم سلسله مراتبی پیچیده با بسیاری از روابط ممکن بین عناصر تبدیل می شود.

    هنگام جستجوی بعدی یک سند، برنامه مشتری به اطلاعات تعبیه شده در ساختار آن - با استفاده از عناصر سند - تکیه می کند. آن ها برای مثال، اگر می خواهید دانشگاه مناسب را در شهر مناسب پیدا کنید، باید محتویات یک عنصر خاص را که در داخل یک عنصر خاص قرار دارد، مشاهده کنید. جستجو در این مورد، به طور طبیعی، بسیار موثرتر از یافتن دنباله مورد نظر در کل سند خواهد بود.

    در یک سند XML، به عنوان یک قاعده، حداقل یک عنصر به نام ریشه تعریف می شود و تجزیه کننده ها شروع به اسکن سند از این عنصر می کنند. در مثال بالا، این عنصر است.

    در برخی موارد، برچسب‌ها می‌توانند معنایی بخش‌های خاصی از یک سند را تغییر داده و روشن کنند، اطلاعات یکسانی را به روش‌های مختلف تعریف کنند و در نتیجه به برنامه‌ای که این سند را تجزیه و تحلیل می‌کند، اطلاعاتی در مورد زمینه استفاده از داده‌های توصیف‌شده ارائه دهند. به عنوان مثال، پس از خواندن قطعه هالیوود، می توان حدس زد که این قسمت از سند در مورد یک شهر است، اما در قطعه هالیوود درباره یک غذاخوری است.

    نتیجه

    زبان قالب‌بندی صفحه وب HTML در ابتدا به عنوان یک برنامه کاربردی از SGML معرفی شد. بعدها، با توسعه سریع WWW، HTML شروع به گسترش از هر راه ممکن کرد تا به نویسنده کنترل بیشتری بر ارائه خارجی اطلاعات بدهد. عناصر و ویژگی‌های جدید، مانند یا، متمرکز بر قالب‌بندی بصری. ابزارهایی که بخشی از زبان نشانه گذاری نیستند ظاهر شدند و شروع به استفاده فعال کردند: نقشه های تصویری، جاوا و جاوا اسکریپت، پلاگین ها و غیره. همچنین بسیاری از عناصر HTML وجود دارند که فقط توسط مرورگرهای خاصی پشتیبانی می شوند یا در مرورگرهای مختلف به طور متفاوتی کار می کنند. بنابراین، اکنون دشوار است که بگوییم HTML یک برنامه SGML است یا خیر. تعداد بسیار کمی از صفحات بر اساس مشخصات HTML و DTD های مربوطه ایجاد می شوند.

    این مشکل تا حدی با سبک‌های آبشاری کاهش می‌یابد که استاندارد آن توسط کنسرسیوم W3 اتخاذ شده است. CSS1 سبکی را که ظاهر بصری عناصر را تعریف می کند از نشانه گذاری عنصر جدا می کند.

    زبان XML که قرار است جایگزین HTML به عنوان زبان نشانه گذاری صفحات وب شود، بسیار مورد توجه است. این یک گونه از SGML است که در درجه اول استفاده در WWW است. به DTD نیازی ندارد و خود زبان به دلیل ساختارهای پیچیده که به ندرت استفاده می شود، ساده شده است. این کار تجزیه کننده ها را ساده می کند که استفاده فعال از XML در مرورگرها را ممکن می کند. (با توجه به تمایل هر دو بازیگر اصلی در زمینه مرورگر به سمت XML، احتمال آن بسیار زیاد است).


    نسخه قابل چاپ >>
    مقاله خوانده شد:یک بار.

    (Standard Generalized Markup Language)، ارائه شده در استاندارد ISO 8879. این زبان به عنوان زبان اصلی برای طراحی مستندات فنی، از جمله کتابچه راهنمای فنی الکترونیکی تعاملی پذیرفته شده است.برای محصولات ایجاد شده با استفاده از فناوری CALS.

    SGML ساختار اسناد را به عنوان دنباله ای از اشیاء داده تعریف می کند. اشیاء داده‌ای که بخش‌هایی از یک سند را نشان می‌دهند می‌توانند در فایل‌های مختلف ذخیره شوند. استاندارد SGML مجموعه ای از نمادها و قوانین را برای نمایش اطلاعات ایجاد می کند که به سیستم های مختلف اجازه می دهد این اطلاعات را به درستی شناسایی و شناسایی کنند. این مجموعه ها در قسمت جداگانه ای از سند به نام اعلامیه DTD توضیح داده شده است(Document Type Decfinition) که همراه با سند اصلی SGML منتقل می شود. DTD مطابقت کاراکترها و کدهای آنها، حداکثر طول شناسه های مورد استفاده، نحوه نمایش جداکننده ها برای برچسب ها، سایر قراردادهای ممکن، نحو DTD، و نوع و نسخه سند را مشخص می کند. بنابراین، SGML را می توان یک فرازبان برای خانواده ای از زبان های نشانه گذاری خاص نامید. به طور خاص، زبان های نشانه گذاری XML را می توان زیر مجموعه های SGML در نظر گرفتو HTML.

    توضیحات فنی در قالب یک سند SGML شامل:

    • فایل اصلی با راهنمای فنی، با برچسب های SGML مشخص شده است.
    • شرح موجودیت هادر صورتی که سند متعلق به گروهی باشد که در آنها از همان موجودات استفاده شده و شهرت آنها دلالت دارد.
    • فرهنگ لغت برای توضیح برچسب های SGML.

    با این حال، یادگیری و استفاده از SGML دشوار است. بنابراین، برای استفاده گسترده از نشانه گذاری در اسناد ارسال شده به WWW-technologies، در سال 1991، یک زبان HTML ساده بر اساس SGML توسعه یافت(زبان نشانه گذاری HyperText)، و در سال 1996 زبان XML(EXtensible Markup Language) که در ترکیب با HTML به زبان اصلی برای ارائه اسناد در برنامه های مختلف تبدیل می شود.

    زبان HTML برای استفاده گسترده از نشانه گذاری در اسناد ارائه شده در فناوری های WWW توسعه یافته است.

    توضیحات HTML شامل متن ASCII و دنباله ای از دستورات (کدهای کنترل) موجود در آن است که به آنها توصیفگر یا برچسب نیز می گویند. این متن یک سند HTML یا یک صفحه HTML نامیده می شود، یا زمانی که در یک وب سرور پست می شود، یک صفحه وب نامیده می شود.. برچسب ها در مکان های مناسب در متن منبع قرار می گیرند؛ آنها فونت ها، خط فاصله، ظاهر گرافیک ها، لینک ها و غیره را تعیین می کنند. هنگام استفاده از ویرایشگرهای WWW، دستورات به سادگی با فشار دادن کلیدهای مربوطه وارد می شوند.

    XML نیز مانند HTML زیرمجموعه ای از SGML در نظر گرفته می شود. در حال حاضر، زبان XML ادعا می‌کند که زبان اصلی ارائه اسناد در فناوری اطلاعات است؛ می‌توان آن را به‌عنوان فرازبانی در نظر گرفت که مبنای ایجاد زبان‌های نشانه‌گذاری خصوصی در برنامه‌های مختلف است. در عین حال، XML راحت‌تر از SGML است که با حذف برخی از ویژگی‌های جزئی SGML در XML تضمین می‌شود. توضیحات در XML برای استفاده در مرورگرهای مدرن آسان‌تر استضمن حفظ ویژگی های اصلی SGML.

    برای برنامه های خاص، نسخه های خود از XML ایجاد می شود که به آنها فرهنگ لغت XML یا برنامه های کاربردی XML می گویند. بنابراین، یک برنامه XML OSD (شرح نرم افزار باز) برای توصیف متون با نمادهای ریاضی خاص توسعه یافته است. مورد علاقه CALS گزینه Product Definition eXchange (PDX) است که به تبادل داده اختصاص داده شده است. فرهنگ لغت هایی برای شیمی (CML - Chemical Markup Language)، زیست شناسی (BSML - Bioinformatic Sequence Markup Language) و غیره وجود دارد.

    هر سند دارای سه جزء است:

    · ساختار؛

    محتوا اطلاعاتی است که در سند نمایش داده می شود. محتوای یک سند روی کاغذ می تواند صرفا متنی باشد و همچنین حاوی تصاویر باشد. اگر سندی به شکل الکترونیکی ارائه شود، ممکن است حاوی داده های چندرسانه ای و همچنین پیوندهایی به اسناد دیگر باشد. اگرچه محتویات اسناد مختلف متفاوت است، اما می توان آنها را به انواع مختلف طبقه بندی کرد، مانند کتاب یا بلیط قطار.

    سبک یک سند، شکلی را که محتویات آن در یک دستگاه خاص (مثلاً چاپگر یا نمایشگر) نمایش داده می شود، تعیین می کند. مفهوم سبک شامل ویژگی های فونت (نام، اندازه، رنگ) کل سند خروجی یا بلوک های جداگانه آن، ترتیب صفحه بندی، مکان بلوک ها در صفحات و سایر پارامترها است. یک سند می تواند به سبک های مختلف، هم در رسانه های مختلف و هم در رسانه های مشابه، خروجی شود.

    زبان‌های نشانه‌گذاری سند، زبان‌های مصنوعی هستند که برای توصیف ساختار یک سند و روابط بین اشیاء مختلف ساختار طراحی شده‌اند. به داده های نشانه گذاری، متادیتا نیز گفته می شود.

    اولین زبان نشانه گذاری GML (Generalized Markup Language) است که توسط کارمندان IBM در دهه 60 قرن گذشته توسعه یافت. جانشین بلافصل آن زبان SGML (زبان نشانه گذاری تعمیم یافته استاندارد) بود که قوانین نوشتن عناصر نشانه گذاری سند را تعریف می کند. سندی که از قوانین یک زبان پیروی می کند سند SGML نامیده می شود.

    زبان SGML در استاندارد ISO 8879 تعریف شده است که الزامات اساسی زیر را برای زبان نشانه گذاری سند مشخص می کند:

    · زبان باید برای انسان قابل خواندن باشد.

    · فایل های سند علامت گذاری شده باید متنی و با استفاده از کاراکترهای کد ASCII (کد استاندارد آمریکایی برای تبادل اطلاعات) کدگذاری شوند. با این حال، محتوای سند نباید دارای کد اسکی یا متن باشد.

    SGML و زبان های مشابه از ابزارهای نشانه گذاری سند ویژه استفاده می کنند:

    · عناصر و ویژگی های همراه.

    · موجودیت ها؛

    · نظرات.

    واحد ساختاری یک سند SGML عنصر است. در متن علامت گذاری شده، هر عنصر باید به روش خاصی برجسته شود. انتخاب با درج یک تگ شروع (از کلمه انگلیسی برچسب - برچسب) در ابتدای عنصر (برچسب شروع) و یک تگ پایان (برچسب پایان) در انتهای عنصر انجام می شود. تگ های شروع و پایان یک نام دارند. برای تشخیص تگ ها از متن ساده، باید با یک کاراکتر برای نشان دادن شروع یک تگ شروع و با یک کاراکتر برای نشان دادن پایان یک برچسب پایان یابد. علاوه بر این، یک نماد در تگ پایان مشخص شده است - نشانه ای از تگ پایان. در SGML، هر کاراکتری را می توان به عنوان چنین ویژگی مشخص کرد، اما اغلب از کاراکتر "" (پرانتز زاویه سمت چپ) به عنوان ابتدای یک برچسب استفاده می شود، و کاراکتر "/" (اسلش) به عنوان کاراکتر تگ پایان استفاده می شود. عناصر موجود در یک سند SGML می توانند عناصر دیگری را محصور کنند و در نتیجه یک نمایش گرافیکی از سند SGML به عنوان یک ساختار سلسله مراتبی (درخت) ایجاد می شود.


    مثال 4.3.1.یک سند SGML که لیستی از دانش آموزان را با نتایج جلسه امتحان آنها مشخص می کند، می تواند به صورت زیر مشخص شود:

    لیست ارزشیابی دانش آموزان در جلسه

    ایوانف ایوان ایوانوویچ

    TS-61

    آ

    ب

    ب

    ب

    پتروف پتر پتروویچ

    TS-62

    سی

    سی

    D

    سی

    در این سند اولین عنصر عنصر student-list است. این عنصر شامل یک عنصر عنوان (عنوان) و چندین عنصر دانش آموز (داده های دانش آموز) است. به نوبه خود، هر عنصر دانش آموز شامل یک عنصر نام کامل (نام خانوادگی، نام و نام خانوادگی دانش آموز)، یک عنصر شماره گروه (شماره گروه) و یک عنصر فهرست علامت (فهرست نمرات دانش آموز در جلسه) است. و در نهایت، عنصر mark-list شامل چندین عنصر علامت (امتیاز) است.

    یک نمایش گرافیکی از این لیست در شکل. 4.3.1 دارای ساختار درختی است:

    برنج. 4.3.1. ساختار سند SGML در نمایش گرافیکی

    از ویژگی ها می توان برای اصلاح عناصر SGML استفاده کرد. ویژگی ها در تگ شروع عنصر به صورت زیر نوشته می شوند:

    Attribute-name = "ویژگی-ارزش".

    یک عنصر می تواند چندین ویژگی مشخص داشته باشد. ویژگی ها از یکدیگر و نام عنصر با حداقل یک فاصله جدا شده است.

    مثال 4.3.2.برای عناصر علامت در مثال 4.3.1، می توانید ویژگی موضوعی را تنظیم کنید که مقدار آن نام رشته ای است که در آن امتحان گرفته شده است. سپس برای دانش آموز اول عناصر به شکل زیر خواهد بود:

    آ

    ب

    ب

    ب

    زبان هایی مانند SGML از موجودیت ها برای کار با گروه های داده استفاده می کنند. موجودیت به هر داده ای با نام اعم از متنی و غیر متنی گفته می شود. هنگام مشاهده یک سند، نام نهاد با مقدار آن جایگزین می شود. بنابراین، به عنوان مثال، نام موجودیت متنی kpi با مقدار آن جایگزین می شود: موسسه پلی تکنیک کیف، و موجودیت غیر متنی image1 با تصویری به نام image1 جایگزین می شود.

    زبان‌های نشانه‌گذاری) مجموعه‌ای از دستورالعمل‌های ویژه به نام برچسب‌ها است که برای تشکیل ساختاری در اسناد و تعریف روابط بین عناصر مختلف این ساختار طراحی شده‌اند. به عبارت دیگر، نشانه گذاری نشان می دهد که کدام قسمت از سند یک عنوان است، کدام یک عنوان فرعی است، نام نویسنده باید در نظر گرفته شود و غیره. نشانه گذاری به نشانه گذاری سبک، ساختاری و معنایی تقسیم می شود. نشانه گذاری سبکی

    نشانه گذاری سبکی مسئول ظاهر سند است. به عنوان مثال، در HTML این نوع نشانه گذاری شامل برچسب هایی مانند (مورب)، (پررنگ)، (زیر خط بکشید)، (متن خط زده)، و غیره.

    علامت گذاری ساختاری

    نشانه گذاری ساختاری ساختار سند را تعریف می کند. به عنوان مثال در HTML تگ ها (پاراگراف)، (عنوان)، (بخش) و ... مسئول این نوع نشانه گذاری هستند.

    نشانه گذاری معنایی

    نشانه گذاری معنایی محتوای داده ها را اطلاع می دهد. نمونه هایی از این نوع نشانه گذاری عبارتند از برچسب ها (نام سند)، (کد، مورد استفاده برای فهرست کد)، (متغیر)، (آدرس نویسنده).

    مفاهیم اساسی هر زبان نشانه گذاری برچسب ها، عناصر و ویژگی ها هستند.

    برچسب ها و عناصر

    معانی برچسب ها و عناصر اغلب اشتباه گرفته می شوند.

    برچسب‌ها یا توصیفگرهای کنترلی که به آن‌ها نیز گفته می‌شود، به عنوان دستورالعمل‌هایی برای برنامه عمل می‌کنند که محتوای سند را در سمت کلاینت نشان می‌دهد که با محتویات برچسب چه باید کرد. برای برجسته کردن برچسب نسبت به محتوای اصلی سند، از براکت های زاویه ای استفاده می شود: برچسب با علامت کمتر از () شروع می شود که نام دستورالعمل ها و پارامترهای آنها در داخل آن قرار می گیرد. به عنوان مثال، در HTML تگ نشان می دهد که متن زیر باید به صورت مورب باشد.

    یک عنصر برچسب ها همراه با محتوای آنها است. ساختار زیر نمونه ای از یک عنصر است:

    این متن به صورت مورب است .

    این عنصر از یک تگ باز تشکیل شده است (در مثال ما این تگ است )، محتوای برچسب (در مثال این متن "This is text in italic" است) و تگ پایانی (، اگرچه گاهی اوقات در HTML، تگ بسته شدن می تواند حذف شود.

    ویژگی های

    به منظور تنظیم هر پارامتری که ویژگی های این عنصر را در هنگام تعریف یک عنصر روشن می کند، از ویژگی ها استفاده می شود.

    ویژگی ها از یک جفت نام = مقدار تشکیل شده اند که هنگام تعریف یک عنصر در تگ شروع می توان آنها را مشخص کرد. می توانید در سمت چپ و راست علامت مساوی فاصله بگذارید. مقدار مشخصه به عنوان یک رشته محصور شده در گیومه های تک یا دوگانه مشخص می شود.

    اگر آن ویژگی تعریف شده باشد، هر تگ می تواند یک ویژگی داشته باشد.

    هنگامی که از ویژگی استفاده می شود، عنصر شکل زیر را به خود می گیرد:

    محتوا را تگ کنید

    متن در مرکز تراز شده است

    یک تگ باز می تواند چندین ویژگی داشته باشد، به عنوان مثال:

    اندازه و رنگ متن مشخص شده است

    تاریخچه توسعه زبان های نشانه گذاری.

    مفهوم فرامتن توسط دبلیو بوش در سال 1945 معرفی شد و با شروع دهه 60، اولین برنامه های کاربردی با استفاده از داده های فرامتن شروع به ظهور کردند. با این حال، این فناوری زمانی توسعه اصلی خود را دریافت کرد که نیاز واقعی به مکانیزمی برای ترکیب چندین منبع اطلاعاتی ایجاد شد و توانایی ایجاد و مشاهده متن غیرخطی را فراهم کرد.

    در سال 1986، ISO زبان نشانه گذاری عمومی استاندارد شده را تایید کرد. این زبان برای ایجاد زبان های نشانه گذاری دیگر در نظر گرفته شده است؛ مجموعه ای معتبر از برچسب ها، ویژگی های آنها و ساختار داخلی سند را تعریف می کند. بنابراین، این امکان وجود دارد که برچسب های مربوط به محتوای سند خود را ایجاد کنید. اکنون آشکار می شود که تفسیر چنین اسنادی بدون تعریف زبان نشانه گذاری، که در تعریف نوع سند (DTD) ذخیره می شود، دشوار است. DTD تمام قوانین زبان را در استاندارد SGML گروه بندی می کند. به عبارت دیگر، DTD رابطه برچسب ها با یکدیگر و قوانین استفاده از آنها را توضیح می دهد. علاوه بر این، برای هر دسته از اسناد، مجموعه قوانین خاص خود تعریف شده است که گرامر زبان نشانه گذاری مربوطه را توصیف می کند. بنابراین، تنها با کمک یک DTD می توان استفاده صحیح از برچسب ها را تأیید کرد و بنابراین، باید همراه با سند SGML ارسال شود یا در سند گنجانده شود.

    در آن زمان، علاوه بر SGML، چندین زبان مشابه دیگر نیز با یکدیگر رقابت می کردند، اما محبوبیت (HTML که یکی از فرزندان آن است) به SGML برتری غیرقابل انکاری نسبت به همتایان خود داد.

    با استفاده از SGML، می توانید داده های ساختار یافته را توصیف کنید، اطلاعات موجود در اسناد را سازماندهی کنید، و این اطلاعات را در قالبی استاندارد ارائه کنید. اما به دلیل پیچیدگی‌اش، SGML عمدتاً برای توصیف نحو زبان‌های دیگر مورد استفاده قرار می‌گرفت و تعداد کمی از برنامه‌ها مستقیماً با اسناد SGML کار می‌کردند. SGML معمولا فقط در پروژه های بزرگ استفاده می شود، به عنوان مثال، برای ایجاد یک سیستم مدیریت اسناد یکپارچه برای یک شرکت بزرگ.

    زبان نشانه‌گذاری HTML بسیار ساده‌تر و راحت‌تر از SGML است، دستورالعمل‌های آن در درجه اول برای کنترل فرآیند نمایش محتوای سند روی صفحه است. HTML به عنوان راهی برای علامت گذاری اسناد فنی توسط تیم برنرز لی در سال 1991 به طور خاص برای جامعه علمی ایجاد شد. در ابتدا فقط یکی از برنامه های SGML بود.

    با وجود این واقعیت که HTML تنها کاری که می تواند انجام دهد طبقه بندی بخش هایی از یک سند و اطمینان از نمایش صحیح آن در مرورگر است، محبوب ترین زبان نشانه گذاری است. این به این دلیل است که یادگیری HTML بسیار آسان است. تنها کاری که باید انجام دهید این است که دستورات HTML را یاد بگیرید. DTD برای HTML در مرورگر ذخیره می شود. علاوه بر این، لازم به ذکر است که HTML برای کار بر روی پلتفرم های مختلف طراحی شده است. اما تعدادی محدودیت قابل توجه دارد:

  • HTML دارای یک مجموعه ثابت از برچسب ها است و این مجموعه قابل گسترش یا تغییر نیست.
  • تگ های زبان HTML فقط نحوه نمایش داده ها، یعنی ظاهر سند را نشان می دهد. HTML اطلاعاتی در مورد معنای محتوای موجود در برچسب ها یا ساختار سند ندارد.