برچسب های html را حذف کنید متن را از تگ های html پاک کنید. پاک کننده html چگونه کار می کند

سلام!

هنگام نوشتن ویرایشگر WYSIWYG خودم، در کپی کردن متن از Word با مشکل مواجه شدم. در واقع سه مشکل وجود دارد:

  • ورد مطالب ناخواسته زیادی را وارد می کند کد htmlکه باید تمیز شود
  • بنا به دلایلی، Word از پاراگراف ها به جای تگ های UL و LI برای ارائه لیست ها استفاده می کند
  • در واقع، چگونه می توان تشخیص داد که متن درج شده از Word درج شده است.
در کل برای رفع این مشکلات یک افزونه jquery نوشته شد، کامل منبعکه در انتهای مقاله موجود است. مثال استفاده:

$('#ویرایشگر'). msword_html_filter();
این افزونه در یک رویداد آویزان شده است keyupو بررسی می کند که آیا کد منبع داخل ویرایشگر از Word چسبانده شده است یا خیر، سپس تابع پاکسازی راه اندازی می شود. همه چیز ممکن در html حاصل گنجانده شده است - فضاهای بدون شکست، ویژگی های سبکو تراز کردن، برچسب ها طول، همه Mso-کلاس ها، پاراگراف های خالی

جزئیات پیاده سازی در زیر برش.

اکثر معمولی های استفاده شده از TinyMCE گرفته شده اند.

نحوه تعیین اینکه آیا یک خط حاوی کد html درج شده از Word است یا خیر:

اگر (/class="?Mso|style="[^"]*\bmso-|style="[^""]*\bmso-|w:WordDocument/i.test(content)) ( ... )

تابع پاکسازی کد (به تابع منتقل شد شیء جی کوئریویرایشگر):

تابع word_filter(editor)(var content = editor.html(); // نظرات کلمه مانند نظرات شرطی و غیره محتوا = content.replace(/<(!|script[^>]*>.*?<\/script(?=[>\s])|\/?(\?xml(:\w+)?|img|متا|لینک|سبک|\w:\w+)(?=[\s\/>]))[^>]* >>gi، ""); // تبدیل به <(\/?)s>/gi"<$1strike> ___ ([\s\u00a0]*)<\/span>/gi, function(str, spaces) ( return (spaces.length > "; if (/^\s*\w+\./.test(txt)) ( var مطابقت دارد = /()\./.exec(txt if (مطابقت دارد) (var start = parseInt(Match, 10); list_tag = start>1 ? "" : ""; )else( list_tag = ""; ) ) if(cur_level> " + $(this).html() + "") $(this).remove(); last_level = cur_level; )else( last_level = 0; ) )) $(""، ویرایشگر).removeAttr("سبک"); $(""، ویرایشگر).removeAttr( "align" $("span", editor).replaceWith(function() (return $(this).contents();)); , editor).removeAttr("class");

متن منبع کامل افزونه در زیر اسپویلر قرار دارد، در فایل ذخیره کنید jquery.msword_html_filter.js

متن منبع افزونه

(function($) ($.fn.msword_html_filter = function(گزینه ها) ( var settings = $.extend(()، گزینه ها)؛ تابع word_filter(editor)( var content = editor.html(); // نظرات کلمه مانند نظرات مشروط و غیره محتوا = content.replace(//gi، "")؛ // حذف نظرات، اسکریپت ها (مانند msoShowComment)، تگ XML، محتوای VML، // تگ های فضای نام MS Office، و چند برچسب دیگر content = content.replace(/<(!|script[^>]*>.*?<\/script(?=[>\s])|\/?(\?xml(:\w+)?|img|متا|لینک|سبک|\w:\w+)(?=[\s\/>]))[^>]* >>gi، ""); // تبدیل به برای محتوای خطی = content.replace(/<(\/?)s>/gi"<$1strike>")؛ // nbsp entites را با char جایگزین کنید زیرا کار با آن آسان تر است //content = content.replace(/ /gi, "\u00a0"); content = content.replace(/ /gi, " "); // تبدیل ___به رشته ای از متناوب // شکستن/فضاهای بدون شکست با همان طول محتوای = content.replace(/ ([\s\u00a0]*)<\/span>/gi، تابع(str، spaces) ( return (spaces.length > 0) ? spaces.replace(/./, " ").slice(Math.floor(spaces.length/2)).split("") .join("\u00a0"): "" )); editor.html(content); // سطح تورفتگی لیست را برای لیست ها تجزیه کنید $("p"، editor).each(function())( var str = $(this).attr("style"); var matches = /mso-list:\w+ \ w+(+)/.exec(str if (مطابقت دارد) ($(this).data("_listLevel", parseInt(match, 10)); )); // تجزیه لیست ها var last_level=0; var pnt = null; $("p"، ویرایشگر).each(function())( var cur_level = $(this).data("_listLevel"); if(cur_level != undefined)( var txt = $(this).text() ; var list_tag = ""; ( مطابقت دارد، 10 list_tag = start>1 : "" list_tag = "" ) if(last_level==0)($(this)) ; = $(this).prev()else( pnt = $(list_tag).appendTo(pnt); ) ) if(cur_level) " + $(this).html() + "") $(this).remove(); last_level = cur_level; )else( last_level = 0; ) )) $(""، ویرایشگر).removeAttr("سبک"); $(""، ویرایشگر).removeAttr( "align" $("span", editor).replaceWith(function() (return $(this).contents();)); , editor).removeAttr("class") $("p:empty", editor).remove(); var content = $(this).html( if (/class="?Mso|style="[^"]*\bmso-|style="[^""]*\bmso-|w :WordDocument/ i.test(content)) (word_filter($(this)); ) ));


عملکرد فقط در آخرین فایرفاکس تست شده است.

Excel/Word to HTML ابزاری ایده آل برای ویرایش کد منبع مقالات وردپرس یا هر سیستم مدیریت محتوای دیگری است، زمانی که آهنگساز داخلی آنها تمام عملکردهای مورد نیاز ما را ارائه نمی دهد. محتوا را مستقیماً در پنجره مرورگر خود بدون نصب افزونه یا افزونه برای مدیریت برجسته سازی نحو و سایر ویژگی های ویرایش متن بنویسید.

چگونه استفاده کنیم؟

سندی را که می‌خواهید تبدیل کنید در ویرایشگر Word قرار دهید، سپس با استفاده از زبانه‌های بزرگ بالای صفحه به نمایشگر HTML بروید تا کد را ایجاد کنید.

نشانه‌گذاری کثیف را با یک دکمه بزرگ که گزینه‌های فعال (چک شده) را در یک لیست اجرا می‌کند، پاک کنید. همچنین می توانید این توابع را یکی یکی با استفاده از نماد CLEAN اعمال کنید.

مشکلات تبدیل که به راحتی توسط مبدل HTML آنلاین ما حل می شود

مشکل تبدیل کلمه به html احتمالا همیشه در کنار مایکروسافت ورد وجود داشته است. تعداد زیادی از سبک‌های اختصاص داده شده به متون، مانند mso-spacerun:yes، و کلاس‌هایی مانند MsoNormal، و همچنین مجموعه‌ای از انواع span style="font-size:10.0pt" کد را به شدت درهم می‌ریزد. و اغلب سبک های بومی مشخص شده در سایت را قطع می کنند. اگر همچنان می‌توانید با وارد کردن متن از طریق دکمه «فقط درج متن» ویرایشگر، متن ساده را مدیریت کنید، این روش با جداول کار نخواهد کرد. مبدل ما قادر است به راحتی هر گونه نظر و سبک غیر ضروری را از فایل html آینده پاک کند، فقط با کلیک کردن روی دکمه ها.


پاکسازی آنلاین HTML از سبک های غیر ضروری CSS
  • هر گونه سبک غیر ضروری را از تمام متن یا یک قطعه انتخاب شده حذف کنید
  • ما کدهای تورفتگی غیر ضروری، نمادها و سایر کدهای یونیکد را حذف می کنیم
  • کد را از فضاهای اضافی و تگ های تکراری پاک کنید
  • در صورت لزوم، نشانه گذاری HTML را به طور کامل حذف کنید.

فایل های Word، Excel، TxT را به کد منبع خالص HTML تبدیل کنید. بدون استایل ها و نظرات غیر ضروری برای درج مستقیم و صحیح در صفحات سایت.

فرمت های پشتیبانی شده برای تبدیل آنلاین:

  • 97–2004 و DOC جدیدتر به HTML، DOCX به HTML.
  • XLS به HTML، XLSX به HTML.
  • PPT به HTML، PPTX به HTML.
  • TXT به HTML و بسیاری از فرمت های دیگر.

یکی دیگر از کاربردهای مفید این سرویس، به جای ساعت ها صرف ساخت جدول در HTML، آن را در 15 دقیقه در اکسل یا ورد بسازید و آن را به کد HTML تمیز و زیبا برای درج در سایت تبدیل کنید.

روز بخیر، خوانندگان عزیز! امیدوارم شما هم مثل ما خوب عمل کنید - خورشید می درخشد، پرندگان آواز می خوانند، هوا گرم است و تابستان فرا رسیده است! من هنوز دارم روی پایان نامه ام کار می کنم، بنابراین در یک ماه و نیم گذشته فقط یک بار در هفته می نویسم، از نظر فیزیکی وقت ندارم. اما بیایید در مورد چیزهای غم انگیز صحبت نکنیم، بیایید دست به کار شویم!

روزی روزگاری، من در اینترنت جستجو می کردم تا اسکریپتی پیدا کنم که کد HTML را از زباله پاک می کند، که به ویژه، مایکروسافت ورد را از این نظر "محبوب" همه ما می گذارد. قبلا استفاده میکردم پاکسازی کد با استفاده از Adobe Dreamweaverاما او داشت دو اشکال:

    گاهی اوقات همه چیزهایی را که ما دوست داریم پاک نمی کند.

    اگر مقدار بسیار زیادی کد وجود داشته باشد، اسکریپت پاکسازی با خطا مواجه می شود.

نکته دوم برای من حیاتی شد، زیرا مجبور بودم با جداول html بزرگی کار کنم که دور شدن از یک سایت غیرممکن بود و آنها تمام اطلاعات را در Word ارائه می کردند.

بنابراین، پس از مدت ها سرگردانی در اینترنت، اسکریپتی پیدا کردم که با تمام این مدیریت ها با صدای بلند کنار می آید و در عین حال کاملاً قابل تنظیم است.

با HTML Cleaner رایگان از شر نشانه گذاری کثیف خود خلاص شوید. نوشتن، ویرایش، قالب بندی و کوچک کردن کد وب با این ابزار آنلاین بسیار آسان است. اسناد Word را به HTML مرتب و سایر اسناد بصری مانند Excel، PDF، Google Docs و غیره تبدیل کنید. کار با دو ویرایشگر بصری و منبع پیوست شده که فوراً به اقدامات شما پاسخ می دهد بسیار ساده و کارآمد است.

HTML Cleaner به بسیاری از ویژگی های مفید مجهز شده است تا تمیز کردن و ویرایش HTML را تا حد امکان آسان کند. فقط کد خود را در قسمت متن قرار دهید، تنظیمات برگزیده پاکسازی را تنظیم کنید و دکمه را فشار دهید HTML را پاک کنیددکمه. این می تواند هر سندی را که با مایکروسافت اکسل، پاورپوینت، اسناد گوگل یا هر آهنگساز دیگری ایجاد شده است، مدیریت کند. این به شما کمک می کند تا به راحتی از شر تمام سبک های درون خطی و کدهای غیر ضروری که توسط Microsoft Word یا سایر ویرایشگرهای WYSIWYG اضافه شده اند خلاص شوید. این ابزار ویرایشگر HTML زمانی مفید است که در حال انتقال محتوا از یک وب‌سایت به وب‌سایت دیگر هستید و می‌خواهید همه کلاس‌ها و شناسه‌های بیگانه را که سایت منبع اعمال می‌کند پاک کنید. برای دستورات سفارشی خود از ابزار find and replace استفاده کنید. مولد متن جعلی به شما امکان می دهد به راحتی متن ساختگی را به ویرایشگر اضافه کنید.

در بالای صفحه می توانید ویرایشگر تصویری و ویرایشگر کد منبع را در کنار یکدیگر ببینید. هر کدام که تغییرات را تغییر دهید در زمان واقعی روی دیگری منعکس خواهد شد. ویرایشگر بصری HTML به مبتدیان این امکان را می دهد که به راحتی محتوای خود را درست مانند هنگام استفاده از هر برنامه پردازشگر کلمه دیگری بنویسند، در حالی که در سمت راست ویرایشگر منبع با نشانه گذاری کد برجسته به کاربران پیشرفته کمک می کند تا کد را تنظیم کنند. این باعث می شود این برنامه آنلاین ابزار خوبی برای یادگیری کدنویسی HTML باشد.

تبدیل اسناد Word به Clean HTML

برای انتشار فایل‌های PDF آنلاین، مایکروسافت ورد، اکسل، پاورپوینت یا هر سند دیگری که با برنامه‌های ویرایشگر کلمه مختلف تشکیل شده‌اند یا فقط برای کپی محتوای کپی‌شده از وب‌سایت دیگر، محتوای قالب‌بندی شده را در ویرایشگر بصری جای‌گذاری کنید. منبع HTML سند بلافاصله در ویرایشگر منبع نیز قابل مشاهده خواهد بود. نوار کنترل بالای ویرایشگر WYSIWYG این فیلد را کنترل می کند در حالی که سایر تنظیمات پاکسازی منبع برای ویرایش کد منبع هستند. کلیک کنید بر روی HTML را پاک کنیدپس از تنظیم تنظیمات برگزیده تمیز کردن را فشار دهید. کد پاک شده را کپی کرده و در وب سایت خود منتشر کنید.

هیچ تضمینی وجود ندارد که برنامه تمام خطاهای کد شما را دقیقاً همانطور که می خواهید تصحیح کند، بنابراین لطفاً سعی کنید یک HTML معتبر از لحاظ نحوی وارد کنید.

با فعال کردن چک باکس مربوطه، جداول HTML را به عناصر div ساختاریافته تبدیل کنید.

پاک کردن کد HTML از برچسب های Microsoft Word (2000-2007)؟

در گذشته طراحان وب سایت‌های خود را با استفاده از جداول برای سازماندهی صفحه‌آرایی می‌ساختند، اما در عصر طراحی وب واکنش‌گرا، جداول طراحی سایت قدیمی هستند و DIVها جای آن‌ها را می‌گیرند. این ابزار آنلاین به شما کمک می کند تا جداول خود را با چند کلیک ساده به عناصر div ساختاریافته تبدیل کنید.

می توانید کد منبع خود را با سازماندهی سلسله مراتب برگه ها در نمای درختی خواناتر کنید.

عضو شوید

این وب سایت یک ابزار کاملا کاربردی برای پاکسازی و نوشتن کد HTML است، اما شما این امکان را دارید که عضویت HTML G را خریداری کرده و حتی به ویژگی های حرفه ای تری دسترسی پیدا کنید. با استفاده از نسخه رایگان HTML Cleaner، موافقت می کنید که پیوندها را در اسناد ویرایش شده قرار دهید. این ابزار پاکسازی ممکن است یک پیوند شخص ثالث تبلیغاتی را به انتهای اسناد پاک شده اضافه کند و تا زمانی که از نسخه رایگان استفاده می کنید باید این کد را بدون تغییر بگذارید.

Cleaner سرویسی برای پاک کردن برچسب‌ها از زباله‌ها است که پس از ذخیره صفحه در قالب برنامه در سند باقی می‌ماند.

خیلی وقت پیش پلاگین مشابهی نوشتم، اما با عجله ساخته شد، حالا مکانیزم کاملاً بازنویسی شده است.

پاکسازی کد با جستجو در خط وارد شده انجام می شود که از آن یک خط جدید حاوی "پاک" تشکیل می شود. این افزونه کاملاً همه چیز را از برچسب ها حذف می کند. در تگ های جفت نشده، علامت / (اسلش) درج می شود. برچسب‌های خالی حذف می‌شوند، برای مثال ساختار حذف می‌شود زیرا حاوی چیزی نیست.

پاک کننده html چگونه کار می کند؟

دو راه وجود دارد:

  1. در MS Word، داده‌هایی را که می‌خواهید پاک کنید، انتخاب کنید، برای انتخاب همه، Ctrl + A را فشار دهید. متن کپی‌شده را در فیلد زیر جای‌گذاری کنید (برگه «Paste MS Office Data» باید انتخاب شود)، روی دکمه «پایان» کلیک کنید.
  2. قبل از بهینه سازی کد، "ذخیره به عنوان..." را در Word انتخاب کنید، سپس نوع فایل "صفحه وب با فیلتر" را انتخاب کنید، سپس فایل ذخیره شده را در یک ویرایشگر متن باز کنید، کد را کپی کرده و در فیلد زیر قرار دهید. برگه "درج HTML" باید انتخاب شود ")، روی دکمه "انجام شد" کلیک کنید.

در نتیجه کد html بکر دریافت خواهید کرد.
ویژگی های زیر دست نخورده باقی می مانند:

"colspan"، "rowspan"، "href"، "src"، "type"، "value"، "lang"، "tabindex"، "title"، "code"، "alt"، "target"، "dir" "، "گستره"، "عمل"، "روش"