HTML teglarini olib tashlang. HTML teglaridan matnni tozalang. Html tozalagich qanday ishlaydi?

Salom!

O'zimning WYSIWYG muharririmni yozishda Word'dan matnni nusxalashda muammoga duch keldim. Aslida uchta muammo bor:

  • Word tozalanishi kerak bo'lgan juda ko'p keraksiz HTML kodlarini kiritadi
  • Ba'zi sabablarga ko'ra, Word ro'yxatlarni ko'rsatish uchun UL va LI teglari o'rniga paragraflardan foydalanadi
  • Aslida, kiritilgan matn Word'dan kiritilganligini qanday aniqlash mumkin.
Umuman olganda, ushbu muammolarni hal qilish uchun jQuery plagini yozilgan, to'liq manba kodi bu maqolaning oxirida mavjud. Foydalanish misoli:

$('#muharrir'). msword_html_filtr();
Plagin voqeaga osilgan keyup va muharrir ichidagi manba kodining Word'dan joylanganligini tekshiradi, agar shunday bo'lsa, tozalash funksiyasi ishga tushiriladi. Olingan html-da, mumkin bo'lgan hamma narsa mixlangan - buzilmaydigan bo'shliqlar, atributlar uslub Va tekislash, teglar oraliq, Hammasi Mso-sinflar, bo'sh paragraflar.

Kesim ostida amalga oshirish tafsilotlari.

Ishlatilgan muntazam dasturlarning aksariyati TinyMCE-dan olingan.

Qatorda Word dasturidan kiritilgan html kod mavjudligini qanday aniqlash mumkin:

Agar (/class="?Mso|style="[^"]*\bmso-|style="[^""]*\bmso-|w:WordDocument/i.test(content)) ( ... )

Kodni tozalash funktsiyasi (funktsiyaga o'tdi jQuery ob'ekti muharriri):

Funktsiya word_filter(editor)( var content = editor.html(); // Shartli izohlar kabi Word izohlari va hokazo kontent = content.replace(/<(!|script[^>]*>.*?<\/script(?=[>\s])|\/?(\?xml(:\w+)?|img|meta|link|uslub|\w:\w+)(?=[\s\/>]))[^>]* >>gi, ""); // aylantirish ichiga <(\/?)s>/gi,"<$1strike> ___ ([\s\u00a0]*)<\/span>/gi, funktsiya(str, bo'shliqlar) ( qaytish (bo'shliqlar.uzunligi > "; agar (/^\s*\w+\./.test(txt)) ( var mos keladi = /()\./.exec(txt) ); if (mos keladi) ( var start = parseInt(mos keladi, 10); list_tag = start>1 ? "" : ""; )else( list_tag = ""; ) ) if(cur_level> " + $(bu).html() + "") $(this).remove(); last_level = cur_level; )else( last_level = 0; ) )) $("", tahrirlovchi).removeAttr("style"); $("", tahrirlovchi).removeAttr( "align"); $("span", muharrir).replaceWith(function() (qaytaring $(tush).contents();)); $("span:empty", tahrirlovchi).remove(); $( "", tahrirlovchi).removeAttr("sinf"); $("p:bo'sh", muharrir).remove(); )

Plaginning to'liq manba matni spoyler ostida, faylga saqlang jquery.msword_html_filter.js

plagin manba matni

(funksiya($) ( $.fn.msword_html_filter = funktsiya(variantlar) ( var settings = $.extend((), options); funktsiya word_filter(editor)( var content = editor.html(); // Word kabi sharhlar shartli izohlar va boshqalar kontent = content.replace(//gi, ""); // Izohlarni, skriptlarni (masalan, msoShowComment), XML tegini, VML kontentini, // MS Office nomlar boʻshligʻidagi teglarni va bir nechta boshqa teglarni oʻchirish content = content.replace(/<(!|script[^>]*>.*?<\/script(?=[>\s])|\/?(\?xml(:\w+)?|img|meta|link|uslub|\w:\w+)(?=[\s\/>]))[^>]* >>gi, ""); // aylantirish ichiga qatorli kontent uchun = content.replace(/<(\/?)s>/gi,"<$1strike>"); // nbsp ob'ektlarini char bilan almashtiring, chunki uni boshqarish osonroq //content = content.replace(/ /gi, "\u00a0"); kontent = content.replace(/ /gi, " "); // aylantirish ___ muqobil qatorga // bir xil uzunlikdagi uzilishlar/uzilmaydigan bo'shliqlar = content.replace(/ ([\s\u00a0]*)<\/span>/gi, funktsiya(str, bo'shliqlar) ( qaytish (bo'shliqlar.uzunligi > 0) ? bo'shliqlar.replace(/./, " ").slice(Math.floor(bo'shliqlar.uzunligi/2)).split("") .join("\u00a0"): ""; )); editor.html (tarkib); // $("p", muharrir).each(funksiya())( var str = $(this).attr("style"); var matches = /mso-list:\w+ $("p", muharriri). \ w+(+)/.exec(str); if (mos keladi) ( $(this).data("_listLevel", parseInt(mos keladi, 10)); ) )); // Ro'yxatlarni tahlil qilish var last_level=0; var pnt = null; $("p", tahrirlovchi).each(function())( var cur_level = $(this).data("_listLevel"); if(cur_level != undefined)( var txt = $(this).text() ; var list_tag = ""; if (/^\s*\w+\./.test(txt)) ( var matches = /()\./.exec(txt); if (mos) ( var start = parseInt ( mos keladi, 10); list_tag = start>1 ? "" : ""; )else( list_tag = ""; ) ) if(cur_level>oxirgi_daraja)( if(last_level==0)( $(bu).oldin( list_tag ); pnt = $(bu).prev(); )else( pnt = $(roʻyxat_tag).apppendTo(pnt); ) ) if(cur_level) " + $(bu).html() + "") $(this).remove(); last_level = cur_level; )else( last_level = 0; ) )) $("", tahrirlovchi).removeAttr("style"); $("", tahrirlovchi).removeAttr( "align"); $("span", muharrir).replaceWith(function() (qaytaring $(tush).contents();)); $("span:empty", tahrirlovchi).remove(); $( "", muharrir).removeAttr("sinf"); $("p:bo'sh", muharrir).remove(); ) bu.each(funksiya()( $(this).on("keyup", funksiya)ni qaytaring ()( var content = $(this).html(); if (/class="?Mso|style="[^"]*\bmso-|style="[^""]*\bmso-|w :WordDocument/i.test(kontent)) (word_filter($(bu)); ))) )); ))(jQuery)


Ishlash faqat so'nggi Firefox-da sinovdan o'tkazildi.

Excel/Word to HTML - bu WordPress maqolalarining manba kodini yoki ularning o'rnatilgan kompozitori bizga kerak bo'lgan barcha funktsiyalarni ta'minlamagan boshqa kontentni boshqarish tizimini tahrirlash uchun ideal vositadir. Sintaksisni ajratib ko'rsatish va boshqa matnni tahrirlash funksiyalarini boshqarish uchun kengaytma yoki plaginni o'rnatmasdan to'g'ridan-to'g'ri brauzer oynasida kontent yarating.

Qanday ishlatish?

O'zgartirmoqchi bo'lgan hujjatni Word muharririga joylashtiring, so'ngra kodni yaratish uchun sahifaning yuqori qismidagi katta yorliqlar yordamida HTML ko'rish dasturiga o'ting.

Ro'yxatdagi faol (tekshirilgan) variantlarni bajaradigan katta tugma bilan iflos belgilarni tozalang. Bu funksiyalarni CLEAN belgisi yordamida ham birma-bir qo‘llashingiz mumkin.

Onlayn HTML konvertorimiz tomonidan osongina echiladigan konversiya muammolari

So'zni html-ga aylantirish muammosi, ehtimol, Microsoft Word bilan birga doimo mavjud bo'lgan. Mso-spacerun:yes va MsoNormal kabi sinflar kabi matnlarga tayinlangan juda ko'p sonli uslublar, shuningdek, har xil span style="font-size:10.0pt" tartibsizliklari kodni juda chigallashtiradi. Va ular ko'pincha saytda ko'rsatilgan mahalliy uslublarni to'xtatadilar. Agar siz hali ham muharrirning “Faqat matnni kiritish” tugmasi orqali matn kiritish orqali oddiy matn bilan ishlov bera olsangiz, bu usul jadvallar bilan ishlamaydi. Bizning konvertorimiz shunchaki tugmalarni bosish orqali kelajakdagi html faylidan har qanday keraksiz izoh va uslublarni osongina tozalashga qodir.


HTMLni keraksiz CSS uslublaridan onlayn tozalash
  • Barcha matn yoki tanlangan fragmentdan keraksiz uslublarni olib tashlang
  • Biz keraksiz chekinish kodlari, belgilar va boshqa Unicode kodlarini olib tashlaymiz
  • Kodni qo'shimcha bo'shliqlardan va takroriy teglardan tozalang
  • Agar kerak bo'lsa, HTML belgisini butunlay olib tashlang.

Word, Excel, TxT fayllarini toza HTML manba kodiga aylantiring. Sayt sahifalariga to'g'ridan-to'g'ri, to'g'ri kiritish uchun keraksiz uslublar va sharhlarsiz.

Onlayn konvertatsiya qilish uchun qo'llab-quvvatlanadigan formatlar:

  • 97–2004 va undan yangiroq DOC-dan HTMLga, DOCX-dan HTMLga;
  • XLS - HTML, XLSX - HTML;
  • PPT dan HTMLga, PPTX dan HTMLga;
  • TXT dan HTMLga va boshqa ko'plab formatlarga.

Xizmatdan yana bir foydali foydalanish, HTML-da jadval yaratish uchun soatlab vaqt sarflash o'rniga, uni 15 daqiqada Excel yoki Word-da tayyorlang va uni saytga kiritish uchun toza, chiroyli HTML kodiga aylantiring.

Xayrli kun, aziz o'quvchilar! Umid qilamanki, siz ham biz kabi ish qilyapsiz - quyosh porlayapti, qushlar sayr qilmoqda, issiq va yoz keldi! Men hali ham dissertatsiya ustida ishlayapman, shuning uchun oxirgi bir yarim oy davomida haftada bir marta yozyapman, jismonan vaqtim yo'q. Ammo keling, qayg'uli narsalar haqida gapirmaylik, keling, ishga kirishaylik!

Bir vaqtlar men HTML kodini axlatdan tozalaydigan skriptni topish uchun Internetda qazib oldim, bu, xususan, barchamizni bu borada "sevimli" qoldiradi Microsoft Word. Ilgari men foydalanganman Adobe Dreamweaver yordamida kodni tozalash lekin u bor edi ikkita kamchilik:

    Ba'zan biz xohlagan hamma narsani tozalamaydi.

    Agar juda katta miqdordagi kod bo'lsa, tozalash skripti xatoga yo'l qo'yadi.

Ikkinchi nuqta men uchun juda muhim bo'ldi, chunki men katta html jadvallari bilan ishlashga to'g'ri keldi, ulardan bitta saytdan uzoqlashish mumkin emas edi va ular Wordda barcha ma'lumotlarni taqdim etdilar.

Shunday qilib, uzoq vaqt davomida Internetda aylanib yurganimdan so'ng, men ushbu boshqaruvning barchasini portlash bilan hal qiladigan va shu bilan birga butunlay sozlanishi mumkin bo'lgan skriptni topdim.

Bepul onlayn HTML Cleaner yordamida iflos belgilaringizdan xalos bo'ling. Ushbu onlayn vosita yordamida veb-kodni yaratish, tahrirlash, formatlash va kichiklashtirish juda oson. Word hujjatlarini toza HTML va Excel, PDF, Google Docs kabi boshqa vizual hujjatlarga aylantiring. Sizning harakatlaringizga bir zumda javob beradigan ikkita biriktirilgan vizual va manba muharriri bilan ishlash juda oddiy va samarali.

HTML Cleaner HTMLni tozalash va tahrirlashni iloji boricha osonlashtirish uchun ko'plab foydali xususiyatlar bilan jihozlangan. Kodingizni matn maydoniga qo'ying, tozalash parametrlarini o'rnating va tugmasini bosing Toza HTML tugmasi. U Microsoft Excel, PowerPoint, Google docs yoki boshqa har qanday kompozitor yordamida yaratilgan har qanday hujjatni boshqarishi mumkin. Bu Microsoft Word yoki boshqa WYSIWYG muharrirlari tomonidan qo'shilgan barcha ichki uslublar va keraksiz kodlardan osongina xalos bo'lishga yordam beradi. Ushbu HTML muharriri vositasi kontentni bir veb-saytdan ikkinchisiga o'tkazayotganda foydali bo'ladi va siz manba sayt qo'llaydigan barcha begona sinflar va identifikatorlarni tozalashni xohlaysiz. Shaxsiy buyruqlaringiz uchun topish va almashtirish vositasidan foydalaning. Ma'nosiz matn generatori muharrirga soxta matnni osongina qo'shish imkonini beradi.

Sahifaning yuqori qismida siz vizual muharrir va manba kodi muharririni bir-birining yonida ko'rishingiz mumkin. Qaysi birini o'zgartirsangiz, o'zgarishlar real vaqtda ikkinchisida aks etadi. Vizual HTML muharriri yangi boshlanuvchilarga, xuddi boshqa matn protsessor dasturidan foydalanganda bo'lgani kabi, o'z mazmunini osongina yaratishga imkon beradi, o'ng tomonda esa ajratilgan kod belgilariga ega manba muharriri ilg'or foydalanuvchilarga kodni sozlashda yordam beradi. Bu ushbu onlayn dasturni HTML kodlashni o'rganish uchun yaxshi vositaga aylantiradi.

Word hujjatlarini HTMLni tozalash uchun aylantirish

Onlayn PDF-fayllarni, Microsoft Word, Excel, PowerPoint yoki turli xil so'z muharriri dasturlari bilan tuzilgan boshqa hujjatlarni nashr qilish yoki boshqa veb-saytdan ko'chirilgan tarkibni nusxalash uchun formatlangan tarkibni vizual muharrirga joylashtiring. Hujjatning HTML manbasi manba muharririda ham darhol ko'rinadi. WYSIWYG muharriri ustidagi boshqaruv paneli ushbu maydonni boshqaradi, boshqa manbalarni tozalash sozlamalari esa manba kodini tahrirlash uchundir. ni bosing Toza HTML tozalash sozlamalarini o'rnatgandan so'ng tugmasini bosing. Tozalangan koddan nusxa oling va uni veb-saytingizda e'lon qiling.

Dastur kodingizdagi barcha xatolarni aynan siz xohlagan tarzda tuzatishiga kafolat yo'q, shuning uchun sintaktik jihatdan yaroqli HTMLni kiritishga harakat qiling.

Tegishli katakchani faollashtirgan holda HTML jadvallarini tuzilgan div elementlariga aylantiring.

HTML kodini Microsoft Word teglaridan tozalash (2000-2007)?

Ilgari veb-dizaynerlar o'z veb-saytlarini sahifa tartibini tartibga solish uchun jadvallar yordamida qurishgan, ammo sezgir veb-dizayn davrida jadvallar eskirgan va ularning o'rnini DIV egallaydi. Ushbu onlayn vosita bir necha oddiy bosish orqali jadvallaringizni tuzilgan div elementlariga aylantirishga yordam beradi.

Yorliqlar ierarxiyasini daraxt ko'rinishida tashkil qilish orqali manba kodingizni yanada o'qilishi mumkin.

A'zo bo'ling

Ushbu veb-sayt HTML kodini tozalash va yaratish uchun to'liq funktsional vositadir, ammo sizda HTML G a'zoligini sotib olish va yanada professional xususiyatlarga kirish imkoniyati mavjud. HTML Cleaner-ning bepul versiyasidan foydalanib, siz tahrirlangan hujjatlarga havolalarni kiritishga rozilik bildirasiz. Ushbu tozalash vositasi tozalangan hujjatlarning oxiriga reklama uchun uchinchi tomon havolasini qo'shishi mumkin va siz bepul versiyadan foydalansangiz, ushbu kodni o'zgarishsiz qoldirishingiz kerak.

Cleaner - sahifani dasturdan formatda saqlagandan so'ng hujjatda qoladigan teglarni "axlat" dan tozalash xizmati.

Uzoq vaqt oldin men shunga o'xshash plaginni yozgan edim, lekin u shoshilinch ravishda yaratilgan, endi mexanizm butunlay qayta yozilgan.

Kodni tozalash "toza" ni o'z ichiga olgan yangisi hosil bo'lgan kiritilgan qatorni qidirish orqali amalga oshiriladi. Plagin teglardan mutlaqo hamma narsani, shu jumladan . Ulanmagan teglarda / (qiyshiq chiziq) belgisi qo'yiladi. Bo'sh teglar o'chiriladi, masalan, konstruktsiya o'chiriladi, chunki unda hech narsa yo'q.

Html tozalagich qanday ishlaydi?

Ikkita yo'l bor:

  1. MS Word-da o'chirmoqchi bo'lgan ma'lumotlarni tanlang, barchasini tanlash uchun Ctrl + A tugmalarini bosing. Ko'chirilgan matnni quyidagi maydonga joylashtiring ("MS Office ma'lumotlarini joylashtirish" yorlig'i tanlangan bo'lishi kerak), "Finish" tugmasini bosing.
  2. Kodni optimallashtirishdan oldin Word dasturida “Boshqa saqlash...” bandini tanlang, so‘ng “Filtrli veb-sahifa” fayl turini tanlang, so‘ngra saqlangan faylni matn muharririda oching, kodni nusxalang va quyidagi maydonga qo‘ying. "HTML qo'shish" yorlig'i tanlangan bo'lishi kerak "), "Bajarildi" tugmasini bosing.

Natijada siz toza html kodini olasiz.
Quyidagi atributlar buzilmaydi:

"colspan", "rowspan", "href", "src", "type", "value", "lang", "tabindex", "title", "code", "alt", "target", "direct" ", "oraliq", "harakat", "usul"