Emuāru parsētājs ar eksportu uz WordPress. Mans WP Uniparser spraudnis ir universāls parsētājs emuāru automātiskai aizpildīšanai!!! Lielapjoma publicēšana pakalpojumā WordPress

WordPress parsētājs ir datu kolas iestatījums, kas paredzēts satura (ziņu, rakstu, apskatu utt.) apkopošanai un tālākai eksportēšanai uz WordPress CMS.

Šajā piemērā iegūtais saturs tiek eksportēts uz . Katras ziņas rezultāti tiek saglabāti atsevišķu failu, kuras nosaukums tiek ģenerēts, pamatojoties uz ziņas nosaukumu, un saturs tiek ģenerēts, pamatojoties uz parsēto informāciju. Varat arī iestatīt tiešu eksportēšanu uz savu WordPress emuāru. Kā to izdarīt, ir parādīts video.

Programmas demonstrācijas versijā varat bez maksas pārbaudīt WordPress parsētāju.
Galvenās WordPress datukolu parsētāja priekšrocības ir:

  • Iespēja pielāgot WordPress parsēšanu, lai tā atbilstu jūsu vajadzībām (jūsu vai).
  • Iespēja tālāk apstrādāt savāktos datus, izmantojot spraudņus, kā arī ielādēt tos .
  • Iespēja cikliski uzsākt kampaņas. Kad pirmā parsēšanas uzdevuma rezultāti būs ievade otrajam datu vākšanas uzdevumam. Lasīt vairāk.

Kā parsētājs tiek izmantots WordPress?

Ja esat izveidojis emuāru, tad pēc kāda laika jums kļūst skaidrs, ka tā popularizēšanai pastāvīgi ir nepieciešams jauns unikāls saturs. Un jūs kļūstat pārāk slinks, lai pats rakstītu rakstus un aizpildītu vietni manuāli. Bet kur var iegūt jaunu saturu? Agrāk vai vēlāk pienāks brīdis, kad vēlaties ķerties pie autoemuāru rakstīšanas. Vienkārši sakot, izmantojiet parsētāju, kas pats publicēs mums nepieciešamo informāciju. WordPress satura parsētājs palīdzēs mums tikt galā ar šo uzdevumu.

Visas vietnes kādā brīdī ir izveidotas no nulles. Bet, ja jūsu vietnes mērķis ir sniegt informāciju, tā kļūs interesanta tikai tad, kad informācijas apjoms pārsniegs noteiktu daudzumu. WordPress emuāru parsētājs ir lielisks risinājums šādam uzdevumam. Ar tās palīdzību jūs varat īsā laikā sasniegt savus konkurentus, ievērojami paplašinot vietnes informācijas katalogu. WordPress parsētājs var tikt ieviests kā WordPress satvērējs no noteiktas vietnes.

Parsētājs WordPress emuārs var palīdzēt atrisināt daudzas problēmas, šeit ir dažas no tām:
— sākotnējā resursa aizpildīšana (vietņu parsētājs WordPress ļaus aizpildīt jūsu emuāru ar informāciju no nulles līdz vajadzīgajam apjomam pēc iespējas īsākā laikā);
- automātiski aizpildīta emuāra izveide (WordPress parsētājs varēs nodrošināt regulāru vietnes satura automātisku atjaunināšanu)
— satura publicēšana “pēc grafika” (varat ieplānot laiku, kad savai vietnei jāpievieno ziņas)

Lielapjoma publicēšana pakalpojumā WordPress

Programmā Datacol parādītais WordPress parsētājs ir spilgts piemērs parsētāja izmantošanai masveida publicēšanai. Tas ļauj automātiski saņemt saturu un publicēt to savā emuārā. WordPress nokasīšanas procesu var iedalīt vairākos posmos:

1) Satura vākšanas process. WordPress parsētājs apkopo nepieciešamo informāciju katram emuāra ierakstam: virsraksts, saturs (lejupielādēts ar attēliem, kas tiek saglabāti jūsu datorā tālākai lejupielādei, izmantojot FTP uz jūsu serveri), kategoriju, autoru un saiti, no kuras dati tika vākti (URL).

2) Parsētāja apkopotās informācijas saglabāšana WordPress. Pēc parsēšanas apkopotā informācija tiek saglabāta TXT failos (katrs ieraksts tiek saglabāts atsevišķā teksta failā), kuru nosaukumi tiek ģenerēti atbilstoši ieraksta nosaukumam.

3) Eksportējiet WordPress. Ir iespējams arī tieši eksportēt parsēto informāciju uz jūsu WordPress emuāru. Tas padara pildīšanas procesu ļoti ātru un novērš cilvēcisku kļūdu iespējamību. Iespēja eksportēt uz WordPress ir iekļauta programmas pamata funkcionalitātē. Programmas iestatījumos ir jānorāda parametri savienojumam ar jūsu emuāru un jānorāda eksportējamie dati (nosaukums, saturs, kategorija utt.)

4) Informācijas apstrāde. Ja vēlaties, WordPress parsēšanas procesā savākto informāciju var apstrādāt (piemēram, pakļaut automātiskai tulkošanai vai sinonimizācijai). Šīs funkcijas tiek ieviestas, izmantojot spraudņus.

Kā parsēt WordPress vietni?

Jūs varat ne tikai publicēt parsētu informāciju pakalpojumā WordPress, bet arī varat to nokasīt no tā. Diezgan bieži rodas uzdevums izmantot citu cilvēku WordPress emuārus kā satura avotu saviem emuāriem. Lai atrisinātu šo problēmu, jums palīdzēs WordPress vietņu parsētājs. Algoritms darbam ar WordPress vietņu parsētāju ir līdzīgs iepriekš aprakstītajam.

WordPress vietņu parsētāja priekšrocības

Jūs, iespējams, jau esat pārliecināts, ka WordPress emuāru parsētājs palīdzēs jums netērēt daudz laika un pūļu, manuāli aizpildot emuāru. Pateicoties tam, jūs varat ne tikai automatizēt savu darbu, bet arī palielināt tā efektivitāti. WordPress parsētāju, kas ieviests Datacol, varat lejupielādēt vietnē

Emuāra parsētāja pārbaude

Lai pārbaudītu emuāra parsētāju:

2. darbība. Kampaņas kokā ir kampaņa content-parsers/kolchaka-net.par. Atlasiet to un noklikšķiniet uz pogas Atskaņot. Pirms darba sākšanas varat rediģēt ievades datus. Tādā veidā varat iestatīt saiti uz emuāru vai emuāra lapām, no kurām analizēsit saturu.

3. darbība. Pagaidiet, līdz tiek parādīti emuāra parsētāja rezultāti. Pēc rezultātu parādīšanās varat piespiedu kārtā pārtraukt parsēšanu (noklikšķinot uz pogas Apturēt).

noklikšķiniet uz attēla, lai palielinātu

4. darbība. Pēc parsētāja pabeigšanas/piespiedu apturēšanas mapē Mani dokumenti varat atrast teksta faili(katrs ieraksts tiek saglabāts atsevišķā failā), kura nosaukumi tiek ģenerēti, pamatojoties uz ierakstu nosaukumiem:

noklikšķiniet uz attēla, lai palielinātu

Es piedāvāju jums universālo WordPress mantrausis WP UniParser. Šis spraudnis ir universāls pielāgojams parsētājs. Veidojot ziņas, spraudnis var tulkot saturu, izmantojot Google pakalpojums Tulko, izmantojot jebkuru valodu pāri.

Klientu atsauksmes

Tēmu serverī, kur bija apmēram 6-7 atsauksmes, moderatori izdzēsa (saka, ka produkts neatbilst foruma noteikumiem). Neskatoties uz to, vienu pārskatu var izlasīt Mulnet forumā un Armada. Ir arī emuāru autoru atsauksmes: šeit un šeit. Pavisam nesen nejauši uzgāju kādu atsauksmi.

Pamata funkcionalitāte

Ar manis izveidoto WP UniParser spraudni var veikt šādas darbības:
izvilkt saturu no vietnes jebkuros dzinējos(parsētājs ir konfigurēts, izmantojot regulāras izteiksmes un ierobežojumu virknes, iestatīšana ir ļoti vienkārša, es visu paskaidrošu un parādīšu, turklāt ir );
izgriezt skriptus, komentārus, saites, veidlapas, attēlus, posmus, objektus, kā arī visus jūsu norādītos fragmentus no satura.
plāna publikācija amata vietas;
ievietojiet parsētos materiālus jūsu definētajā kategorijā (vai nejauši sadaliet tos kategorijās);
apzināties automātiskā tulkošana(jebkurā virzienā) jebkurā atbalstītajā valodā Google tulkotājs.

Vairāk par spraudņa funkciju kopu varat uzzināt tā administratora paneļa ekrānuzņēmumā:

Ir arī vērts pilnībā izprast universālā greifera darbību.

Dažreiz nav jēgas tērēt laiku pašam teksta rakstīšanai WordPress vietnei. Šis gadījums neattiecas uz emuāriem un informācijas vietnēm, jo ​​to ienākumi tiek gūti tieši pateicoties ievietotajām ziņām.

Un mēs runājam par tiešsaistes veikaliem, uzņēmumu vietnēm un ziņu portāli, kas nav paredzēts dabiskai satiksmei. Šādiem resursiem unikālie materiāli nav tik svarīgi kā to pastāvīga atjaunināšana.

Lai izveidotu automātiskās aizpildes vietni, projektam būs jāiestata ziņu parsētājs. Vispirms jums ir jāatrod piemērotas vietnes, no kurām jūs skrāpēsit. Tiem jāatbilst jūsu projekta tēmai, pretējā gadījumā nav jēgas dublēt informāciju no tiem. Ja tas tā ir, jums ir jāpāriet uz parsēšanas problēmas risinājuma otro daļu — šādi tiks klonēts teksts no citas vietnes. Primitīvākā un neērtākā metode ir manuālā kopēšana. Taču daudz prātīgāk ir izmantot kādu no šajā rakstā sniegtajiem spraudņiem, lai aktivizētu veiksmīgu ziņu un satura parsētāju.

WP-O-Matic

Ļoti populārs WordPress modulis, kas ļaus iestatīt funkcionālu ziņu parsētāju no citām vietnēm. Instrumentu uzstāda vienkāršā veidā: vai nu augšupielādējot tieši mitināšanas mapē, vai izmantojot cilni “Spraudņi”.

Tālāk jums ir jākonfigurē spraudnis, ja vēlaties nodrošināt satura parsēšanu. Lai to izdarītu, četras reizes noklikšķiniet uz "Tālāk" un beigās noklikšķiniet uz "Iesniegt". Tādējādi jūs apstiprināt savu piekrišanu šo datu lietošanas noteikumiem WordPress modulis. Jo īpaši jūs piekrītat, ka tikai jūs esat atbildīgs par citu personu materiālu, citu vietņu satura zādzībām utt.

Ja papildus teksta komponentam jūs interesē arī attēli, tad mapē ar spraudni ir jāizveido direktorijs ar nosaukumu Cache. Iestatiet īpašas piekļuves tiesības šai mapei. Pēc tam jums būs jāatgriežas WordPress administratora apgabalā. Dodieties uz spraudņa iestatījumiem un uzmanīgi pārbaudiet, vai blakus Unix cron vienumam ir atzīme. Jums ir jāapstiprina izvēles rūtiņa Kešatmiņas attēls, lai ziņu parsētājs arī kopētu attēlus jūsu resursā.

WP-O-Matic modulis ir labs, jo tas darbojas jebkurā vietnes lapā. Varat pievienot atsevišķu kategoriju, ja vēlaties, lai tajā tiktu parādīts analizētāja nodrošinātais ziņu un satura saraksts. Lai to izdarītu, vispirms izveidojiet nepieciešamo kategoriju. Pēc tam WordPress administratora rīka WP-O-Matic iestatījumos noklikšķiniet uz Pievienot kampaņu. Rindā Kategorijas atzīmējiet izveidoto īpašo kategoriju. Veidlapā Plūsmas ievadiet RSS plūsmu, kuru grasāties parsēt. Plūsmām varat ievadīt vairākus URL vienlaikus, lai teksta parsētājs apkopotu informāciju no trim vai pat četriem resursiem vienlaikus.

Un vēl viens milzīgs pluss WP-O-Matic spraudņa virzienā ir automātiska materiāla publicēšana. Jums nav jāpiesakās savā WordPress administratorā katru stundu, lai mainītu savu ziņu statusu uz “Publicēts”. Modulis to darīs pats. Un, ja vēlaties, tas var unikālizēt tekstu, izmantojot īpašu sinonimizācijas mehānismu. Tajā galvenā atšķirība šo rīku no tā konkurenta - FeedWordPress spraudņa.

Datacol

Šis ir funkcionāls greifers, kas piemērots ne tikai WordPress dzinējs. Tas nav tikai vietņu lapu teksta parsētājs – tā ir vieda aplikācija, kas ļauj filtrēt kopēto materiālu. Piemēram, jūs varēsit ievietot tikai rakstus, kas satur noteiktus atslēgvārdi. Jūs varat dublēt ziņas tieši no Yandex. Klonētie materiāli tiks eksportēti vienā no 15 pieejamajiem formātiem. Pakalpojums apkopos ne tikai tekstu, bet arī virsrakstus, fotogrāfijas, publicēšanas datumu, saites un citus svarīgus datus.

Bet Datacol tiek izplatīts uz maksas pamata. Tomēr tas ir daudz lētāk nekā tad, ja jūs pasūtījāt materiālus vietnei, izmantojot apmaiņu. Lietojumprogramma maksā mazāk nekā 500 rubļu, un to var izmantot gandrīz jebkuram dzinējam. Ir demo versija.

FDE Grabber

Vēl viens maksas parsētājs ar lielu skaitu funkciju. Tas jau ir dārgo greiferu kategorijā, jo tas maksās aptuveni 90 USD. Bet to būs iespējams izmantot uzreiz uz 10 serveriem, tas ir, teorētiski dažādi tīmekļa pārziņi var čipot 9 USD, tādējādi padarot pirkumu lētāku.

FDE Grabber nav gluži WordPress spraudnis. Izstrādātāji savu izveidi sauc par autonomu sistēmu, kas darbojas neatkarīgi no vietnē instalētās CMS veida. Šīs parsēšanas sistēmas galvenās iezīmes:

  • pilna mēroga ziņu vai atsevišķu fragmentu lejupielāde;
  • jūs varat ieplānot publikācijas;
  • ja vēlaties unikalizēt dublēto materiālu, ir iebūvēta sinonimizācijas funkcija;
  • jūs varat strādāt caur starpniekserveriem;
  • parsēšana spēj apiet novirzīšanu, kas var būt problēma citiem spraudņiem;
  • jūs varat automātiski lejupielādēt visu vietnes saturu un pārvietot to uz savu vietni (ja tas attiecas uz portāliem, kas nav ziņu portāli);

Jūs varat iestatīt parsēšanu pilnībā pēc saviem ieskatiem, jo ​​programmai ir iespēja ieviest mikroprogrammas, lai labotu darbu. Piemēram, šādā veidā varat konfigurēt kopētā materiāla izlīdzināšanas un dizaina iezīmes. Varat arī pievienot parametrus noindex un nofollow visām saitēm, kas būs lapas tekstā. Parsētājs pat ļauj kopēt un automātiski tulkot rakstus no ārvalstu resursiem. Tas ir lielisks veids, kā izveidot savās lapās pastāvīgu satura plūsmu, kas laika gaitā sāks piesaistīt apmeklētājus!

Diezgan spēcīgs universāls parsētājs WordPress. Ļauj apkopot saturu no viena vai vairākiem avotiem un apstrādāt, pielāgojot to vajadzīgajam formātam, izmantojot visas PHP valodas iespējas. Pastāv aizkavētas parsēšanas iespēja. Šobrīd labākais bezmaksas WordPress parsētājs — AftParser vienmēr ir jūsu rīcībā!

Īss funkcionalitātes apraksts:

Parsētājs sastāv no 4 lapām: sākumlapa, saišu parsētāja lapa, RSS plūsmas parsētāja lapa un iestatījumu lapa. Lūk, kā tas izskatīsies pēc instalēšanas:

Uzmanību: Varat lasīt, kā konfigurēt AftParser.

Sāksim ar mājas lapa. Tas parāda pašlaik darbojošos parsētāju sarakstu.

Paskaidrojumi ir sniegti blokos katrā lapā. Visa dokumentācija tiek izņemta no kastes; vienkārši izlasiet to uzmanīgi, lai viss būtu skaidrs.

Vietnes parsētājs:

Vietnes parsētāja lapa ļauj parsēt datus gan no viena, gan vairākiem avotiem. Jums vienkārši jānorāda saites uz materiāliem.

Kas? Vai esat pārāk slinks, lai pārlūkotu tīmekli un vāktu materiālus ar rokām? Neesiet izmisumā – viss ir automatizēts.

Ir divi rīki, kas ļauj automātiski aizpildīt saišu sarakstu.

- sava veida emulācija meklētājs. Robots pats izstaigās tam pārsūtītās vietnes lapas un savāks no tām visas iekšējās saites.

Protams, saišu saraksts, kas piepildīts ar automātiskiem algoritmiem, būs ļoti aizsērējis ar nevajadzīgiem datiem. Un šeit filtri nāk jums palīgā.

- visvienkāršākais un ātrs veids filtrēšana. Jūs ievadāt nosacījumus, un filtrs pats veic apstrādi.

Uzlabots saišu filtrs- saišu filtrs, kas ļauj mainīt to saturu un veikt virkni citu dažādu darbību. Tikai pieredzējušiem lietotājiem. Iesaku iemācīties php pirms tur kaut ko darīt.

Ja esat pabeidzis saišu vākšanu, nākamais solis ir satura robežu pievienošana.

Izmantojot šīs robežas, parsētājs noteiks apgabalus, kas jāapstrādā.

Sintakses izcelšana tiek ieviesta, izmantojot javascript redaktoru ACE. Visa dokumentācija un visas pieejamās funkcijas ir sniegtas spraudņa lapā. Saraksts ir ļoti iespaidīgs, un es to nevaru šeit parādīt, jo šis materiāls jau ir ļoti garš. Vienkārši instalējiet spraudni un izlasiet, jūs būsiet pārsteigts, es to garantēju.

Tā izskatās lapa RSS plūsmas parsētājs, ar vienīgo atšķirību, ka nav prasības nodrošināt saišu sarakstus.

Ir diezgan daudz darbības jomu, kur var izmantot parseri, bet galvenokārt tā ir dažādas informācijas vākšana. Attēlus un saites var ātri savākt tikai programmatiski. Parsētāja izmantošana informācijas meklēšanai ļauj automatizēt šo procesu, ievērojami ietaupot laiku. Ja jums ir vietne pakalpojumā Wordpress, varat viegli to automātiski aizpildīt, izmantojot AftParser parsētāju.

ir bezmaksas, universāls WordPress parsētājs. ļauj apkopot saturu no viena vai dažādi avoti, apstrādājot to saskaņā ar nepieciešamais formāts PHP valodā. Parsētājs ir izveidots kā WordPress spraudnis. Pēc spraudņa parastās instalēšanas WordPress konsolē parādīsies parsētāja izvēlne, kā parādīts attēlā.

Parsētājs ievieš divus galvenos rīkus: WordPress vietņu parsētājs un Wordpress RSS parsētājs.

Parser for WordPress var:

1. Parsē datus no saitēm

Jums vienkārši jānorāda saites uz avotu. Ja nav saišu, tās var savākt parsētājs. Norādiet ceļu uz vietnes karti, un satvērējs savāks visas saites. Vai arī varat savākt saites no jebkura html lapas. Saites var filtrēt pēc vēlamajiem kritērijiem. Ir divi saišu filtri, ar kuriem var mainīt parsēšanas nosacījumus. Pieredzējuši lietotāji paši var izveidot parsēšanas makro, kas padara parsētāju ļoti elastīgu, lai tas atbilstu viņu vajadzībām.

2. Parsē RSS plūsmas datus

Šeit viss ir vienkārši, ievadiet vajadzīgās plūsmas URL un noklikšķiniet uz Sākt parsēšanu.
Viens no iespējamajiem Wordpress parsētāja izmantošanas veidiem ir ziņu sleju aizpildīšana jūsu vietnē, izmantojot tādus informācijas avotus kā emuāri, RSS plūsmas, VKontakte lapas utt. Konkurenti - WP-O-Matic, FeedWordPress, CyberSyn.