Yandex meklētājprogramma, kas jauns. Yandex - kas ir Yandex un kāpēc to sauc par Yandex. Meklēšanas sistēmas sastāvs un darbības principi

Tie jau sen ir kļuvuši par Krievijas interneta neatņemamu sastāvdaļu. Meklētājprogrammas tagad ir milzīgi un sarežģīti mehānismi, kas ir ne tikai informācijas meklēšanas rīks, bet arī vilinošas uzņēmējdarbības jomas.

Lielākā daļa meklētājprogrammu lietotāju nekad nav domājuši (vai domājuši par to, bet neatrada atbildi) par meklētājprogrammu darbības principu, par lietotāju pieprasījumu apstrādes shēmu, par to, no kā šīs sistēmas sastāv un kā tās darbojas...

Šī meistarklase ir paredzēta, lai atbildētu uz jautājumu, kā darbojas meklētājprogrammas. Tomēr šeit jūs neatradīsiet faktorus, kas ietekmē dokumentu ranžēšanu. Turklāt jums nevajadzētu paļauties uz detalizētu Yandex algoritma skaidrojumu. Viņu, pēc Yandex meklētājprogrammas tehnoloģiju un attīstības direktora Iļjas Segaloviča domām, “spīdzinot” var atpazīt tikai pats Iļja Segalovičs...

2. Meklētājprogrammas jēdziens un funkcijas

Meklēšanas sistēma ir programmatūras un aparatūras komplekss, kas paredzēts, lai meklētu internetā un atbildētu uz lietotāja pieprasījumu, kas norādīts teksta frāzes (meklēšanas vaicājuma) veidā, izveidojot saišu sarakstu uz informācijas avotiem atbilstoši atbilstības secībai ( saskaņā ar pieprasījumu). Lielākās starptautiskās meklētājprogrammas: "Google", Yahoo , MSN . Krievijas internetā tie ir Yandex, Rambler, Aport.

Sīkāk apskatīsim meklēšanas vaicājuma jēdzienu, kā piemēru izmantojot Yandex meklētājprogrammu. Meklēšanas vaicājums lietotājam ir jāformulē atbilstoši tam, ko viņš vēlas atrast, pēc iespējas īsi un vienkāršāk. Pieņemsim, ka vēlamies Yandex atrast informāciju par to, kā izvēlēties automašīnu. Lai to izdarītu, atveriet Yandex galveno lapu un ievadiet meklēšanas vaicājuma tekstu “kā izvēlēties automašīnu”. Tālāk mūsu uzdevums ir atvērt pēc mūsu pieprasījuma sniegtās saites uz informācijas avotiem internetā. Tomēr ir pilnīgi iespējams, ka mēs neatradīsim vajadzīgo informāciju. Ja tā notiek, vai nu jums ir jāpārfrāzē savs pieprasījums, vai arī meklētājprogrammas datu bāzē tiešām nav nekādas būtiskas informācijas par mūsu pieprasījumu (tas var notikt, uzdodot ļoti “šaurus” vaicājumus, piemēram, “kā izvēlēties automašīna Arhangeļskā)

Jebkuras meklētājprogrammas galvenais mērķis ir sniegt cilvēkiem tieši to informāciju, ko viņi meklē. Un iemācīt lietotājiem veikt “pareizus” pieprasījumus sistēmai, t.i. vaicājumi, kas atbilst meklētājprogrammu darbības principiem, nav iespējami. Tāpēc izstrādātāji veido meklētājprogrammu algoritmus un darbības principus, kas ļautu lietotājiem atrast meklēto informāciju.

Tas nozīmē, ka meklētājprogrammai ir “jādomā” tāpat kā lietotājs domā, meklējot informāciju. Kad lietotājs iesniedz pieprasījumu meklētājprogrammai, viņš vēlas pēc iespējas ātrāk un vienkāršāk atrast vajadzīgo. Saņemot rezultātu, viņš novērtē sistēmas darbību, vadoties pēc vairākiem pamatparametriem. Vai viņš atrada to, ko meklēja? Ja viņš to neatrada, cik reizes viņam bija jāpārfrāzē vaicājums, lai atrastu to, ko viņš meklē? Cik daudz atbilstošas informācijas viņš varēja atrast? Cik ātri meklētājprogramma apstrādāja vaicājumu? Cik ērti tika parādīti meklēšanas rezultāti? Vai rezultāts, kuru meklējāt, bija pirmais vai simtais? Cik daudz nevajadzīgu atkritumu tika atrasts kopā ar noderīgu informāciju? Vai, piekļūstot meklētājam, nepieciešamā informācija tiks atrasta, teiksim, nedēļas vai mēneša laikā?

Lai visus šos jautājumus apmierinātu ar atbildēm, meklētājprogrammu izstrādātāji nepārtraukti pilnveido meklēšanas algoritmus un principus, pievieno jaunas funkcijas un iespējas un visos iespējamos veidos cenšas paātrināt sistēmas darbību.

3. Meklētājprogrammas galvenās īpašības

Aprakstīsim meklētājprogrammu galvenās īpašības:

Pilnīgums
Pilnīgums ir viens no galvenajiem meklēšanas sistēmas raksturlielumiem, kas ir pēc pieprasījuma atrasto dokumentu skaita attiecība pret kopējo internetā esošo dokumentu skaitu, kas apmierina doto pieprasījumu. Piemēram, ja internetā ir 100 lapas, kurās ir frāze “kā izvēlēties automašīnu”, un tikai 60 no tām tika atrastas atbilstošajam vaicājumam, tad meklēšanas pilnība būs 0,6. Acīmredzot, jo pilnīgāka meklēšana, jo mazāka iespējamība, ka lietotājs neatradīs sev vajadzīgo dokumentu, ja vien tas internetā vispār eksistē.
Precizitāte
Precizitāte ir vēl viena galvenā meklētājprogrammas īpašība, ko nosaka tas, cik lielā mērā atrastie dokumenti atbilst lietotāja vaicājumam. Piemēram, ja vaicājumā "kā izvēlēties automašīnu" ir 100 dokumenti, 50 no tiem satur frāzi "kā izvēlēties automašīnu", bet pārējie vienkārši satur šos vārdus ("kā izvēlēties pareizo radio un uzstādīt to automašīna”), tad meklēšanas precizitāte tiek uzskatīta par 50/100 (=0,5). Jo precīzāka meklēšana, jo ātrāk lietotājs atradīs sev nepieciešamos dokumentus, jo mazāk starp tiem tiks atrasti dažāda veida “atkritumi”, jo retāk atrastie dokumenti neatbilst pieprasījumam.
Atbilstība
Tikpat svarīga meklēšanas sastāvdaļa ir atbilstība, ko raksturo laiks, kas paiet no dokumentu publicēšanas brīža internetā līdz to ievadīšanai meklētājprogrammas indeksu datubāzē. Piemēram, nākamajā dienā pēc interesantu ziņu parādīšanās liels skaits lietotāju vērsās pie meklētājprogrammām ar atbilstošiem vaicājumiem. Objektīvi, kopš ziņu informācijas publicēšanas par šo tēmu ir pagājusi nepilna diena, taču galvenie dokumenti jau ir indeksēti un pieejami meklēšanai, pateicoties tā dēvētajai lielo meklētājprogrammu “ātrās datubāzes” esamībai, kas tiek atjaunināts vairākas reizes dienā.
Meklēšanas ātrums
Meklēšanas ātrums ir cieši saistīts ar tā slodzes pretestību. Piemēram, saskaņā ar Rambler Internet Holding LLC datiem, šodien darba laikā Rambler meklētājprogramma saņem aptuveni 60 pieprasījumus sekundē. Šāda darba slodze prasa samazināt individuāla pieprasījuma apstrādes laiku. Šeit sakrīt lietotāja un meklētājprogrammas intereses: apmeklētājs vēlas iegūt rezultātus pēc iespējas ātrāk, un meklētājprogrammai pieprasījums ir jāapstrādā pēc iespējas ātrāk, lai nepalēninātu turpmāko vaicājumu aprēķinu.
Redzamība

4. Īsa meklētājprogrammu attīstības vēsture

Interneta attīstības sākuma periodā tā lietotāju skaits bija neliels, un pieejamās informācijas apjoms bija salīdzinoši neliels. Lielākoties tikai pētnieku darbiniekiem bija piekļuve internetam. Tolaik informācijas meklēšanas uzdevums internetā nebija tik steidzams kā tagad.

Viens no pirmajiem veidiem, kā organizēt piekļuvi tīkla informācijas resursiem, bija atvērtu vietņu direktoriju izveide, saites uz resursiem, kas tika sagrupētas atbilstoši tēmām. Pirmais šāds projekts bija Yahoo.com vietne, kas tika atvērta 1994. gada pavasarī. Pēc tam, kad katalogā ievērojami palielinājās vietņu skaits, tika pievienota iespēja meklēt nepieciešamo informāciju katalogā. Pilnā nozīmē tā vēl nebija meklētājprogramma, jo meklēšanas apgabals bija ierobežots tikai ar katalogā esošajiem resursiem, nevis visiem interneta resursiem.

Saišu katalogi tika plaši izmantoti pagātnē, taču šobrīd tie ir gandrīz pilnībā zaudējuši savu popularitāti. Tā kā pat mūsdienu katalogi, kuru apjoms ir milzīgs, satur informāciju tikai par niecīgu interneta daļu. Lielākais DMOZ tīkla direktorijs (saukts arī par Open Directory Project) satur informāciju par 5 miljoniem resursu, savukārt Google meklētājprogrammas datu bāze sastāv no vairāk nekā 8 miljardiem dokumentu.

1995. gadā parādījās meklētājprogrammas Lycos un AltaVista. Pēdējais jau daudzus gadus ir līderis informācijas meklēšanas jomā internetā.

1997. gadā Sergejs Brins un Lerijs Peidžs izveidoja Google meklētājprogrammu Stenfordas universitātes pētniecības projekta ietvaros. Google šobrīd ir populārākā meklētājprogramma pasaulē!

1997. gada septembrī oficiāli tika paziņots par Yandex meklētājprogrammu, kas ir vispopulārākā krievu valodā internetā.

Šobrīd ir trīs galvenās meklētājprogrammas (starptautiskās) – Google, Yahoo un, kurām ir savas datu bāzes un meklēšanas algoritmi. Lielākā daļa citu meklētājprogrammu (kuru ir liels skaits) vienā vai otrā veidā izmanto trīs uzskaitīto rezultātus. Piemēram, AOL meklēšana (search.aol.com) izmanto Google datu bāzi, bet AltaVista, Lycos un AllTheWeb izmanto Yahoo datu bāzi.

5. Meklēšanas sistēmas sastāvs un darbības principi

Krievijā galvenā meklētājprogramma ir Yandex, kam seko Rambler.ru, Google.ru, Aport.ru, Mail.ru. Turklāt šobrīd Mail.ru izmanto Yandex meklētājprogrammu un datu bāzi.

Gandrīz visām lielākajām meklētājprogrammām ir sava struktūra, kas atšķiras no citām. Tomēr ir iespējams identificēt galvenās sastāvdaļas, kas ir kopīgas visām meklētājprogrammām. Atšķirības struktūrā var būt tikai šo komponentu mijiedarbības mehānismu īstenošanas veidā.

Indeksēšanas modulis

Indeksēšanas modulis sastāv no trim palīgprogrammām (robotiem):

Spider ir programma, kas paredzēta tīmekļa lapu lejupielādei. Zirneklis lejupielādē lapu un izgūst visas iekšējās saites no šīs lapas. Katras lapas html kods tiek lejupielādēts. Lai lejupielādētu lapas, roboti izmanto HTTP protokolus. Zirneklis darbojas šādi. Robots serverim nosūta pieprasījumu “get/path/document” un dažas citas HTTP pieprasījuma komandas. Atbildot uz to, robots saņem teksta straumi ar pakalpojuma informāciju un pašu dokumentu.

Lapas URL
datums, kad lapa tika lejupielādēta
Servera atbildes http galvene
lapas pamatteksts (html kods)

Crawler (“ceļojošais” zirneklis) ir programma, kas automātiski seko visām lapā atrodamajām saitēm. Atlasa visas lapā esošās saites. Tās uzdevums ir noteikt, kur zirneklim vajadzētu doties tālāk, pamatojoties uz saitēm vai iepriekš noteiktu adrešu sarakstu. Rāpuļprogramma, sekojot atrastajām saitēm, meklē jaunus dokumentus, kas meklētājprogrammai joprojām nav zināmi.

Indexer (robotu indeksētājs) ir programma, kas analizē zirnekļu lejupielādētās tīmekļa lapas. Indeksētājs parsē lapu tā sastāvdaļās un analizē tās, izmantojot savus leksiskos un morfoloģiskos algoritmus. Tiek analizēti dažādi lapas elementi, piemēram, teksts, virsraksti, saites, strukturālās un stila iezīmes, speciālo pakalpojumu HTML tagi utt.

Tādējādi indeksēšanas modulis ļauj pārmeklēt noteiktu resursu kopu, izmantojot saites, lejupielādēt atrastās lapas, iegūt saites uz jaunām lapām no saņemtajiem dokumentiem un veikt pilnīgu šo dokumentu analīzi.

Datu bāze

Datubāze jeb meklētājprogrammas indekss ir datu glabāšanas sistēma, informācijas masīvs, kurā tiek glabāti visu indeksēšanas modulī lejupielādēto un apstrādāto dokumentu īpaši pārveidotie parametri.

Meklēt serveri

Meklēšanas serveris ir vissvarīgākais visas sistēmas elements, jo meklēšanas kvalitāte un ātrums ir tieši atkarīgs no algoritmiem, kas ir tā darbības pamatā.

Meklēšanas serveris darbojas šādi:

No lietotāja saņemtais pieprasījums tiek pakļauts morfoloģiskai analīzei. Tiek ģenerēta katra datubāzē esošā dokumenta informācijas vide (kas pēc tam tiks parādīta formā, tas ir, teksta informācija, kas atbilst pieprasījumam meklēšanas rezultātu lapā).
Saņemtie dati tiek nodoti kā ievades parametri īpašam ranžēšanas modulim. Dati tiek apstrādāti par visiem dokumentiem, kā rezultātā katram dokumentam ir savs vērtējums, kas raksturo lietotāja ievadītā vaicājuma atbilstību un meklētājprogrammas rādītājā saglabātajām dažādajām šī dokumenta sastāvdaļām.
Atkarībā no lietotāja izvēles šis vērtējums var tikt pielāgots ar papildu nosacījumiem (piemēram, tā sauktā “izvērstā meklēšana”).
Tālāk tiek ģenerēts fragments, tas ir, katram atrastajam dokumentam no dokumentu tabulas tiek izvilkts nosaukums, īsa kopsavilkums, kas vislabāk atbilst vaicājumam, un saite uz pašu dokumentu, un atrastie vārdi tiek izcelti.
Iegūtie meklēšanas rezultāti tiek pārsūtīti lietotājam SERP (Search Engine Result Page) formā – meklēšanas rezultātu lapa.

Kā redzat, visas šīs sastāvdaļas ir cieši saistītas viena ar otru un darbojas mijiedarbībā, veidojot skaidru, diezgan sarežģītu meklēšanas sistēmas darbības mehānismu, kas prasa milzīgus resursus.

6. Secinājums

Tagad apkoposim visu iepriekš minēto.

Jebkuras meklētājprogrammas galvenais mērķis ir sniegt cilvēkiem tieši to informāciju, ko viņi meklē.
Galvenās meklētājprogrammu īpašības:
1. Pilnīgums
2. Precizitāte
3. Atbilstība
4. Meklēšanas ātrums
5. Redzamība
Pirmā pilnvērtīgā meklētājprogramma bija WebCrawler projekts, kas tika publicēts 1994. gadā.
Meklēšanas sistēma ietver šādas sastāvdaļas:
1. Indeksēšanas modulis
2. Datu bāze
3. Meklēt serveri

Mēs ceram, ka mūsu meistarklase ļaus jums tuvāk iepazīties ar meklētājprogrammas jēdzienu un labāk izprast meklētājprogrammu galvenās funkcijas, īpašības un darbības principus.

Sveiki dārgie draugi! Šajā rakstā mēs turpināsim apskatīt Yandex meklētājprogrammu, un, kā jūs atceraties, iepriekšējos rakstos mēs apspriedām šī lieliskā uzņēmuma izveides vēsturi, kas ieņem pirmo vietu starp saviem konkurentiem Krievijā un ārpus tās.

Tas viss ir labi, taču iesācējus un pieredzējušus vietņu veidotājus interesē pats svarīgākais jautājums, protams, kas saistīts ar to, kā savus projektus izvirzīt TOP meklēšanas rezultātu pirmajās vietās.

Tāpēc apskatīsim, kā darbojas Yandex meklētājprogramma, lai saprastu, uz kādām kļūdām varat pieļauties un ko vispār sagaidīt no Krievijas meklētājprogrammas.

Pēdējā rakstā mēs apspriedām. Tēma izrādījās diezgan interesanta un noderīga. Tāpēc nolēmu to papildināt, padziļināt, tā teikt.

Tāpēc es, iespējams, mazliet aizrāvos ar jautājumu “Kāpēc meklētājprogramma indeksē dokumentus”? Atliek tikai izdomāt jautājumu “kā”.

Vietņu ranžēšanas algoritmi

Vispirms iepazīsimies ar dažiem algoritmiem, kas ir būtiski jebkurai meklētājprogrammai:

— Tiešās meklēšanas algoritms.

Kas tas ir - jūs atceraties, ka kādā no grāmatām lasījāt brīnišķīgu stāstu. Un tu sāc meklēt pa vienam. Viņi paņēma vienu grāmatu, izskatīja to, neatrada, paņēma citu... Princips ir skaidrs, bet šī metode ir ārkārtīgi gara. Tas arī ir saprotams.

— apgrieztās meklēšanas algoritms.

Šim algoritmam no katras jūsu emuāra lapas tiek izveidots teksta fails. Šajā failā alfabētiskā secībā ir uzskaitīti VISI jūsu izmantotie vārdi. Pat šī vārda pozīcija tekstā ir norādīta (koordinātas tekstā).

Šī ir diezgan ātra metode, taču meklēšana jau notiek ar zināmu kļūdu.

Šeit galvenais ir saprast, ka šis algoritms neveic meklēšanu internetā, nevis meklējot emuārā. Un atsevišķā teksta failā, kas tika izveidots jau sen. Kad robots ieradās pie jums. Un šie faili (reversie indeksi) tiek glabāti Yandex serveros.

Tātad šie bija pamata meklēšanas algoritmi. Tie. kā Yandex vienkārši atrod nepieciešamos dokumentus. Šķiet, ka ar šo problēmu nevajadzētu būt.

Bet Yandex zina vairāk nekā vienu vai pat 100 dokumentus, bet saskaņā ar jaunākajiem datiem no maniem avotiem Yandex zina apmēram 11 miljardus dokumentu (10 727 736 489 lappuses).

Un starp visu šo daudzumu jums ir jāizvēlas dokumenti, kas atbilst pieprasījumam. Un, kas ir vēl svarīgāk, jums tie kaut kā jāsakārto. Tie. sakārtot pēc svarīguma pakāpes, pareizāk sakot, pēc lietderības pakāpes lasītājam.

Matemātiskie meklēšanas modeļi

Lai atrisinātu šo problēmu, palīgā nāk matemātiskie modeļi. Tagad mēs runāsim par vienkāršākajiem modeļiem.

Būla matemātiskais modelis– Ja dokumentā parādās vārds, dokuments tiek uzskatīts par atrastu. Tikai sakritība un nekas sarežģīts.

Bet šeit ir problēmas. Piemēram, ja jūs kā lietotājs ievadīsit kādu populāru vārdu vai, vēl labāk, prievārdu “v”, kas ir visizplatītākais vārds krievu valodā un ir atrodams KATRĀ dokumentā, tad jums tiks dota tik daudz rezultātu. ka tu pat nenojaut tādu ciparu, Cik dokumentu atradi? Tāpēc parādījās šāds paklājiņa modelis.

Vektoru matemātiskais modelis– šis modelis nosaka dokumenta “svaru”. Ne tikai sakritība notiek, bet vārdam ir jāatkārtojas vairākas reizes. Turklāt, jo vairāk vārds parādās, jo augstāka ir atbilstība (atbilstība).

Tas ir vektora modelis, ko izmanto VISAS meklētājprogrammas.

Varbūtības modelis- sarežģītāks. Princips ir šāds: meklētājprogramma pati atrada lapas veidni. Piemēram, jūs meklējat informāciju par Yandex vēsturi. Yandex glabā kaut kādus standartus, pieņemsim, ka šis būs mans iepriekšējais raksts par Yandex.

Un viņš salīdzinās visus citus dokumentus ar šo rakstu. Un loģika šeit ir šāda: jo līdzīgāka jūsu emuāra lapa ir manam rakstam, jo lielāka iespēja, ka jūsu emuāra lapa būs noderīga arī lasītājam un arī pastāstīs par Yandex vēsturi.

Lai samazinātu to dokumentu skaitu, kuri jāparāda lietotājam, tika ieviests atbilstības jēdziens, t.i. atbilstība.

Cik jūsu emuāra lapa atbilst tēmai? Šī ir svarīga tēma, kad runa ir par meklēšanas kvalitāti.

Vērtētāji – kas viņi ir un par ko viņi ir atbildīgi?

Šī atbilstība ir nepieciešama arī, lai novērtētu algoritmu kvalitāti.

Šim nolūkam ir speciālo spēku štābs - tos sauc par vērtētājiem. Tie ir īpaši cilvēki, kuri meklē meklēšanas rezultātus ar rokām.

Viņiem ir norādījumi par to, kā pārbaudīt vietnes, kā novērtēt utt. Un viņi manuāli nosaka, vai jūsu lapas ir piemērotas meklēšanas vaicājumiem.

Un meklēšanas algoritmu kvalitāte ir atkarīga no vērtētāju viedokļa. Ja visi vērtētāji saka, ka meklēšanas rezultāti neatbilst pieprasījumiem, tas nozīmē, ka ranžēšanas algoritms ir nepareizs un vainīgs ir tikai Yandex.

Ja vērtētāji saka, ka tikai viena vietne neatbilst pieprasījumam, tas nozīmē, ka vietne lido kaut kur tālu un meklēšanas rezultātos ir pazemināta. Precīzāk, ne visa vietne, bet tikai viens raksts, taču tas nav “jēga”.

Protams, vērtētāji nevar pārskatīt un novērtēt VISUS rakstus ar rokām un acīm. Tas ir saprotams.

Un citi parametri, pēc kuriem lapas tiek sarindotas, nāk palīgā.

To ir daudz, piemēram:

lapas svars (vIC, PageRank, mazuļa pumpiņas Visā visumā);
domēna autoritāte;
teksta atbilstība pieprasījumam;
ārējo saišu tekstu atbilstība vaicājumam;
kā arī daudzi citi ranžēšanas faktori.

Vērtētāji sniedz komentārus, un cilvēki, kas ir atbildīgi par matemātiskā ranžēšanas modeļa uzstādīšanu, savukārt rediģē formulu, kā rezultātā meklētājprogramma darbojas efektīvāk.

Galvenie kritēriji formulas veiktspējas novērtēšanai:

1. Meklētājprogrammu rezultātu precizitāte- pieprasījumam atbilstošo dokumentu procentuālā daļa (attiecīgi). Tie. Jo mazāk lapu, kas neatbilst pieprasījumam, jo labāk.

2. Meklētājprogrammas rezultātu pilnīgums- šī ir attiecīgā vaicājuma atbilstošo tīmekļa lapu attiecība pret kopējo atbilstošo dokumentu skaitu kolekcijā (meklētājprogrammā atrasto lapu kopums).

Piemēram, ja visā kolekcijā ir vairāk atbilstošo lapu nekā meklēšanas rezultātos, tas nozīmē, ka rezultāti ir nepilnīgi. Tas notika tāpēc, ka dažas no attiecīgajām tīmekļa lapām tika filtrētas.

3. Meklētājprogrammu rezultātu atbilstība- tā ir mājas lapas atbilstība fragmentā rakstītajam. Piemēram, dokuments var būt ļoti atšķirīgs vai vispār nepastāvēt, bet joprojām atrasties meklēšanas rezultātos.

Meklēšanas rezultātu atbilstība ir tieši atkarīga no tā, cik bieži meklēšanas robots skenē dokumentus no savas kolekcijas.

Kolekciju vākšanu (vietņu lapu indeksēšanu) veic īpaša programma - meklēšanas robots.

Meklēšanas robots saņem indeksēšanai paredzēto adrešu sarakstu, nokopē tās un pēc tam nokopēto tīmekļa lapu saturu nosūta apstrādei uz algoritmu, kas tos pārvērš reversos indeksos.

Nu, “īsumā”, tā sakot, mēs apspriedām meklētājprogrammas principus.

Apkoposim:

Meklēšanas robots ierodas jūsu emuārā.
Meklēšanas robots saglabā lapas apgriezto indeksu turpmākajiem meklējumiem.
Izmantojot matemātisko modeli, dokuments tiek apstrādāts un parādīts meklēšanas rezultātos, izmantojot formulas un ņemot vērā vērtētāja viedokli.

Tas ir ļoti, ļoti vienkāršoti. Tikai, lai iegūtu pamata izpratni par Yandex meklētājprogrammas darbību.

Tagad esmu uzrakstījis tik daudz teksta, un varbūt tik daudz nav skaidrs. Tāpēc es iesaku atgriezties pie šī raksta nedaudz vēlāk un noskatīties šo video.

Šis ir lielisks ceļvedis, no kura savulaik arī mācījos.

Ceru, ka šī informācija palīdzēs jums labāk izprast, kāpēc kāda no jūsu vietnēm ieņem atbilstošas pozīcijas meklējumos, un darīs visu, lai tās uzlabotu.

Ar to es atvados no jums, ja jums ir kādi jautājumi, es vienmēr ar prieku atbildēšu uz tiem komentāros. Vai varbūt vēlaties papildināt rakstu?

Jebkurā gadījumā izsakiet savu viedokli. !

Mēs neesam tik unikāli, kā domājam: miljoniem cilvēku pirms mums ir neizpratnē un miljoniem pēc mums meklētājprogrammu izjauks ar gandrīz identiskiem jautājumiem. No otras puses, mēs esam pārāk neprognozējami: mūsu pieprasījuma formulēšanu ietekmē ļoti daudz faktoru, par kuriem mēs nezinām. Un vismaz šī iemesla dēļ mūsu katra lūgums, lai cik banāls tas būtu, prasa individuālu pieeju.

Patiesībā viss Yandex meklētājprogrammas darbs ir saistīts ar divām vienkāršām lietām: saprast, ko cilvēks patiešām vēlas uzzināt, un dažu sekunžu laikā atrast piemērotus starp miljardiem dokumentu internetā.

Paņemiet pirkstu nospiedumus

Meklētājprogrammas operētājsistēma ir nedaudz līdzīga Matrix, un meklēšanas robots (tā izveidotā sarežģīta, neatkarīgi lēmumu pieņemšanas programma) ir līdzīgs aģentam Smitam.

Lai nemeklētu visu internetu katru reizi, kad kādam kaut kas jāzina, meklētājprogramma daļu darba veic iepriekš – tā pārbauda, kas ir tīmeklī un kur tas atrodas, izmantojot tūkstošiem meklēšanas robotu. Tie ir divu veidu: pamata un ātri. Galvenais pārmeklē un apstrādā internetu kopumā, bet ātrais - dokumentus, kas parādījās pirms minūtes vai pat pāris sekundēm. Robotu programmu uzdevums ir atlasīt lietotājiem piemērotu un noderīgu informāciju, to apstrādāt, atsijājot visu novecojušo un nevajadzīgo. Savā ziņā tas atgādina atkritumu šķirošanu: papīrs vienā konteinerā, stikls citā, plastmasa trešajā, pārtikas atkritumi ceturtajā...

Robotu savāktā informācija veido tā saukto interneta cast. Tas tiek glabāts tūkstošiem Yandex serveru un tiek pastāvīgi atjaunināts. Naglats ir kā saraksts, kas norāda, kur kādu informāciju atrast. Šajā sarakstā katram atslēgvārdam ir nevis viena, bet miljoniem “lapu”. Lai nodrošinātu, ka visi tīrradņu atjauninājumi ir pieejami lietotājiem, tie tiek pārvietoti no repozitorija uz "bāzes meklēšanu". Dati no galvenā robota tiek pārsūtīti ik pēc dažām dienām, bet no ātrā robota - reāllaikā.

Pienes tīram ūdenim

ILUSTRĀCIJA: EVGENY TONKONOGY

Meklējot atbildi uz doto jautājumu sagatavotā datubāzē, iekārta saskaras ar divām galvenajām grūtībām. Pirmā grūtība ir valoda. Pirms meklēt atbildi uz jautājumu, iekārtai ir svarīgi saprast, kādā valodā tas jādara. Piemēram, krievvalodīgam cilvēkam, meklējot “Prinča Igora pulks”, tiks atrasti dokumenti ar informāciju par armiju, savukārt ukrainim “Prinča Igora pulks” atgriezīs arī dokumentus, kuros minēta viņa sieva princese Olga, kopš. ukraiņu valodā “sieva” ir “squad”. Un bagātajā krievu valodā viens un tas pats vārds vai tā atvasinājumi var nozīmēt dažādas lietas. Piemēram, vārds “tērauds” ir viena no lietvārda “tērauds” un darbības vārda “kļūt” formām. Otrā grūtība ir cilvēka psiholoģija. Ievadot pieprasījumu, mēs sagaidām ātru un precīzu atbildi, dabiski neuztraucoties par to, vai pieprasījuma formulējums atbilst matemātiskās analīzes principiem, pēc kuriem strādā mašīnas smadzenes. Piemēram, meklēšanas joslā ievadot vārdu “Napoleons”, ko cilvēks vēlas iegūt: kūkas recepti vai Francijas imperatora biogrāfiju, nopirkt konjaku vai atrast psihiatriskās slimnīcas adresi?

Šādās situācijās tiek izmantotas vairākas tehnoloģijas. Zem meklēšanas joslas varat sniegt vairākus padomus, kas norādīs jūsu pieprasījumu. Piemēram, izvēlieties to, kas jums nepieciešams: Napoleona receptes vai Napoleons - Bonaparts. Ja lietotājs nereaģē uz iekārtas pieprasījumu un nepievieno vārdus “Napoleonam”, tad tam palīdz tehnoloģija “Spectrum”: necerot uz palīdzību, iekārta nekavējoties meklē informāciju vairākās kategorijās (par kūku, un par imperatoru, un par zirgu). ..). Turklāt personalizācijas mehānismi palīdz izprast lietotāju – mašīnas zināšanas par to, ko šis lietotājs meklēja savā datorā pirms dienas, diviem, trim vai mēnešiem: ja bieži uzdevāt Yandex jautājumus par ēdienu gatavošanu, tad mašīna vispirms parādīs jūs rezultātus, kas saka, ka Napoleons ir kūka.

Kombinācijas: interešu klubi

Meklētājprogrammas uzdevums nav vienkārši atlasīt dokumentus, kas satur vārdus un frāzes no meklēšanas vaicājuma. Iekārtai ir jāsaprot, kuri dokumenti atbilst mūsu pretrunīgajām prasībām un kāpēc tie tām atbilst. Vai mēs vēlamies iegūt informāciju par Napoleona kūku, vai varbūt pāris gadus apmeklējām fitnesa klubu ar pretenciozu nosaukumu, vai pat esam pilnībā noraizējušies par maza auguma cilvēku kompleksiem. Jebkurā gadījumā problēmas risināšanai nepieciešama netriviāla pieeja.

Yandex meklēšanas programmas veidotāji atrada šo pieeju, deleģējot mašīnai izvēles tiesības. No vienas puses, bez dvēseles, bet ļoti ātra un gudra mašīna neko nezina un negrib zināt par mums kā indivīdiem, no otras puses, tā cenšas uzzināt pēc iespējas vairāk par visiem.

Papildus lietotāja ģeogrāfiskajai atrašanās vietai un viņa vaicājumu lingvistiskajai analīzei meklētājprogramma izmanto vairākus tūkstošus kritēriju, kas cilvēkiem nemaz nav acīmredzami.

Viltība ir tāda, ka iekārta šos kritērijus izstrādā un atjaunina neatkarīgi.

Tas vienkārši izmanto datus par miljoniem cilvēku vēlmēm un lietotāju uzvedību un saista šo “vidējo aritmētisko” ar mūsu vaicājumu vēsturi. Principi, kas virza Matricu sevī, salīdzinot tūkstošiem tās izstrādāto lietotāju interešu kategoriju, bieži vien neatbilst tradicionālajiem cilvēku priekšstatiem par to, kas principā var būt “intereses”. Viņu ir desmitiem tūkstošu. Viņi savā starpā veido dažādas, reizēm smieklīgas kombinācijas. Piemēram, viena no šīm kombinācijām varētu būt tāda, ka meklēšanas rezultāti atbilst tās personas interesēm, kura audzē tritonus. Tajā pašā laikā cilvēks ne tikai interesējas par tritoniem, bet jau tos audzē, bet tikai pirmo gadu.

Vērtējumi. Palīdzīgas rokas

Matrica, protams, pati izlemj (ar augstākās matemātikas palīdzību), kas un kādā secībā ir jāparāda lietotājiem, pamatojoties uz desmitiem tūkstošu kritēriju. Taču Matrix izmanto arī dzīvos cilvēkus – 1000 Yandex darbinieku, tā sauktie vērtētāji, izvērtē meklēšanas rezultātus konkrētam pieprasījumam (protams, ne katrs pieprasījums tiek izvērtēts, un tas netiek darīts arī reāllaikā), lai noteiktu, vai viņi atbilst pieprasījumam. parasta lietotāja cerības: ne tik racionālas kā mašīna, ne tik precīzs formulējumā, pretrunīgas un emocionālas.

Labdien, dārgie mana SEO emuāra lasītāji. . Šis raksts ir par kā darbojas Yandex meklētājprogramma kādas tehnoloģijas un algoritmus tas izmanto vietņu ranžēšanai un ko tas dara, lai sagatavotu atbildi lietotājiem. Daudzi cilvēki zina, ka šis Krievijas meklēšanas flagmanis nosaka Runet toni, tam pieder lielākā datubāze Eirāzijā, tas apstrādā vairāk nekā miljarda lappušu saturu un zina atbildi uz jebkuru jautājumu. Saskaņā ar Liveinternet datiem par 2012. gada augustu Yandex daļa Krievijā ir 60,5%. Portāla mēneša auditorija ir 48,9 miljoni cilvēku. Bet mums, emuāru autoriem, vissvarīgākais ir tas, kā meklētājprogramma saņem mūsu pieprasījumus, kā tā tos apstrādā un kāds ir rezultāts. No vienas puses, zinot un saprotot šo informāciju, mums ir vieglāk izmantot visus Yandex resursus, no otras puses, ir vieglāk reklamēt mūsu emuārus. Tāpēc es ierosinu kopā ar mani apskatīt labākās Runet meklētājprogrammas svarīgākās tehnoloģijas.

Kad interneta lietotājs vispirms vēlas vērsties meklētājprogrammā, lai iegūtu informāciju, viņam var rasties viens jautājums: "Kā darbojas meklēšana?" Bet, kad viņš to saņem, šis jautājums bieži mainās uz citu: "Kāpēc tik ātri?" Un tiešām, kāpēc faila meklēšana datorā aizņem 20 sekundes, un pieprasījuma rezultāts no visa datoru tīkla visā pasaulē parādās sekundē? Interesantākais ir tas, ka uz pirmajiem diviem jautājumiem (kā notiek meklēšana un kāpēc 1 sekunde) var atbildēt vienā atbildē - meklētājprogramma ir iepriekš sagatavojusies lietotāja pieprasījumam.

Lai saprastu Yandex, tāpat kā citu meklētājprogrammu, darbības principu, zīmēsim analoģiju ar tālruņu katalogu. Lai atrastu jebkuru tālruņa numuru, ir jāzina abonenta uzvārds, un jebkura meklēšana šajā gadījumā aizņem ne vairāk kā minūti, jo visas direktorijas lapas ir nepārtraukts alfabētiskais rādītājs. Bet iedomājieties, ja meklēšana tiktu veikta, izmantojot citu opciju, kur tālruņu numuri tika sakārtoti pēc pašiem numuriem. Pēc šādiem meklējumiem, kas ievilksies ilgāku laiku, skaitļi meklētāja acu priekšā paliks ļoti ilgi. 🙂

Tāpat meklētājprogramma parāda visu informāciju no interneta sev ērtā formā. Un pats galvenais, visi šie dati tiek ievietoti viņas direktorijā iepriekš, pirms apmeklētājs ierodas ar saviem pieprasījumiem. Tas ir, kad mēs uzdodam Yandex jautājumu, tas jau zina mūsu atbildi. Un dod mums to sekundē. Bet šī otrā ietver vairākus svarīgus procesus, kurus mēs tagad apsvērsim sīkāk.

Interneta indeksācija

Yandex ru apkopo visu informāciju, ko tā var iegūt internetā. Izmantojot speciālu aprīkojumu, tiek pārskatīts viss saturs, arī attēli pēc vizuālajiem parametriem. Meklētājprogramma nodarbojas ar šādu vākšanu, un datu vākšanas un sagatavošanas procesu sauc par indeksēšanu. Šādas mašīnas pamatā ir datorsistēma, ko citādi sauc par meklēšanas robotu. Tā regulāri pārmeklē indeksētās vietnes, pārbauda, vai tajās nav jauna satura, kā arī skenē internetā dzēstās lapas. Ja tā atklāj, ka kāda šāda lapa vairs nepastāv vai ir slēgta no indeksēšanas, tā noņem to no meklēšanas.

Kā meklēšanas robots atrod jaunas vietnes? Pirmkārt, pateicoties saitēm no citām vietnēm. Jo, ja saite tiek ievietota jaunā tīmekļa resursā no jau indeksētas vietnes, tad nākamreiz, kad apmeklēsiet otro, robots apmeklēs pirmo. Otrkārt, ir brīnišķīgs pakalpojums, ko tautā sauc par "addurlka" (no frāzes angļu valodā -addurl - pievienojiet adresi). Tajā varat ievadīt savas jaunās vietnes adresi, kuru pēc kāda laika apmeklēs meklēšanas robots. Treškārt, ar speciālas programmas “Yandex.Bar” palīdzību tiek izsekoti to lietotāju apmeklējumi, kuri to izmanto. Attiecīgi, ja cilvēks nonāk jaunā tīmekļa resursā, tur drīz parādīsies robots.

Vai visas lapas ir iekļautas meklēšanā? Katru dienu tiek indeksētas miljoniem lapu. To vidū ir dažādas kvalitātes lapas, kurās var būt dažāda informācija – no unikāla satura līdz pilnīgam atkritumam. Turklāt, kā saka statistika, internetā ir daudz vairāk atkritumu. Meklēšanas robots analizē katru dokumentu, izmantojot īpašus algoritmus. Tas nosaka, vai tajā ir noderīga informācija un vai tā var atbildēt uz lietotāja pieprasījumu. Ja nē, tad šādas lapas netiek pieņemtas kā “kosmonauti”, bet, ja jā, tad tas tiek iekļauts meklēšanā.

Kad robots ir apmeklējis lapu un noskaidrojis tās lietderību, tas parādās meklētājprogrammas krātuvē. Šeit mēs analizējam jebkuru dokumentu līdz pašiem pamatiem, kā saka autocentra meistari - līdz zobratiem. Lapa tiek atbrīvota no html marķējuma, tīrajam tekstam tiek veikta pilna inventarizācija - tiek aprēķināta katra vārda atrašanās vieta. Šajā izjauktajā formā lapa pārvēršas par tabulu ar cipariem un burtiem, ko citādi sauc par indeksu. Tagad neatkarīgi no tā, kas notiek ar tīmekļa resursu, kurā ir šī lapa, tā jaunākā kopija vienmēr ir pieejama meklēšanā. Pat ja vietne vairs nepastāv, tās dokumentu kopijas kādu laiku tiek glabātas internetā.

Katrs rādītājs kopā ar datiem par dokumentu veidiem, kodējumu, valodu kopā ar kopijām veido meklēšanas datubāze . Tas tiek periodiski atjaunināts, tāpēc tas atrodas īpašos serveros, ar kuru palīdzību tiek apstrādāti meklētājprogrammu lietotāju pieprasījumi.

Cik bieži notiek indeksēšanas process? Pirmkārt, tas ir atkarīgs no vietņu veidiem. Pirmā veida tīmekļa resursi ļoti bieži maina savu lapu saturu. Tas ir, kad meklēšanas robots katru reizi ierodas šajās lapās, tajās katru reizi ir atšķirīgs saturs. Nākamajā reizē, izmantojot tos, jūs nevarēsit atrast neko, tāpēc šādas vietnes nav iekļautas rādītājā. Otrs vietņu veids ir datu noliktava, kuras lapās periodiski tiek pievienotas saites uz lejupielādējamiem dokumentiem. Šādas vietnes saturs parasti nemainās, tāpēc robots to apmeklē ārkārtīgi reti. Citas vietnes ir atkarīgas no materiāla atjaunināšanas biežuma. Tas nozīmē sekojošo: jo ātrāk vietnē parādās jauns saturs, jo biežāk ierodas meklēšanas robots. Un prioritāte vispirms tiek dota svarīgākajiem tīmekļa resursiem (piemēram, ziņu vietne ir daudz svarīgāka par jebkuru emuāru).

Indeksēšana ļauj veikt pirmo meklētājprogrammas funkciju – apkopot informāciju par jaunām lapām internetā. Bet Yandex ir arī otra funkcija - atbildes meklēšana uz lietotāja pieprasījumu jau sagatavotā meklēšanas datubāzē.

Yandex gatavo atbildi

Pieprasījuma apstrādes procesu un atbilstošu atbilžu izsniegšanu veic datorsistēma "Metasearch" . Savam darbam tas vispirms apkopo visu ievades informāciju: no kura reģiona tika veikts pieprasījums, kādai klasei tas pieder, vai pieprasījumā nav kļūdu utt. Pēc šādas apstrādes metasearch pārbauda, vai datu bāzē ir tieši tādi paši vaicājumi ar vienādiem parametriem. Ja atbilde ir jā, tad sistēma lietotājam parāda iepriekš saglabātos rezultātus. Ja datu bāzē šāda jautājuma nav, metameklēšana adresē meklēšanas datu bāzi, kurā ir indeksa dati.

Un šeit notiek pārsteidzošas lietas. Iedomājieties, ka ir viens ļoti jaudīgs dators, kurā tiek glabāts viss meklēšanas robotu apstrādātais internets. Lietotājs iestata vaicājumu, un atmiņas šūnās sākas visu vaicājumā iesaistīto dokumentu meklēšana. Atbilde ir atrasta, un visi ir apmierināti. Bet pieņemsim citu gadījumu, kad viņu pamattekstā ir daudz pieprasījumu, kas satur vienus un tos pašus vārdus. Sistēmai katru reizi ir jāiet cauri tām pašām atmiņas šūnām, kas var ievērojami palielināt datu apstrādes laiku. Attiecīgi palielinās laiks, kas var novest pie lietotāja zaudēšanas - viņš vērsīsies pēc palīdzības pie citas meklētājprogrammas.

Lai izvairītos no šādas kavēšanās, visas vietnes indeksa kopijas tiek izplatītas dažādos datoros. Pēc pieprasījuma pārsūtīšanas metasearch uzdod šādiem serveriem meklēt savu teksta daļu. Pēc tam visi dati no šīm mašīnām tiek atgriezti centrālajā datorā, tas apvieno visus iegūtos rezultātus un sniedz lietotājam desmit labākās atbildes. Izmantojot šo tehnoloģiju, tiek nogalināti divi putni uzreiz: meklēšanas laiks tiek samazināts vairākas reizes (atbilde tiek iegūta sekundes daļā) un, pateicoties platformu skaita pieaugumam, informācija tiek dublēta (dati netiek zaudēti pēkšņu bojājumu dēļ) . Paši datori ar dublētu informāciju veido datu centru - tā ir telpa ar serveriem.

Kad meklētājprogrammas lietotājs uzdod vaicājumu, 20 reizes no 100, jautājuma mērķi ir neskaidri. Piemēram, ja viņš meklēšanas joslā ieraksta vārdu “Napoleons”, tad vēl nav zināms, kādu atbildi viņš sagaida - kūkas recepti vai lielā komandiera biogrāfiju. Vai frāze “Brāļi Grimmi” - pasakas, filmas, muzikāla grupa. Lai sašaurinātu šādu iespējamo mērķu diapazonu līdz konkrētām atbildēm, Yandex ir īpaša tehnoloģija Diapazons. Tas ņem vērā lietotāju vajadzības, izmantojot meklēšanas vaicājumu statistiku. No visiem apmeklētājiem Yandex uzdotajiem jautājumiem Spectrum tajos identificē dažādus objektus (cilvēku vārdus, grāmatu nosaukumus, automašīnu modeļus utt.) Šie objekti tiek sadalīti noteiktās kategorijās. Pašlaik ir vairāk nekā 60 šādas kategorijas. Ar viņu palīdzību meklētājprogrammas datubāzē ir dažādas vārdu nozīmes lietotāju vaicājumos. Interesanti, ka šīs kategorijas tiek periodiski pārbaudītas (analīze notiek pāris reizes nedēļā), kas ļauj Yandex precīzāk sniegt atbildes uz uzdotajiem jautājumiem.

Pamatojoties uz Spectrum tehnoloģiju, Yandex organizēja dialoga uzvednes. Tie parādās zem meklēšanas joslas, kurā lietotājs ieraksta savu neskaidro vaicājumu. Šī rinda atspoguļo kategorijas, kurām var piederēt jautājuma priekšmets. Papildu meklēšanas rezultāti ir atkarīgi no lietotāja izvēles šajā kategorijā.

No 15 līdz 30% no visiem Yandex meklētājprogrammas lietotājiem vēlas saņemt tikai vietējo informāciju (datus no reģiona, kurā viņi dzīvo). Piemēram, par jaunām filmām kinoteātros jūsu pilsētā. Tāpēc atbildei uz šādu pieprasījumu katrā reģionā vajadzētu būt atšķirīgai. Šajā sakarā Yandex izmanto savu tehnoloģiju meklēt, pamatojoties uz reģioniem . Piemēram, šādas atbildes var saņemt iedzīvotāji, kuri savā kinoteātrī Oktyabr meklē filmu repertuāru:

Bet tas ir rezultāts, ko Stavropoles pilsētas iedzīvotāji saņems par to pašu pieprasījumu:

Lietotāja reģionu galvenokārt nosaka tā IP adrese. Dažreiz šie dati nav precīzi, jo vairāki pakalpojumu sniedzēji var strādāt vairākos reģionos vienlaikus un tāpēc mainīt savu lietotāju IP adreses. Principā, ja tas notiek ar jums, jūs varat viegli mainīt savu reģionu meklētājprogrammas iestatījumos. Tas ir norādīts rezultātu lapas augšējā labajā stūrī. Jūs varat to mainīt.

Meklētājprogramma Yandex ru - atbildes rezultāti

Kad Metasearch ir sagatavojis atbildi, Yandex meklētājprogrammai tā jāparāda rezultātu lapā. Tas ir saišu saraksts uz atrastajiem dokumentiem ar nelielu informāciju par katru. Rezultātu izsniegšanas tehnoloģijas uzdevums ir sniegt lietotājam visatbilstošākās atbildes visinformatīvākajā veidā. Vienas šādas saites veidne izskatās šādi:

Apskatīsim šo rezultāta formu sīkāk. Priekš meklēšanas rezultāta nosaukums Yandex bieži izmanto lapas nosaukuma nosaukumu (ko optimizētāji raksta virsraksta tagā). Ja tā nav, tad šeit parādās vārdi no raksta vai ieraksta virsraksta. Ja virsraksta teksts ir liels, meklētājprogramma šajā laukā ievieto konkrētajam vaicājumam atbilstošāko fragmentu.

Ļoti reti, bet gadās, ka nosaukums nesakrīt ar pieprasījuma saturu. Šajā gadījumā Yandex veido meklēšanas rezultāta nosaukumu, izmantojot rakstā vai ziņojumā esošo tekstu. Tam noteikti būs vaicājuma vārdi.

Priekš fragments meklētājprogramma izmanto visu lapā esošo tekstu. Tas atlasa visus fragmentus, kuros ir atbilde uz vaicājumu, un pēc tam atlasa atbilstošāko un veidlapas laukā ievieto saites uz dokumentu. Pateicoties šai pieejai, kompetents optimizētājs var to pārtaisīt pēc fragmenta redzēšanas, tādējādi uzlabojot saites pievilcību.

Lai labāk uztvertu lietotāja pieprasījuma rezultātu, virsraksti tekstā tiek formatēti kā saites (izcelti zilā krāsā ar pasvītrojumu). Lai tīmekļa resurss būtu pievilcīgs un atpazīstams, tiek pievienots favicon - neliela vietnes korporatīvā ikona. Tas parādās pa kreisi no teksta pirmajā rindā pirms virsraksta. Visi vārdi, kas atbildē tika iekļauti pieprasījumā, ir arī izcelti treknrakstā, lai atvieglotu uztveri.

Pēdējā laikā Yandex meklētājprogramma fragmentam pievieno dažādu informāciju, kas palīdzēs lietotājam vēl ātrāk un precīzāk atrast atbildi. Piemēram, ja lietotājs savā pieprasījumā ieraksta organizācijas nosaukumu, Yandex fragmentā pievienos tās adresi, kontaktu numurus un saiti uz atrašanās vietu ģeogrāfiskajās kartēs. Ja meklētājs ir iepazinies ar vietnes struktūru, kurā ir dokuments ar atbildi lietotājam, tas noteikti to parādīs. Turklāt Yandex var nekavējoties pievienot fragmentam visvairāk apmeklētās šāda tīmekļa resursa lapas, lai apmeklētājs, ja vēlas, varētu nekavējoties doties uz viņam nepieciešamo sadaļu, ietaupot savu laiku.

Ir fragmenti, kas satur preces cenu interneta veikalam, viesnīcas vai restorāna vērtējumu zvaigžņu veidā un citu interesantu informāciju ar dažādiem cipariem par objektiem meklēšanas dokumentos. Šādas informācijas mērķis ir nodrošināt pilnīgu datu sarakstu par tiem priekšmetiem vai objektiem, kas interesē lietotāju.

Kopumā ar dažādiem piemēriem lapa ar atbildēm izskatīsies šādi:

Reitings un vērtētāji

Yandex uzdevums ietver ne tikai visu iespējamo atbilžu variantu meklēšanu, bet arī labāko (atbilstošāko) atlasi. Galu galā lietotājs nerakstīsies pa visām saitēm, kuras Yandex viņam nodrošinās kā meklēšanas rezultātu. Meklēšanas rezultātu organizēšanas process tiek saukts rangu . Tas ir, tieši rangs nosaka piedāvāto atbilžu kvalitāti.

Ir noteikumi, pēc kuriem Yandex nosaka atbilstošās lapas:

Vietnes, kas pasliktina meklēšanas kvalitāti, tiks pazeminātas pozīcijās rezultātu lapā. Parasti tie ir tīmekļa resursi, kuru īpašnieki mēģina maldināt meklētājprogrammu. Piemēram, tās ir vietnes, kuru lapās ir bezjēdzīgs vai neredzams teksts. Protams, tas ir redzams un saprotams meklēšanas robotam, bet ne apmeklētājam, kurš lasa šo dokumentu. Vai arī vietnes, kas, noklikšķinot uz saites meklēšanas rezultātu apgabalā, nekavējoties pārsūta lietotāju uz pavisam citu vietni.
Vietnes, kurās ir erotisks saturs, netiek iekļautas rezultātos vai ir ievērojami pazeminātas rangā. Tas ir saistīts ar faktu, ka šādos tīmekļa resursos bieži tiek izmantotas agresīvas veicināšanas metodes.
Ar vīrusiem inficētās vietnes netiek pazeminātas meklēšanas rezultātos un netiek izslēgtas no meklēšanas rezultātiem – šajā gadījumā lietotājs tiek informēts par briesmām, izmantojot īpašu ikonu. Tas ir saistīts ar faktu, ka Yandex pieņem, ka šādos tīmekļa resursos pēc meklētājprogrammas apmeklētāja pieprasījuma var būt svarīgi dokumenti.

Piemēram, šādi Yandex ranžē vietnes pēc vaicājuma “ābols”:

Papildus ranžēšanas faktoriem Yandex izmanto īpašus paraugus ar vaicājumiem un atbildēm, kuras meklētājprogrammu lietotāji uzskata par vispiemērotākajiem. Neviena mašīna šobrīd nevar izgatavot šādus paraugus - tā ir cilvēka prerogatīva. Yandex šādus speciālistus sauc vērtētāji. Viņu uzdevums ir pilnībā analizēt visus meklēšanas dokumentus un novērtēt atbildes uz noteiktiem vaicājumiem. Viņi izvēlas labākās atbildes un izveido īpašu apmācību komplektu. Tajā meklētājprogramma redz saistību starp attiecīgajām lapām un to īpašībām. Izmantojot šādu informāciju, Yandex var izvēlēties optimālo ranžēšanas formulu katram pieprasījumam. Šādas formulas konstruēšanas metodi sauc par Matrixnet. Šīs sistēmas priekšrocība ir tā, ka tā ir izturīga pret pārmērīgu uzstādīšanu, kas ļauj ņemt vērā lielu skaitu ranžēšanas faktoru, nepalielinot nevajadzīgu vērtējumu un modeļu skaitu.

Sava ieraksta beigās es vēlos jums parādīt interesantu statistiku, ko savā darba procesā savākusi meklētājprogramma Yandex.

1. Personvārdu popularitāte Krievijā un Krievijas pilsētās (dati ņemti no emuāru autoru un sociālo tīklu lietotāju kontiem 2012. gada martā).

Lielais redzētājs

1863. gadā izcilais rakstnieks Žils Verns izveidoja savu nākamo grāmatu “Parīze 20. gadsimtā”. Tajā viņš sīki aprakstīja metro, automašīnu, elektrisko krēslu, datoru un pat internetu. Tomēr izdevējs atteicās grāmatu iespiest, un tā tur nogulēja vairāk nekā 120 gadus, līdz to 1989. gadā atrada Žila Verna mazmazdēls. Grāmata tika izdota 1994. gadā.

1. Termini un definīcijas Šajā līgumā par personas datu apstrādi (turpmāk tekstā Līgums) tālāk norādītajiem terminiem ir šādas definīcijas: Operators – individuālais uzņēmējs Oļegs Aleksandrovičs Dņeprovskis. Līguma pieņemšana - pilnīga un beznosacījumu akceptēšana ar visiem Līguma noteikumiem, nosūtot un apstrādājot personas datus. Personas dati - informācija, ko Lietotājs (personas datu subjekts) ievadījis vietnē un kas ir tieši vai netieši saistīta ar šo Lietotāju. Lietotājs - jebkura fiziska vai juridiska persona, kura vietnē ir veiksmīgi pabeigusi ievades lauku aizpildīšanas procedūru. Ievades lauku aizpildīšana ir procedūra, ar kuru Lietotājs nosūta savu vārdu, uzvārdu, tālruņa numuru, personīgo e-pasta adresi (turpmāk – Personas dati) vietnes reģistrēto lietotāju datubāzei, kas tiek veikta, lai identificētu. Lietotājs. Ievades lauku aizpildīšanas rezultātā personas dati tiek nosūtīti uz Operatora datu bāzi. Ievades lauku aizpildīšana ir brīvprātīga. vietne - vietne, kas atrodas internetā un sastāv no vienas lapas. 2. Vispārīgie noteikumi 2.1. Šis Līgums ir sastādīts, pamatojoties uz 2006. gada 27. jūlija federālā likuma Nr. 152-FZ "Par personas datiem" prasībām un 13.11. panta noteikumiem "Krievijas Federācijas tiesību aktu pārkāpumi personu datu aizsardzības jomā". personas dati” Krievijas Federācijas Administratīvo pārkāpumu kodeksā un ir spēkā visiem personas datiem, ko Operators var iegūt par Lietotāju, izmantojot Vietni. 2.2. Lietotāja ievades lauku aizpildīšana Vietnē nozīmē Lietotāja beznosacījumu piekrišanu visiem šī Līguma noteikumiem (Līguma pieņemšana). Ja nepiekrīt šiem nosacījumiem, Lietotājs Vietnē neaizpilda ievades laukus. 2.3. Lietotāja piekrišana personas datu sniegšanai Operatoram un to apstrādei Operatorā ir spēkā līdz Operatora darbību izbeigšanai vai līdz brīdim, kad Lietotājs atsauc savu piekrišanu. Piekrītot šim Līgumam un izejot Reģistrācijas procedūru, kā arī pēc tam piekļūstot Vietnei, Lietotājs apliecina, ka, rīkojoties pēc paša vēlēšanās un savās interesēs, viņš nodod savus personas datus apstrādei Operatoram un piekrīt to apstrāde. Lietotājs tiek informēts, ka viņa personas datu apstrādi veiks Operators, pamatojoties uz 2006. gada 27. jūlija federālo likumu Nr. 152-FZ “Par personas datiem”. 3. Personas datu saraksts un cita informācija par lietotāju, kas jānodod Operatoram 3. 1. Izmantojot Operatora vietni, Lietotājs sniedz šādus personas datus: 3.1.1. Uzticama personiskā informācija, ko Lietotājs sniedz par sevi neatkarīgi, Aizpildot ievades laukus un/vai Vietnes pakalpojumu izmantošanas procesā, tostarp uzvārds, vārds, uzvārds, tālruņa numurs (mājas vai mobilais), personīgā e-pasta adrese. 3.1.2. Dati, kas tiek automātiski pārsūtīti uz Vietnes pakalpojumiem to lietošanas laikā, izmantojot Lietotāja ierīcē instalētu programmatūru, tostarp IP adrese, informācija no sīkdatnēm, informācija par Lietotāja pārlūkprogrammu (vai citu programmu, ar kuras palīdzību tiek piekļūts pakalpojumiem). 3.2. Operators nepārbauda Lietotāja sniegto personas datu pareizību. Šajā gadījumā Operators pieņem, ka Lietotājs sniedz ticamu un pietiekamu personisko informāciju par ievades laukos piedāvātajiem jautājumiem. 4. Personas datu vākšanas un izmantošanas mērķi, noteikumi 4.1. Operators apstrādā personas datus, kas nepieciešami pakalpojumu sniegšanai un pakalpojumu sniegšanai Lietotājam. 4.2. Lietotāja personas datus Operators izmanto šādiem mērķiem: 4.2.1. Lietotāja identifikācija; 4.2.2. Sniegt Lietotājam personalizētus pakalpojumus (kā arī informēt par jaunām uzņēmuma akcijām un pakalpojumiem, nosūtot vēstules); 4.2.3. Nepieciešamības gadījumā kontaktu uzturēšana ar Lietotāju, tai skaitā paziņojumu, pieprasījumu un informācijas nosūtīšana saistībā ar pakalpojumu izmantošanu, pakalpojumu sniegšanu, kā arī Lietotāja pieprasījumu un iesniegumu apstrāde; 4.3. Personas datu apstrādes laikā tiks veiktas šādas darbības: vākšana, ierakstīšana, sistematizācija, uzkrāšana, uzglabāšana, precizēšana (atjaunināšana, mainīšana), ieguve, izmantošana, bloķēšana, dzēšana, iznīcināšana. 4.4. Lietotājs neiebilst, ka viņa norādītā informācija noteiktos gadījumos var tikt sniegta pilnvarotām Krievijas Federācijas valsts iestādēm saskaņā ar spēkā esošajiem Krievijas Federācijas tiesību aktiem. 4.5. Lietotāja personas datus Operators glabā un apstrādā šajā Līgumā paredzētajā veidā visu Operatora darbības laiku. 4.6. Personas datu apstrādi veic Operators, uzturot datu bāzes, automatizētas, mehāniskas un manuālas metodes. 4.7. Vietne izmanto sīkfailus un citas tehnoloģijas, lai izsekotu vietnes pakalpojumu izmantošanai. Šie dati ir nepieciešami, lai optimizētu Vietnes tehnisko darbību un uzlabotu pakalpojumu sniegšanas kvalitāti. Vietne automātiski ieraksta informāciju (tostarp URL, IP adresi, pārlūkprogrammas veidu, valodu, pieprasījuma datumu un laiku) par katru vietnes apmeklētāju. Lietotājam ir tiesības atteikties sniegt personas datus, apmeklējot Vietni vai atspējot sīkdatnes, taču šajā gadījumā ne visas Vietnes funkcijas var darboties pareizi. 4.8. Šajā Līgumā paredzētie konfidencialitātes nosacījumi attiecas uz visu informāciju, ko Operators var iegūt par Lietotāju, kad tas uzturas Vietnē un izmanto Vietni. 4.9. Informācija, kas tiek publiski izpausta šī Līguma izpildes laikā, kā arī informācija, ko puses vai trešās personas var iegūt no avotiem, kuriem jebkura persona var brīvi piekļūt, nav konfidenciāla. 4.10. Operators veic visus nepieciešamos pasākumus, lai aizsargātu Lietotāja personas datu konfidencialitāti no nesankcionētas piekļuves, grozīšanas, izpaušanas vai iznīcināšanas, tai skaitā: nodrošina pastāvīgu datu vākšanas, uzglabāšanas un apstrādes procesu iekšējo pārbaudi un nodrošina drošību; nodrošina datu fizisko drošību, novēršot nesankcionētu piekļuvi tehniskajām sistēmām, kas nodrošina Vietnes darbību, kurās Operators glabā personas datus; nodrošina piekļuvi personas datiem tikai tiem Operatora darbiniekiem vai pilnvarotām personām, kurām šī informācija ir nepieciešama, lai veiktu pienākumus, kas tieši saistīti ar pakalpojumu sniegšanu Lietotājam, kā arī Vietnes darbību, attīstību un uzlabošanu. 4.11. Lietotāja personas dati paliek konfidenciāli, izņemot gadījumus, kad Lietotājs brīvprātīgi sniedz informāciju par sevi vispārējai piekļuvei neierobežotam personu skaitam. 4.12. Operatora veiktā Lietotāja personas datu nodošana ir likumīga Operatora reorganizācijas un tiesību nodošanas Operatora tiesību pārņēmējam laikā, savukārt visas saistības ievērot šī Līguma noteikumus attiecībā uz viņa saņemto personas informāciju ir nodots tiesību pārņēmējam. 4.13. Šis paziņojums attiecas tikai uz Operatora vietni. Uzņēmums nekontrolē un nav atbildīgs par trešo pušu vietnēm (pakalpojumiem), kurām lietotājs var piekļūt, izmantojot Operatora vietnē pieejamās saites, tostarp meklēšanas rezultātos. Šādās Vietnēs (pakalpojumos) var tikt ievākta vai pieprasīta no lietotāja cita personiskā informācija un var tikt veiktas citas darbības 5. Lietotāja kā personas datu subjekta tiesības, lietotāja personas datu maiņa un dzēšana 5.1. Lietotājam ir tiesības: 5.1.2. Pieprasīt Operatoram precizēt savus personas datus, bloķēt tos vai iznīcināt tos, ja personas dati ir nepilnīgi, novecojuši, neprecīzi, nelikumīgi iegūti vai nav nepieciešami norādītajam apstrādes mērķim, kā arī veikt likumā paredzētos pasākumus savu tiesību aizsardzībai. 5.1.3. Saņemt informāciju par savu personas datu apstrādi, tajā skaitā informāciju, kas satur: 5.1.3.1. apstiprinājums par Operatora veiktās personas datu apstrādes faktu; 5.1.3.2. operatora izmantotie personas datu apstrādes mērķi un metodes; 5.1.3.3. Operatora nosaukums un atrašanās vieta; 5.1.3.4. apstrādāti personas dati, kas saistīti ar attiecīgo personas datu subjektu, to saņemšanas avots, ja vien federālajos likumos nav noteikta cita šādu datu sniegšanas kārtība; 5.1.3.5. personas datu apstrādes termiņi, tostarp to glabāšanas periodi; 5.1.3.6. cita informācija, kas paredzēta spēkā esošajos Krievijas Federācijas tiesību aktos. 5.2. Piekrišanas atsaukšanu personas datu apstrādei Lietotājs var veikt, nosūtot Operatoram atbilstošu rakstisku (izdrukātu uz materiāla un Lietotāja parakstītu) paziņojumu. 6. Operatora pienākumi. Piekļuve personas datiem 6.1. Operators apņemas novērst nesankcionētu un mērķtiecīgu piekļuvi Operatora Vietnes Lietotāju personas datiem. Šajā gadījumā autorizēta un mērķtiecīga piekļuve Vietnes lietotāju personas datiem tiks uzskatīta par visu ieinteresēto pušu piekļuvi tiem, kas tiek īstenota Operatora vietnes mērķu un priekšmeta ietvaros. Tajā pašā laikā Operators nav atbildīgs par iespējamu Lietotāju personas datu ļaunprātīgu izmantošanu, kas rodas: tehniskas programmatūras un aparatūras un tīklos, ko Operators nevar kontrolēt; saistībā ar Operatora vietņu apzinātu vai neapzinātu izmantošanu, kas nav paredzēta paredzētajam mērķim, ko veic trešās personas; 6.2 Operators veic nepieciešamos un pietiekamus organizatoriskos un tehniskos pasākumus, lai aizsargātu lietotāja personisko informāciju no nesankcionētas vai nejaušas piekļuves, iznīcināšanas, pārveidošanas, bloķēšanas, kopēšanas, izplatīšanas, kā arī no citām prettiesiskām trešo personu darbībām ar to. 7. Izmaiņas Privātuma politikā. Piemērojamie tiesību akti 7.1. Operatoram ir tiesības veikt izmaiņas šajos Noteikumos bez īpaša brīdinājuma Lietotājiem. Veicot izmaiņas pašreizējā izdevumā, tiek norādīts pēdējās atjaunināšanas datums. Noteikumu jaunā redakcija stājas spēkā no tā publicēšanas brīža, ja nolikuma jaunajā redakcijā nav noteikts citādi. 7.2. Uz šo regulu un attiecībām starp Lietotāju un Operatoru, kas rodas saistībā ar Regulas piemērošanu, tiek piemēroti Krievijas Federācijas tiesību akti. Es pieņemu Es nepieņemu