Čo je nové vo vyhľadávacom nástroji Yandex. Yandex - čo je Yandex a prečo sa nazýva Yandex. Zloženie a princípy fungovania vyhľadávacieho systému

Už dlho sa stali neoddeliteľnou súčasťou ruského internetu. Vyhľadávače sú v súčasnosti obrovské a zložité mechanizmy, ktoré predstavujú nielen nástroj na vyhľadávanie informácií, ale aj lákavé oblasti pre podnikanie.

Väčšina používateľov vyhľadávačov nikdy nepremýšľala (alebo sa nad tým nezamýšľala, ale nenašla odpoveď) nad princípom fungovania vyhľadávačov, nad schémou spracovania požiadaviek používateľov, nad tým, z čoho tieto systémy pozostávajú a ako fungujú...

Táto hlavná trieda je navrhnutá tak, aby odpovedala na otázku, ako fungujú vyhľadávače. Nenájdete tu však faktory, ktoré ovplyvňujú poradie dokumentov. Okrem toho by ste sa nemali spoliehať na podrobné vysvetlenie algoritmu Yandex. Podľa Ilju Segaloviča, riaditeľa technológie a vývoja vyhľadávacieho nástroja Yandex, ho „mučením“ môže rozpoznať iba samotný Ilya Segalovič...

2. Koncepcia a funkcie vyhľadávača

Vyhľadávací systém je softvérový a hardvérový komplex určený na vyhľadávanie na internete a odpovedanie na požiadavku používateľa, špecifikovanú vo forme textovej frázy (vyhľadávací dotaz), vytvorením zoznamu odkazov na zdroje informácií v poradí podľa relevantnosti ( v súlade so žiadosťou). Najväčšie medzinárodné vyhľadávače: "Google", Yahoo , MSN . Na ruskom internete sú to Yandex, Rambler, Aport.

Pozrime sa bližšie na koncept vyhľadávacieho dopytu pomocou vyhľadávacieho nástroja Yandex ako príkladu. Vyhľadávací dotaz by mal používateľ formulovať v súlade s tým, čo chce nájsť, čo najstručnejšie a najjednoduchšie. Povedzme, že chceme v Yandex nájsť informácie o tom, ako si vybrať auto. Ak to chcete urobiť, otvorte hlavnú stránku Yandex a zadajte text vyhľadávacieho dopytu „ako si vybrať auto“. Ďalej je našou úlohou otvoriť odkazy poskytnuté na našu žiadosť na zdroje informácií na internete. Je však dosť možné, že potrebné informácie nenájdeme. Ak k tomu dôjde, musíte buď preformulovať svoju požiadavku, alebo databáza vyhľadávača naozaj nemá žiadne relevantné informácie o našej požiadavke (to sa môže stať pri veľmi „úzkych“ dopytoch, ako napríklad „ako si vybrať auto v Archangeľsku”)

Primárnym cieľom každého vyhľadávača je doručiť ľuďom presne tie informácie, ktoré hľadajú. A naučiť používateľov zadávať „správne“ požiadavky do systému, t.j. dopyty, ktoré sú v súlade s princípmi fungovania vyhľadávačov, sú nemožné. Preto vývojári vytvárajú algoritmy a prevádzkové princípy pre vyhľadávače, ktoré používateľom umožnia nájsť informácie, ktoré hľadajú.

To znamená, že vyhľadávací nástroj musí „myslieť“ rovnako ako používateľ pri vyhľadávaní informácií. Keď používateľ zadá požiadavku do vyhľadávača, chce čo najrýchlejšie a najjednoduchšie nájsť to, čo potrebuje. Po prijatí výsledku vyhodnotí výkon systému podľa niekoľkých základných parametrov. Našiel, čo hľadal? Ak to nenašiel, koľkokrát musel preformulovať dopyt, aby našiel to, čo hľadal? Koľko relevantných informácií mohol nájsť? Ako rýchlo vyhľadávač spracoval dopyt? Ako pohodlné boli prezentované výsledky vyhľadávania? Bol výsledok, ktorý ste hľadali prvý alebo stý? Koľko zbytočného odpadu sa našlo spolu s užitočnými informáciami? Nájdu sa potrebné informácie pri prístupe do vyhľadávača povedzme o týždeň alebo o mesiac?

S cieľom uspokojiť všetky tieto otázky odpoveďami vývojári vyhľadávacích nástrojov neustále zdokonaľujú vyhľadávacie algoritmy a princípy, pridávajú nové funkcie a možnosti a snažia sa všetkými možnými spôsobmi urýchliť fungovanie systému.

3. Hlavné charakteristiky vyhľadávača

Opíšme hlavné charakteristiky vyhľadávacích nástrojov:

  • Úplnosť

    Úplnosť je jednou z hlavných charakteristík vyhľadávacieho systému, čo je pomer počtu dokumentov nájdených podľa požiadavky k celkovému počtu dokumentov na internete, ktoré vyhovujú danej požiadavke. Napríklad, ak je na internete 100 stránok obsahujúcich frázu „ako si vybrať auto“ a iba 60 z nich bolo nájdených pre zodpovedajúci dopyt, potom bude úplnosť vyhľadávania 0,6. Je zrejmé, že čím je vyhľadávanie úplnejšie, tým je menej pravdepodobné, že používateľ nenájde dokument, ktorý potrebuje, za predpokladu, že na internete vôbec existuje.

  • Presnosť

    Presnosť je ďalšou hlavnou charakteristikou vyhľadávača, ktorá je určená mierou, do akej sa nájdené dokumenty zhodujú s dopytom používateľa. Ak napríklad dotaz „ako si vybrať auto“ obsahuje 100 dokumentov, 50 z nich obsahuje frázu „ako si vybrať auto“ a zvyšok jednoducho obsahuje tieto slová („ako si vybrať správne rádio a nainštalovať ho do auto“), potom sa presnosť vyhľadávania považuje za rovnajúcu sa 50/100 (=0,5). Čím presnejšie vyhľadávanie, tým rýchlejšie používateľ nájde dokumenty, ktoré potrebuje, tým menej rôznych druhov „smetí“ sa medzi nimi nájde, tým menej často nájdené dokumenty nebudú zodpovedať požiadavke.

  • Relevantnosť

    Nemenej dôležitou zložkou vyhľadávania je relevantnosť, ktorá je charakterizovaná časom, ktorý uplynie od zverejnenia dokumentov na internete až po ich zadanie do indexovej databázy vyhľadávačov. Napríklad deň po tom, čo sa objavili zaujímavé správy, sa veľké množstvo používateľov obrátilo na vyhľadávače s relevantnými dopytmi. Objektívne neuplynul ani deň od zverejnenia spravodajských informácií na túto tému, ale hlavné dokumenty už boli indexované a dostupné na vyhľadávanie vďaka existencii takzvanej „rýchlej databázy“ veľkých vyhľadávačov, ktoré sa aktualizuje niekoľkokrát denne.

  • Rýchlosť vyhľadávania

    Rýchlosť vyhľadávania úzko súvisí s jeho odolnosťou voči zaťaženiu. Napríklad podľa Rambler Internet Holding LLC dnes počas pracovnej doby vyhľadávací nástroj Rambler prijíma približne 60 požiadaviek za sekundu. Takáto pracovná záťaž si vyžaduje skrátenie času spracovania individuálnej požiadavky. Tu sa záujmy používateľa a vyhľadávača zhodujú: návštevník chce získať výsledky čo najrýchlejšie a vyhľadávač musí požiadavku spracovať čo najrýchlejšie, aby nespomalil výpočet následných dopytov.

  • Viditeľnosť

4. Stručná história vývoja vyhľadávačov

V počiatočnom období rozvoja internetu bol počet jeho používateľov malý a množstvo dostupných informácií relatívne malé. Prístup na internet mali väčšinou len výskumní pracovníci. V tejto dobe nebola úloha vyhľadávania informácií na internete taká naliehavá ako teraz.

Jedným z prvých spôsobov organizácie prístupu k sieťovým informačným zdrojom bolo vytvorenie otvorených adresárov stránok, odkazov na zdroje, v ktorých boli zoskupené podľa témy. Prvým takýmto projektom bola webová stránka Yahoo.com, ktorá bola otvorená na jar 1994. Po výraznom zvýšení počtu stránok v katalógu pribudla možnosť vyhľadať si potrebné informácie v katalógu. V plnom zmysle to ešte nebol vyhľadávací nástroj, pretože oblasť vyhľadávania bola obmedzená iba na zdroje prítomné v katalógu a nie na všetky internetové zdroje.

Adresáre odkazov boli v minulosti široko používané, ale v súčasnosti takmer úplne stratili svoju popularitu. Keďže aj moderné katalógy s obrovským objemom obsahujú informácie len o zanedbateľnej časti internetu. Najväčší adresár siete DMOZ (nazývaný aj Open Directory Project) obsahuje informácie o 5 miliónoch zdrojov, pričom databázu vyhľadávača Google tvorí viac ako 8 miliárd dokumentov.

V roku 1995 sa objavili vyhľadávače Lycos a AltaVista. Tá je už dlhé roky lídrom v oblasti vyhľadávania informácií na internete.

V roku 1997 vytvorili Sergey Brin a Larry Page vyhľadávací nástroj Google ako súčasť výskumného projektu na Stanfordskej univerzite. Google je momentálne najpopulárnejší vyhľadávač na svete!

V septembri 1997 bol oficiálne ohlásený vyhľadávací nástroj Yandex, ktorý je najpopulárnejší na ruskojazyčnom internete.

V súčasnosti existujú tri hlavné vyhľadávače (medzinárodné) – Google, Yahoo a, ktoré majú svoje vlastné databázy a vyhľadávacie algoritmy. Väčšina ostatných vyhľadávačov (ktorých je veľké množstvo) používa v tej či onej forme výsledky troch uvedených. Napríklad vyhľadávanie AOL (search.aol.com) používa databázu Google, zatiaľ čo AltaVista, Lycos a AllTheWeb používajú databázu Yahoo.

5. Zloženie a princípy fungovania vyhľadávacieho systému

V Rusku je hlavným vyhľadávacím nástrojom Yandex, po ktorom nasledujú Rambler.ru, Google.ru, Aport.ru, Mail.ru. Okrem toho v súčasnosti Mail.ru používa vyhľadávací nástroj a databázu Yandex.

Takmer všetky veľké vyhľadávače majú svoju vlastnú štruktúru, odlišnú od ostatných. Je však možné identifikovať hlavné komponenty spoločné pre všetky vyhľadávače. Rozdiely v štruktúre môžu byť len vo forme implementácie mechanizmov interakcie týchto komponentov.

Modul indexovania

Indexovací modul pozostáva z troch pomocných programov (robotov):

Spider je program určený na sťahovanie webových stránok. Pavúk stiahne stránku a načíta všetky interné odkazy z tejto stránky. Stiahne sa html kód každej stránky. Roboty používajú na sťahovanie stránok protokoly HTTP. Pavúk funguje nasledovne. Robot odošle požiadavku „get/path/document“ a niektoré ďalšie príkazy HTTP požiadavky na server. Ako odpoveď robot dostane textový tok obsahujúci servisné informácie a samotný dokument.

  • URL stránky
  • dátum stiahnutia stránky
  • HTTP hlavička odpovede servera
  • telo stránky (html kód)

Crawler („cestujúci“ pavúk) je program, ktorý automaticky sleduje všetky odkazy nájdené na stránke. Vyberie všetky odkazy prítomné na stránke. Jeho úlohou je na základe odkazov alebo vopred určeného zoznamu adries určiť, kam má pavúk ísť ďalej. Crawler podľa nájdených odkazov hľadá nové dokumenty, ktoré vyhľadávač stále nepozná.

Indexer (robot indexer) je program, ktorý analyzuje webové stránky stiahnuté pavúkmi. Indexátor analyzuje stránku na jednotlivé časti a analyzuje ich pomocou vlastných lexikálnych a morfologických algoritmov. Analyzujú sa rôzne prvky stránky, ako napríklad text, nadpisy, odkazy, štrukturálne a štýlové prvky, špeciálne servisné značky HTML atď.

Modul indexovania vám teda umožňuje prehľadávať danú množinu zdrojov pomocou odkazov, sťahovať nájdené stránky, extrahovať odkazy na nové stránky z prijatých dokumentov a vykonať kompletnú analýzu týchto dokumentov.

Databáza

Databáza alebo index vyhľadávacieho nástroja je systém na ukladanie údajov, informačné pole, v ktorom sú uložené špeciálne skonvertované parametre všetkých dokumentov stiahnutých a spracovaných indexovacím modulom.

Vyhľadávací server

Vyhľadávací server je najdôležitejším prvkom celého systému, pretože kvalita a rýchlosť vyhľadávania priamo závisí od algoritmov, ktoré sú základom jeho fungovania.

Vyhľadávací server funguje nasledovne:

  • Požiadavka prijatá od používateľa je podrobená morfologickej analýze. Pre každý dokument obsiahnutý v databáze sa vygeneruje informačné prostredie (ktoré sa následne zobrazí vo forme, teda textovej informácie zodpovedajúcej požiadavke na stránke s výsledkami vyhľadávania).
  • Prijaté dáta sa odovzdávajú ako vstupné parametre špeciálnemu hodnotiacemu modulu. Údaje sa spracúvajú pre všetky dokumenty, v dôsledku čoho má každý dokument svoje vlastné hodnotenie, ktoré charakterizuje relevantnosť dopytu zadaného používateľom a rôzne zložky tohto dokumentu uložené v indexe vyhľadávača.
  • V závislosti od výberu používateľa môže byť toto hodnotenie upravené ďalšími podmienkami (napríklad takzvané „rozšírené vyhľadávanie“).
  • Ďalej sa vygeneruje úryvok, to znamená, že pre každý nájdený dokument sa z tabuľky dokumentu extrahuje názov, krátky abstrakt, ktorý najlepšie zodpovedá dopytu, a odkaz na samotný dokument a nájdené slová sa zvýraznia.
  • Výsledné výsledky vyhľadávania sa prenášajú používateľovi vo forme SERP (Search Engine Result Page) – stránky s výsledkami vyhľadávania.

Ako vidíte, všetky tieto komponenty spolu úzko súvisia a fungujú v interakcii a tvoria jasný, pomerne zložitý mechanizmus fungovania vyhľadávacieho systému, ktorý si vyžaduje obrovské množstvo zdrojov.

6. Záver

Teraz zhrňme všetko vyššie uvedené.

  • Primárnym cieľom každého vyhľadávača je doručiť ľuďom presne tie informácie, ktoré hľadajú.
  • Hlavné vlastnosti vyhľadávacích nástrojov:
    1. Úplnosť
    2. Presnosť
    3. Relevantnosť
    4. Rýchlosť vyhľadávania
    5. Viditeľnosť
  • Prvým plnohodnotným vyhľadávačom bol projekt WebCrawler, publikovaný v roku 1994.
  • Vyhľadávací systém obsahuje nasledujúce komponenty:
    1. Modul indexovania
    2. Databáza
    3. Vyhľadávací server

Dúfame, že naša majstrovská trieda vám umožní lepšie sa zoznámiť s konceptom vyhľadávača a lepšie pochopiť hlavné funkcie, vlastnosti a princípy fungovania vyhľadávačov.

Dobrý deň milí priatelia! V tomto článku sa budeme aj naďalej pozerať na vyhľadávací nástroj Yandex, a ako si pamätáte, v predchádzajúcich článkoch sme diskutovali o histórii vytvorenia tejto skvelej spoločnosti, ktorá je na prvom mieste medzi svojimi konkurentmi v Rusku a mimo neho.

To všetko je dobré, no začiatočníkov aj skúsených tvorcov stránok zaujíma najdôležitejšia otázka, samozrejme, súvisiaca s tým, ako dostať svoje projekty na prvé miesta v TOP výsledkoch vyhľadávania.

Preto sa pozrime na to, ako funguje vyhľadávací nástroj Yandex, aby sme pochopili, na aké chyby môžete vstúpiť a čo vo všeobecnosti očakávať od ruského vyhľadávača.

V minulom článku sme diskutovali. Téma sa ukázala byť celkom zaujímavá a užitočná. Preto som sa rozhodol ho takpovediac doplniť, prehĺbiť.

Takže som sa asi nechal trochu uniesť otázkou „Prečo vyhľadávací nástroj indexuje dokumenty“? Je to zbytočné. Zostáva len zistiť otázku „ako“.

Algoritmy hodnotenia webových stránok

Najprv sa zoznámime s niektorými algoritmami, ktoré sú základom každého vyhľadávacieho nástroja:

— Algoritmus priameho vyhľadávania.

Čo to je - pamätáte si, že ste v jednej z kníh čítali nádherný príbeh. A začnete hľadať jeden po druhom. Zobrali jednu knihu, prezreli ju, nenašli, zobrali ďalšiu... Princíp je jasný, ale táto metóda je extrémne dlhá. To je tiež pochopiteľné.

— Algoritmus spätného vyhľadávania.

Pre tento algoritmus sa z každej stránky vášho blogu vytvorí textový súbor. Tento súbor uvádza v abecednom poradí VŠETKY slová, ktoré ste použili. Dokonca je uvedená aj pozícia tohto slova v texte (súradnice v texte).

Ide o pomerne rýchlu metódu, no vyhľadávanie už prebieha s nejakou chybou.

Hlavná vec, ktorú treba pochopiť, je, že tento algoritmus nevyhľadáva na internete, nie vyhľadávaním na blogu. A to v samostatnom textovom súbore, ktorý vznikol už dávno. Keď k vám prišla robota. A tieto súbory (reverzné indexy) sú uložené na serveroch Yandex.

Takže toto boli základné vyhľadávacie algoritmy. Tie. ako Yandex jednoducho nájde potrebné dokumenty. Zdá sa, že s tým by nemali byť žiadne problémy.

Ale Yandex pozná viac ako jeden alebo dokonca 100 dokumentov, ale podľa najnovších údajov z mojich zdrojov Yandex pozná asi 11 miliárd dokumentov (10 727 736 489 strán).

A medzi všetkým týmto množstvom musíte vybrať dokumenty, ktoré zodpovedajú požiadavke. A čo je dôležitejšie, musíte ich nejako zoradiť. Tie. usporiadať podľa miery dôležitosti, respektíve podľa miery užitočnosti pre čitateľa.

Matematické modely vyhľadávania

Na vyriešenie tohto problému prichádzajú na záchranu matematické modely. Teraz budeme hovoriť o najjednoduchších modeloch.

Booleovský matematický model– Ak sa v dokumente objaví slovo, dokument sa považuje za nájdený. Len náhoda a nič zložité.

Ale sú tu problémy. Napríklad, ak ako používateľ zadáte nejaké populárne slovo alebo ešte lepšie predložku „v“, ktorá je najbežnejším slovom v ruštine a nachádza sa v KAŽDOM dokumente, dostanete toľko výsledkov že si také číslo ani neuvedomujete, Koľko dokladov ste našli? Preto sa objavil nasledujúci model rohože.

Vektorový matematický model– tento model určuje „hmotnosť“ dokumentu. Nielenže sa náhoda vyskytuje, ale slovo sa musí vyskytnúť niekoľkokrát. Navyše, čím viac sa slovo objavuje, tým vyššia je jeho relevantnosť (súlad).

Je to vektorový model, ktorý používajú VŠETKY vyhľadávače.

Pravdepodobný model- viac komplexné. Princíp je takýto: vyhľadávač si šablónu stránky našiel sám. Napríklad hľadáte informácie o histórii Yandex. Yandex ukladá nejaký štandard, povedzme, že toto bude môj predchádzajúci článok o Yandex.

A všetky ostatné dokumenty porovná s týmto článkom. A logika je tu takáto: čím viac je vaša blogová stránka podobná môjmu článku, tým PRAVDEPODOBNEJŠIE je skutočnosť, že vaša blogová stránka bude užitočná aj pre čitateľa a tiež rozpráva o histórii Yandexu.

Pre zníženie počtu dokumentov, ktoré je potrebné používateľovi ukázať, bol zavedený koncept relevantnosti, t.j. súlad.

Do akej miery je vaša blogová stránka relevantná pre danú tému? Toto je dôležitá téma, pokiaľ ide o kvalitu vyhľadávania.

Hodnotitelia – kto sú a za čo sú zodpovední?

Tento význam je potrebný aj na posúdenie kvality algoritmov.

Na tento účel existuje veliteľstvo špeciálnych síl - nazývajú sa posudzovatelia. Sú to špeciálni ľudia, ktorí si prezerajú výsledky vyhľadávania rukami.

Majú návod, ako kontrolovať stránky, ako hodnotiť atď. A manuálne určujú, či sú vaše stránky vhodné pre vyhľadávacie dopyty alebo nie.

A kvalita vyhľadávacích algoritmov závisí od názoru hodnotiteľov. Ak všetci hodnotitelia tvrdia, že výsledky vyhľadávania nezodpovedajú požiadavkám, znamená to, že algoritmus hodnotenia je nesprávny a na vine je len Yandex.

Ak hodnotitelia povedia, že len jedna lokalita nevyhovuje požiadavke, znamená to, že lokalita letí niekam ďaleko a je vo výsledkoch vyhľadávania znížená. Presnejšie, nie celý web, ale iba jeden článok, ale o to „nejde“.

Samozrejme, posudzovatelia nemôžu kontrolovať a hodnotiť VŠETKY články rukami a očami. To je pochopiteľné.

A na pomoc prichádzajú ďalšie parametre, podľa ktorých sú stránky zoradené.

Je ich veľa, napr.

  • hmotnosť stránky (vIC, PageRank, detské hrbolčeky Všetko vo všetkom);
  • autorita domény;
  • relevantnosť textu k žiadosti;
  • relevantnosť textov externých odkazov k dopytu;
  • ako aj mnoho ďalších faktorov hodnotenia.

Hodnotitelia komentujú a ľudia, ktorí sú zodpovední za nastavenie matematického hodnotiaceho modelu, zasa upravujú vzorec, vďaka čomu vyhľadávač funguje efektívnejšie.

Hlavné kritériá hodnotenia účinnosti vzorca:

1. Presnosť výsledkov vyhľadávača- percento dokumentov, ktoré zodpovedajú žiadosti (relevantné). Tie. Čím menej stránok nezodpovedá požiadavke, tým lepšie.

2. Úplnosť výsledkov vyhľadávača- ide o pomer relevantných webových stránok pre daný dopyt k celkovému počtu relevantných dokumentov v kolekcii (celkový počet stránok nájdených vo vyhľadávači).

Ak je napríklad v celej kolekcii viac relevantných stránok ako vo výsledkoch vyhľadávania, znamená to, že výsledky sú neúplné. Stalo sa to preto, že niektoré relevantné webové stránky boli filtrované.

3. Relevantnosť výsledkov vyhľadávača- ide o súlad webovej stránky s tým, čo je napísané v úryvku. Dokument môže byť napríklad veľmi odlišný alebo vôbec neexistuje, no stále sa môže nachádzať vo výsledkoch vyhľadávania.

Relevantnosť výsledkov vyhľadávania priamo závisí od toho, ako často vyhľadávací robot skenuje dokumenty zo svojej zbierky.

Zber kolekcie (indexovanie stránok lokality) vykonáva špeciálny program - vyhľadávací robot.

Vyhľadávací robot dostane zoznam adries na indexovanie, skopíruje ich a potom odošle obsah skopírovaných webových stránok na spracovanie do algoritmu, ktorý ich prevedie na reverzné indexy.

No, takpovediac „v skratke“, diskutovali sme o princípoch vyhľadávacieho nástroja.

Poďme si to zhrnúť:

  1. Na váš blog príde vyhľadávací robot.
  2. Vyhľadávací robot uloží reverzný index stránky pre následné vyhľadávanie.
  3. Pomocou matematického modelu sa dokument spracuje a zobrazí vo výsledkoch vyhľadávania pomocou vzorcov a s prihliadnutím na názor posudzovateľa.

Toto je veľmi, veľmi zjednodušené. Len pre základné pochopenie toho, ako funguje vyhľadávací nástroj Yandex.

Teraz som napísal toľko textu a možno toľko nie je jasné. Preto vám navrhujem vrátiť sa k tomuto článku o niečo neskôr a pozrieť si toto video.

Je to vynikajúci sprievodca, z ktorého som sa svojho času naučil aj ja.

Dúfam, že vám tieto informácie pomôžu lepšie pochopiť, prečo jedna z vašich stránok obsadzuje vhodné pozície vo vyhľadávaní, a urobíte všetko pre to, aby ste ich zlepšili.

Týmto sa s vami lúčim, ak máte nejaké otázky, vždy ich rád zodpoviem v komentároch. Alebo možno chcete pridať do článku?

V každom prípade vyjadrite svoj názor. !

Nie sme takí jedineční, ako si myslíme: milióny ľudí pred nami a milióny po nás si budú lámať hlavu s vyhľadávačom takmer rovnakými otázkami. Na druhej strane sme príliš nepredvídateľní: formuláciu našej požiadavky ovplyvňuje obrovské množstvo faktorov, ktoré si neuvedomujeme. A minimálne z tohto dôvodu si požiadavka každého z nás, nech je akokoľvek banálna, vyžaduje individuálny prístup.

V skutočnosti sa celá práca vyhľadávacieho nástroja Yandex skladá z dvoch jednoduchých vecí: pochopiť, čo človek skutočne chce vedieť, a za pár sekúnd nájsť vhodné medzi miliardami dokumentov na internete.

Odoberte odtlačky prstov

Operačný systém vyhľadávacieho nástroja je do istej miery podobný Matrixu a vyhľadávací robot (komplexný program s nezávislými rozhodovacími právomocami, ktorý vytvoril) je podobný Agentovi Smithovi.

Aby sa neprehľadával celý internet zakaždým, keď sa niekto potrebuje niečo dozvedieť, vyhľadávač vykoná časť práce vopred – pomocou tisícok vyhľadávacích robotov skontroluje, čo je na webe a kde sa nachádza. Prichádzajú v dvoch typoch: základné a rýchle. Hlavný prehľadáva a spracováva internet ako celok a rýchly - dokumenty, ktoré sa objavili pred minútou alebo dokonca pred niekoľkými sekundami. Úlohou programov robotov je vybrať vhodné a užitočné informácie pre používateľov, spracovať ich, odstrániť všetko zastarané a nepotrebné. V niektorých ohľadoch to pripomína triedenie odpadu: papier v jednom kontajneri, sklo v druhom, plast v treťom, potravinový odpad v štvrtom...

Informácie zhromaždené robotmi tvoria takzvané internetové obsadenie. Je uložený na tisíckach serverov Yandex a neustále sa aktualizuje. Nugget je ako zoznam, ktorý vám povie, kde nájdete aké informácie. V tomto zozname má každé kľúčové slovo nie jednu, ale milióny „stránok“. Aby sa zabezpečilo, že všetky aktualizácie sú pre používateľov dostupné, presunú sa z úložiska do „základného vyhľadávania“. Údaje z hlavného robota sa prenášajú každých pár dní a z rýchleho robota v reálnom čase.

Priveďte do čistej vody



ILUSTRÁCIA: EVGENY TONKONOGY

Pri hľadaní odpovede na danú otázku v pripravenej databáze sa stroj stretáva s dvoma hlavnými ťažkosťami. Prvým problémom je jazyk. Pred hľadaním odpovede na otázku je dôležité, aby stroj pochopil, v akom jazyku to má robiť. Napríklad rusky hovoriacemu človeku sa pri vyhľadávaní „čata kniežaťa Igora“ nájdu dokumenty s informáciami o armáde a ukrajincovi „čata kniežaťa Igora“ vráti aj dokumenty, v ktorých sa spomína princezná Oľga, jeho manželka, od r. v ukrajinčine je „manželka“ „čata“. A v bohatom ruskom jazyku môže to isté slovo alebo jeho deriváty znamenať rôzne veci. Napríklad slovo „oceľ“ je jednou z foriem podstatného mena „oceľ“ a slovesa „stať sa“. Druhým problémom je ľudská psychológia. Pri zadávaní požiadavky očakávame rýchlu a presnú odpoveď, bez prirodzenej obavy, či znenie požiadavky zodpovedá princípom matematickej analýzy, podľa ktorej pracuje mozog stroja. Napríklad zadaním slova „Napoleon“ do vyhľadávacieho panela, čo chce človek získať: recept na koláč alebo životopis francúzskeho cisára, kúpiť si koňak alebo nájsť adresu psychiatrickej liečebne?


V takýchto situáciách vstupuje do hry viacero technológií. Pod vyhľadávacím panelom vám môžete poskytnúť niekoľko rád, ktoré určia vašu požiadavku. Nech sa páči, vyberte si, čo potrebujete: Napoleonské recepty alebo Napoleon - Bonaparte. Ak používateľ nereaguje na požiadavku stroja a nepridá slová do „Napoleon“, potom pomôže technológia „Spectrum“: bez toho, aby dúfal v pomoc, stroj okamžite vyhľadá informácie v niekoľkých kategóriách (o koláči, a o cisárovi a o koni) ...). Mechanizmy personalizácie navyše pomáhajú porozumieť používateľovi – znalosť stroja o tom, čo tento používateľ hľadal na svojom počítači pred dňom, dvoma, tromi alebo mesiacmi: ak ste sa často pýtali Yandex na otázky týkajúce sa varenia, stroj najprv zobrazí vaše výsledky hovoria, že Napoleon je koláč.

Kombinácie: záujmové kluby

Úlohou vyhľadávača nie je jednoducho vybrať dokumenty, ktoré obsahujú slová a frázy z vyhľadávacieho dopytu. Stroj musí pochopiť, ktoré dokumenty spĺňajú naše protichodné požiadavky a prečo ich spĺňajú. Chceme získať informácie o Napoleonovom torte, alebo sme pár rokov navštívili fitness klub s honosným názvom, alebo sme dokonca úplne znepokojení komplexmi malých ľudí. V každom prípade si riešenie problému vyžaduje netriviálny prístup.


Tvorcovia vyhľadávacieho programu Yandex našli tento prístup delegovaním práva voľby na stroj. Na jednej strane bezduchý, ale veľmi rýchly a šikovný stroj o nás ako jednotlivcoch nič nevie a nechce vedieť a na druhej strane sa snaží o každom zistiť čo najviac.

Okrem geografickej polohy používateľa a lingvistickej analýzy jeho dopytov používa vyhľadávač niekoľko tisíc kritérií, ktoré pre človeka nie sú vôbec zrejmé.

Trik je v tom, že stroj tieto kritériá vyvíja a aktualizuje nezávisle.

Jednoducho používa údaje o preferenciách a správaní používateľov miliónov ľudí a spája tento „aritmetický priemer“ s históriou našich dopytov. Princípy, ktoré riadia Matrix v sebe, porovnávajúc tisíce kategórií záujmov používateľov, ktoré vyvinul, často nezapadajú do tradičných ľudských predstáv o tom, aké „záujmy“ v princípe môžu byť. Sú ich desaťtisíce. Vzájomne vytvárajú rôzne, niekedy vtipné kombinácie. Jednou z týchto kombinácií môže byť napríklad to, že výsledky vyhľadávania zodpovedajú záujmom človeka, ktorý chová mloky. Človek sa zároveň o mloky len nezaujíma, ale už ich chová, ale len prvý rok.

hodnotenia. Pomocné ruky


Matica, samozrejme, sama rozhoduje (s pomocou vyššej matematiky), čo a v akom poradí je potrebné používateľom zobraziť na základe desiatok tisíc kritérií. Matrix však využíva aj živých ľudí – 1 000 zamestnancov Yandexu, takzvaných hodnotiteľov, vyhodnocuje výsledky vyhľadávania pre konkrétnu požiadavku (samozrejme, nie každá žiadosť sa vyhodnocuje, a to sa nerobí v reálnom čase), aby zistili, či spĺňajú očakávania bežného používateľa: nie také racionálne ako stroj, nie také presné vo formulácii, rozporuplné a emocionálne.

Dobré popoludnie, milí čitatelia môjho SEO blogu. . Tento článok je o ako funguje vyhľadávací nástroj Yandex aké technológie a algoritmy používa na hodnotenie stránok a ako pripravuje odpoveď pre používateľov. Mnoho ľudí vie, že táto vlajková loď ruského vyhľadávania udáva tón v Runete, vlastní najväčšiu databázu v Eurázii, spracováva obsah viac ako miliardy stránok a pozná odpoveď na akúkoľvek otázku. Podľa údajov Liveinternetu za august 2012 je podiel Yandexu v Rusku 60,5 %. Mesačná návštevnosť portálu je 48,9 milióna ľudí. Pre nás blogerov je ale najdôležitejšie, ako vyhľadávač prijíma naše požiadavky, ako ich spracuje a aký je výsledok. Na jednej strane poznanie a pochopenie týchto informácií nám uľahčuje používanie všetkých zdrojov Yandex; na druhej strane je jednoduchšie propagovať naše blogy. Preto navrhujem, aby ste sa so mnou pozreli na najdôležitejšie technológie najlepšieho vyhľadávacieho nástroja Runet.

Keď sa používateľ internetu chce prvýkrát obrátiť na vyhľadávač, aby získal informácie, môže mať jednu otázku: „Ako funguje vyhľadávanie?“ Ale keď ho dostane, táto otázka sa často zmení na inú: „Prečo tak rýchlo? A naozaj, prečo hľadanie súboru v počítači trvá 20 sekúnd a výsledok požiadavky z celej siete počítačov po celom svete sa objaví za sekundu? Najzaujímavejšie je, že na prvé dve otázky (ako prebieha vyhľadávanie a prečo 1 sekunda) je možné odpovedať jednou odpoveďou - vyhľadávač sa vopred pripravil na požiadavku používateľa.

Aby sme pochopili princíp fungovania Yandexu, podobne ako iné vyhľadávacie nástroje, nakreslíme analógiu s telefónnym zoznamom. Na nájdenie akéhokoľvek telefónneho čísla potrebujete poznať priezvisko predplatiteľa a akékoľvek vyhľadávanie v tomto prípade trvá maximálne minútu, pretože všetky stránky adresára sú súvislým abecedným indexom. Predstavte si však, že by sa vyhľadávanie uskutočnilo pomocou inej možnosti, kde by boli telefónne čísla zoradené podľa samotných čísel. Po takýchto pátraniach, ktoré sa budú naťahovať dlhší čas, zostanú čísla pred očami hľadača ešte veľmi dlho. 🙂

Rovnako tak vyhľadávač zobrazuje všetky informácie z internetu vo forme, ktorá mu vyhovuje. A čo je najdôležitejšie, všetky tieto údaje sú umiestnené v jej adresári vopred, ešte predtým, ako príde návštevník so svojimi požiadavkami. To znamená, že keď položíme Yandexu otázku, už pozná našu odpoveď. A dá nám to za sekundu. Táto druhá časť však zahŕňa množstvo dôležitých procesov, ktoré teraz podrobne zvážime.

Internetové indexovanie

Yandex ru zhromažďuje všetky informácie, ku ktorým sa dostane na internete. Pomocou špeciálneho vybavenia sa kontroluje všetok obsah vrátane obrázkov na základe vizuálnych parametrov. Vyhľadávací nástroj sa zaoberá takýmto zberom a proces zberu a prípravy údajov sa nazýva indexovanie. Základom takéhoto stroja je počítačový systém, ktorý sa inak nazýva vyhľadávací robot. Pravidelne prehľadáva indexované stránky, kontroluje ich nový obsah a tiež prehľadáva internet, či neobsahuje odstránené stránky. Ak zistí, že takáto stránka už neexistuje alebo je zatvorená z indexovania, odstráni ju z vyhľadávania.

Ako vyhľadávací robot nájde nové stránky? Po prvé, vďaka odkazom z iných stránok. Pretože ak je odkaz umiestnený na nový webový zdroj z už indexovanej stránky, potom pri ďalšej návšteve druhej stránky robot navštívi prvú. Po druhé, existuje skvelá služba, ľudovo nazývaná „addurlka“ (z anglického výrazu -addurl - pridať adresu). V ňom môžete zadať adresu svojej novej stránky, ktorú po chvíli navštívi vyhľadávací robot. Po tretie, pomocou špeciálneho programu „Yandex.Bar“ sa sledujú návštevy používateľov, ktorí ho používajú. Preto, ak sa človek dostane na nový webový zdroj, čoskoro sa tam objaví robot.

Sú všetky stránky zahrnuté do vyhľadávania? Každý deň sa indexujú milióny stránok. Medzi nimi sú stránky rôznej kvality, ktoré môžu obsahovať rôzne informácie – od jedinečného obsahu až po úplný odpad. Navyše, ako hovoria štatistiky, na internete je oveľa viac odpadu. Vyhľadávací robot analyzuje každý dokument pomocou špeciálnych algoritmov. Zisťuje, či má nejaké užitočné informácie a či dokáže odpovedať na požiadavku používateľa. Ak nie, potom takéto stránky nie sú akceptované ako „kozmonauti“, ale ak áno, potom sú zahrnuté do vyhľadávania.

Keď robot navštívi stránku a určí jej užitočnosť, zobrazí sa v úložisku vyhľadávacieho nástroja. Tu analyzujeme akýkoľvek dokument až do úplných základov, ako hovoria majstri automatického centra - až po ozubené kolesá. Stránka je vyčistená od html značiek, čistý text prechádza úplnou inventarizáciou - vypočíta sa umiestnenie každého slova. V tejto rozloženej podobe sa stránka zmení na tabuľku s číslami a písmenami, ktorá sa inak nazýva index. Teraz, bez ohľadu na to, čo sa stane s webovým zdrojom, ktorý obsahuje túto stránku, jeho najnovšia kópia je vždy dostupná vo vyhľadávaní. Aj keď stránka už neexistuje, kópie jej dokumentov sú nejaký čas uložené na internete.

Každý index spolu s údajmi o typoch dokumentov, kódovaní, jazyku spolu s kópiami tvorí vyhľadávanie v databáze . Je pravidelne aktualizovaný, takže sa nachádza na špeciálnych serveroch, pomocou ktorých sa spracúvajú požiadavky používateľov vyhľadávačov.

Ako často prebieha proces indexovania? V prvom rade to závisí od typu stránok. Prvý typ webového zdroja mení obsah svojich stránok veľmi často. To znamená, že keď na tieto stránky zakaždým príde vyhľadávací robot, zakaždým obsahujú iný obsah. Nabudúce pomocou nich nebudete môcť nič nájsť, takže takéto stránky nie sú zahrnuté v indexe. Druhým typom stránok je dátový sklad, na ktorého stránkach sa pravidelne pridávajú odkazy na dokumenty na stiahnutie. Obsah takejto stránky sa zvyčajne nemení, takže ju robot navštevuje veľmi zriedka. Ostatné stránky závisia od frekvencie aktualizácie materiálu. To znamená nasledovné: čím rýchlejšie sa nový obsah objaví na stránke, tým častejšie prichádza vyhľadávací robot. A prioritu majú ako prvé najdôležitejšie webové zdroje (napríklad spravodajská stránka je rádovo dôležitejšia ako akýkoľvek blog).

Indexovanie vám umožňuje vykonávať prvú funkciu vyhľadávacieho nástroja - zhromažďovanie informácií o nových stránkach na internete. Yandex má však aj druhú funkciu - vyhľadávanie odpovede na požiadavku používateľa v už pripravenej vyhľadávacej databáze.

Yandex pripravuje odpoveď

Proces spracovania žiadosti a vydávanie relevantných odpovedí zabezpečuje počítačový systém "Metasearch" . Pre svoju prácu najskôr zhromažďuje všetky vstupné informácie: z ktorého regiónu bola žiadosť podaná, do akej triedy patrí, či sú v žiadosti chyby atď. Po takomto spracovaní metasearch skontroluje, či sú v databáze úplne rovnaké dopyty s rovnakými parametrami. Ak je odpoveď áno, systém zobrazí používateľovi predtým uložené výsledky. Ak takáto otázka v databáze neexistuje, metasearch osloví vyhľadávaciu databázu, ktorá obsahuje údaje indexu.

A práve tu sa dejú úžasné veci. Predstavte si, že existuje jeden super výkonný počítač, v ktorom je uložený celý internet spracovaný vyhľadávacími robotmi. Používateľ nastaví dotaz a v pamäťových bunkách sa začne hľadať všetky dokumenty zahrnuté v dotaze. Odpoveď sa našla a všetci sú spokojní. Ale zoberme si iný prípad, keď je v ich tele veľa žiadostí obsahujúcich rovnaké slová. Systém musí zakaždým prejsť rovnakými pamäťovými bunkami, čo môže výrazne predĺžiť čas potrebný na spracovanie údajov. V súlade s tým sa čas zvyšuje, čo môže viesť k strate používateľa - obráti sa na iný vyhľadávač o pomoc.

Aby sa predišlo takýmto oneskoreniam, všetky kópie v indexe lokality sú distribuované na rôznych počítačoch. Po odoslaní požiadavky metasearch prikáže takýmto serverom, aby vyhľadali ich časť textu. Potom sa všetky údaje z týchto strojov vrátia do centrálneho počítača, skombinuje všetky získané výsledky a poskytne používateľovi desať najlepších odpovedí. Pomocou tejto technológie sú zabité dva vtáky naraz: čas vyhľadávania sa niekoľkonásobne skráti (odpoveď sa získa v zlomku sekundy) a vďaka nárastu platforiem sa informácie duplikujú (údaje sa nestratia v dôsledku náhlych porúch) . Samotné počítače s duplicitnými informáciami tvoria dátové centrum - to je miestnosť so servermi.

Keď používateľ vyhľadávača zadá dotaz, 20-krát zo 100, ciele v otázke sú nejednoznačné. Napríklad, ak do vyhľadávacieho panela napíše slovo „Napoleon“, potom ešte nie je známe, akú odpoveď očakáva - recept na koláč alebo biografiu veľkého veliteľa. Alebo fráza „Bratia Grimmovci“ - rozprávky, filmy, hudobná skupina. Na zúženie takéhoto možného rozsahu cieľov na konkrétne odpovede má Yandex špeciálnu technológiu Rozsah. Zohľadňuje potreby používateľov pomocou štatistík vyhľadávacích dopytov. Zo všetkých otázok, ktoré návštevníci položili v Yandex, Spectrum v nich identifikuje rôzne objekty (mená ľudí, názvy kníh, modely áut atď.) Tieto objekty sú rozdelené do určitých kategórií. V súčasnosti existuje viac ako 60 takýchto kategórií. S ich pomocou má vyhľadávač vo svojej databáze rôzne významy slov v dopytoch používateľov. Je zaujímavé, že tieto kategórie sa pravidelne kontrolujú (analýza sa vykonáva niekoľkokrát týždenne), čo umožňuje spoločnosti Yandex presnejšie poskytovať odpovede na položené otázky.

Na základe technológie Spectrum usporiadal Yandex dialógové výzvy. Zobrazujú sa pod vyhľadávacím panelom, do ktorého používateľ zadáva svoj nejednoznačný dopyt. Tento riadok odráža kategórie, do ktorých môže patriť predmet otázky. Ďalšie výsledky vyhľadávania závisia od výberu tejto kategórie používateľom.

Od 15 do 30% všetkých používateľov vyhľadávacieho nástroja Yandex chce dostávať iba miestne informácie (údaje z regiónu, v ktorom žijú). Napríklad o nových filmoch v kinách vo vašom meste. Preto by odpoveď na takúto žiadosť mala byť pre každý región iná. V tomto ohľade Yandex využíva svoju technológiu vyhľadávanie podľa regiónov . Toto sú napríklad odpovede, ktoré môžu dostať obyvatelia, ktorí hľadajú repertoár filmov vo svojom kine Oktyabr:

Toto je však výsledok, ktorý obyvatelia mesta Stavropol dostanú za rovnakú žiadosť:

Región používateľa je určený predovšetkým jeho IP adresou. Niekedy tieto údaje nie sú presné, pretože viacero poskytovateľov môže pôsobiť vo viacerých regiónoch naraz, a teda meniť IP adresy svojich používateľov. V princípe, ak sa vám to stane, svoj región si jednoducho zmeníte v nastaveniach vo vyhľadávači. Je uvedený v pravom hornom rohu stránky s výsledkami. Môžete to zmeniť.

Vyhľadávač Yandex ru - výsledky odpovedí

Keď Metasearch pripraví odpoveď, vyhľadávací nástroj Yandex by ju mal zobraziť na stránke s výsledkami. Je to zoznam odkazov na nájdené dokumenty s malými informáciami o každom z nich. Úlohou technológie na vydávanie výsledkov je poskytnúť používateľovi čo najrelevantnejšie odpovede tým najinformatívnejším spôsobom. Šablóna pre jeden takýto odkaz vyzerá takto:

Pozrime sa na túto formu výsledku podrobnejšie. Pre názov výsledku vyhľadávania Yandex často používa názov názvu stránky (to, čo optimalizátori píšu do značky názvu). Ak tam nie je, tak sa tu objavia slová z nadpisu článku alebo príspevku. Ak je text nadpisu veľký, vyhľadávací nástroj umiestni do tohto poľa fragment, ktorý je pre daný dopyt najrelevantnejší.

Veľmi zriedka, ale stáva sa, že názov nezodpovedá obsahu požiadavky. V tomto prípade Yandex vytvorí názov výsledku vyhľadávania pomocou textu v článku alebo príspevku. Určite bude mať dopytovacie slová.

Pre úryvok vyhľadávač použije celý text na stránke. Vyberie všetky fragmenty, v ktorých sa nachádza odpoveď na dotaz, a potom vyberie ten najrelevantnejší a do poľa formulára vloží odkazy na dokument. Vďaka tomuto prístupu ho môže kompetentný optimalizátor po zhliadnutí úryvku prerobiť, čím zvýši atraktivitu odkazu.

Pre lepšie vnímanie výsledku požiadavky používateľa sú nadpisy v texte formátované ako odkazy (zvýraznené modrou farbou s podčiarknutím). Aby bol webový zdroj atraktívny a rozpoznateľný, pridáva sa favicon – malá firemná ikona stránky. Zobrazuje sa naľavo od textu v prvom riadku pred nadpisom. Všetky slová, ktoré boli zahrnuté v žiadosti v odpovedi, sú tiež zvýraznené tučným písmom, aby sa uľahčilo vnímanie.

Vyhľadávací nástroj Yandex v poslednej dobe pridáva do úryvku rôzne informácie, ktoré používateľovi pomôžu nájsť svoju odpoveď ešte rýchlejšie a presnejšie. Napríklad, ak používateľ vo svojej žiadosti napíše názov organizácie, Yandex pridá do úryvku jej adresu, kontaktné čísla a odkaz na miesto v geografických mapách. Ak je vyhľadávač oboznámený so štruktúrou stránky, ktorá obsahuje dokument s odpoveďou pre používateľa, určite ju zobrazí. Okrem toho môže Yandex okamžite pridať najnavštevovanejšie stránky takéhoto webového zdroja do úryvku, takže v prípade potreby môže návštevník okamžite prejsť do sekcie, ktorú potrebuje, čím ušetrí čas.

Existujú úryvky, ktoré obsahujú cenu produktu pre internetový obchod, hodnotenie hotela alebo reštaurácie vo forme hviezdičiek a ďalšie zaujímavé informácie s rôznymi číslami o objektoch vo vyhľadávacích dokumentoch. Účelom takýchto informácií je poskytnúť úplný zoznam údajov o tých položkách alebo objektoch, ktoré sú pre používateľa zaujímavé.

Vo všeobecnosti s rôznymi príkladmi bude stránka s odpoveďami vyzerať takto:

Poradie a posudzovatelia

Úloha Yandexu zahŕňa nielen vyhľadávanie všetkých možných možností odpovedí, ale aj výber tých najlepších (relevantných). Používateľ sa predsa nebude prehrabávať všetkými odkazmi, ktoré mu Yandex poskytne ako výsledok vyhľadávania. Proces organizácie výsledkov vyhľadávania je tzv poradie . To znamená, že je to poradie, ktoré určuje kvalitu navrhovaných odpovedí.

Existujú pravidlá, podľa ktorých Yandex určuje relevantné stránky:

  • Stránky, ktoré zhoršujú kvalitu vyhľadávania, budú v pozíciách na stránke s výsledkami znížené. Zvyčajne ide o webové zdroje, ktorých majitelia sa snažia oklamať vyhľadávač. Ide napríklad o stránky so stránkami obsahujúcimi nezmyselný alebo neviditeľný text. Samozrejme, je to viditeľné a zrozumiteľné pre vyhľadávacieho robota, ale nie pre návštevníka, ktorý číta tento dokument. Alebo stránky, ktoré po kliknutí na odkaz v oblasti výsledkov vyhľadávania okamžite prevedú používateľa na úplne inú stránku.
  • Stránky s erotickým obsahom nie sú zahrnuté vo výsledkoch alebo sú výrazne znížené v hodnotení. Je to spôsobené tým, že takéto webové zdroje často používajú agresívne metódy propagácie.
  • Stránky infikované vírusmi sa neznižujú vo výsledkoch vyhľadávania a nie sú vylúčené z výsledkov vyhľadávania - v tomto prípade je používateľ o nebezpečenstve informovaný pomocou špeciálnej ikony. Dôvodom je skutočnosť, že Yandex predpokladá, že takéto webové zdroje môžu obsahovať dôležité dokumenty na žiadosť návštevníka vyhľadávacieho nástroja.

Takto napríklad Yandex zoradí stránky pre dopyt „jablko“:

Okrem faktorov hodnotenia používa Yandex špeciálne vzorky s otázkami a odpoveďami, ktoré používatelia vyhľadávačov považujú za najvhodnejšie. Takéto vzorky v súčasnosti nedokáže vyrobiť žiadny stroj – to je výsada človeka. V Yandex sa takíto špecialisti nazývajú posudzovateľov. Ich úlohou je plne analyzovať všetky vyhľadávané dokumenty a vyhodnocovať odpovede na zadané otázky. Vyberú najlepšie odpovede a vytvoria špeciálny tréningový set. Vyhľadávač v ňom vidí vzťah medzi relevantnými stránkami a ich vlastnosťami. Na základe takýchto informácií môže Yandex vybrať optimálny vzorec hodnotenia pre každú požiadavku. Metóda na zostavenie takéhoto vzorca sa nazýva Matrixnet. Výhodou tohto systému je odolnosť voči prepasovaniu, čo umožňuje brať do úvahy veľké množstvo faktorov hodnotenia bez zvyšovania počtu zbytočných hodnotení a vzorov.

Na konci môjho príspevku vám chcem ukázať zaujímavé štatistiky zhromaždené vyhľadávacím nástrojom Yandex v procese svojej práce.

1. Popularita osobných mien v Rusku a ruských mestách (údaje prevzaté z účtov blogerov a používateľov sociálnych sietí v marci 2012).

Veľký vidca

V roku 1863 napísal veľký spisovateľ Jules Verne svoju ďalšiu knihu „Paríž v 20. storočí“. Podrobne v nej opísal metro, auto, elektrické kreslo, počítač a dokonca aj internet. Vydavateľ však knihu odmietol vytlačiť a ležala tam viac ako 120 rokov, kým ju v roku 1989 nenašiel pravnuk Julesa Verna. Kniha vyšla v roku 1994.

1. Pojmy a definície V tejto zmluve o spracovaní osobných údajov (ďalej len Zmluva) majú nižšie uvedené pojmy nasledujúce definície: Prevádzkovateľ - Fyzická osoba podnikateľ Oleg Aleksandrovich Dneprovsky. Prijatie Zmluvy - úplné a bezvýhradné prijatie všetkých podmienok Zmluvy odoslaním a spracovaním osobných údajov. Osobné údaje – informácie zadané Používateľom (subjekt osobných údajov) na stránku a priamo alebo nepriamo súvisiace s týmto Používateľom. Používateľ - každá fyzická alebo právnická osoba, ktorá úspešne dokončila postup vyplnenia vstupných polí na stránke. Vyplnenie vstupných polí je postup, ktorým Používateľ odošle svoje meno, priezvisko, telefónne číslo, osobnú e-mailovú adresu (ďalej len Osobné údaje) do databázy registrovaných používateľov stránky, vykonávaný za účelom identifikácie používateľ. V dôsledku vyplnenia vstupných polí sú osobné údaje odoslané do databázy Prevádzkovateľa. Vyplnenie vstupných polí je dobrovoľné. webová stránka - webová stránka umiestnená na internete a pozostávajúca z jednej stránky. 2. Všeobecné ustanovenia 2.1. Táto dohoda je vypracovaná na základe požiadaviek federálneho zákona z 27. júla 2006 č. 152-FZ „O osobných údajoch“ a ustanovení článku 13.11 o „Porušovaní právnych predpisov Ruskej federácie v oblasti osobné údaje“ Kódexu správnych deliktov Ruskej federácie a platí pre všetky osobné údaje, ktoré môže Prevádzkovateľ o Používateľovi získať pri používaní Stránky. 2.2. Vyplnenie vstupných polí Používateľom na Stránke znamená bezpodmienečný súhlas Používateľa so všetkými podmienkami tejto Zmluvy (Prijatie Zmluvy). V prípade nesúhlasu s týmito podmienkami Užívateľ nevypĺňa vstupné polia na Stránke. 2.3. Súhlas Používateľa s poskytnutím osobných údajov Prevádzkovateľovi a ich spracovaním Prevádzkovateľom platí do ukončenia činnosti Prevádzkovateľa alebo do odvolania súhlasu Používateľom. Prijatím tejto Zmluvy a vykonaním Registračného postupu, ako aj následným vstupom na Stránku Používateľ potvrdzuje, že konajúc z vlastnej vôle a vo vlastnom záujme odovzdáva svoje osobné údaje na spracovanie Prevádzkovateľovi a súhlasí s tým, ich spracovanie. Používateľ je upozornený, že spracovanie jeho osobných údajov bude Prevádzkovateľ vykonávať na základe federálneho zákona z 27. júla 2006 č. 152-FZ „O osobných údajoch“. 3. Zoznam osobných údajov a iných informácií o používateľovi, ktoré majú byť prenesené Prevádzkovateľovi 3. 1. Používateľ pri používaní Webovej stránky Prevádzkovateľa poskytuje nasledovné osobné údaje: 3.1.1. Spoľahlivé osobné údaje, ktoré používateľ o sebe poskytne nezávisle pri vypĺňaní vstupných polí a/alebo v procese používania služieb stránky, vrátane priezviska, mena, priezviska, telefónneho čísla (domáceho alebo mobilného), osobnej e-mailovej adresy. 3.1.2. Údaje, ktoré sa automaticky prenášajú do služieb Stránky počas ich používania pomocou softvéru nainštalovaného na zariadení Používateľa, vrátane IP adresy, informácií zo súborov cookie, informácií o prehliadači Používateľa (alebo inom programe, prostredníctvom ktorého sa k službám pristupuje). 3.2. Prevádzkovateľ neoveruje správnosť osobných údajov poskytnutých Používateľom. Prevádzkovateľ v tomto prípade predpokladá, že Používateľ poskytuje spoľahlivé a dostatočné osobné informácie o otázkach navrhnutých vo Vstupných poliach. 4. Účely, pravidlá zhromažďovania a používania osobných údajov 4.1. Prevádzkovateľ spracúva osobné údaje, ktoré sú nevyhnutné na poskytovanie služieb a poskytovanie služieb Užívateľovi. 4.2. Osobné údaje Užívateľa využíva Prevádzkovateľ na tieto účely: 4.2.1. Identifikácia užívateľa; 4.2.2. Poskytovanie personalizovaných služieb Používateľovi (ako aj informovanie o nových akciách a službách spoločnosti zasielaním listov); 4.2.3. Udržiavanie kontaktu s Používateľom v prípade potreby vrátane zasielania upozornení, žiadostí a informácií súvisiacich s využívaním služieb, poskytovaním služieb, ako aj vybavovaním žiadostí a žiadostí Používateľa; 4.3. Pri spracúvaní osobných údajov sa budú vykonávať tieto úkony: zhromažďovanie, zaznamenávanie, systematizácia, zhromažďovanie, uchovávanie, objasňovanie (aktualizácia, zmena), extrakcia, použitie, blokovanie, vymazanie, zničenie. 4.4. Používateľ nenamieta, že ním uvedené informácie v určitých prípadoch môžu byť poskytnuté oprávneným štátnym orgánom Ruskej federácie v súlade s platnou legislatívou Ruskej federácie. 4.5. Osobné údaje Užívateľa sú uchovávané a spracovávané Prevádzkovateľom spôsobom uvedeným v tejto Zmluve po celú dobu činnosti Prevádzkovateľa. 4.6. Spracúvanie osobných údajov vykonáva Prevádzkovateľ vedením databáz, automatizovanými, mechanickými a manuálnymi metódami. 4.7. Stránka používa súbory cookie a ďalšie technológie na sledovanie používania služieb lokality. Tieto údaje sú potrebné na optimalizáciu technickej prevádzky Stránky a zlepšenie kvality poskytovania služieb. Stránka automaticky zaznamenáva informácie (vrátane URL, IP adresy, typu prehliadača, jazyka, dátumu a času požiadavky) o každom návštevníkovi Stránky. Používateľ má právo odmietnuť poskytnutie osobných údajov pri návšteve Stránky alebo zakázať Cookies, avšak v tomto prípade nemusia všetky funkcie Stránky fungovať správne. 4.8. Podmienky mlčanlivosti uvedené v tejto zmluve sa vzťahujú na všetky informácie, ktoré môže Prevádzkovateľ získať o Používateľovi počas jeho pobytu na Stránke a používania Stránky. 4.9. Informácie, ktoré sa zverejnia počas vykonávania tejto zmluvy, ako aj informácie, ktoré môžu zmluvné strany alebo tretie strany získať zo zdrojov, ku ktorým má ľubovoľná osoba voľný prístup, nie sú dôverné. 4.10. Prevádzkovateľ prijíma všetky potrebné opatrenia na ochranu dôvernosti osobných údajov Používateľa pred neoprávneným prístupom, úpravou, zverejnením alebo zničením, vrátane: zabezpečenia neustáleho interného overovania procesov zhromažďovania, uchovávania a spracovania údajov a zaistenia bezpečnosti; zabezpečuje fyzickú bezpečnosť údajov, bráni neoprávnenému prístupu k technickým systémom, ktoré zabezpečujú prevádzku Stránky, v ktorej Prevádzkovateľ uchováva osobné údaje; poskytuje prístup k osobným údajom len tým zamestnancom Prevádzkovateľa alebo oprávneným osobám, ktoré tieto informácie potrebujú na plnenie povinností priamo súvisiacich s poskytovaním služieb Užívateľovi, ako aj s prevádzkou, vývojom a zlepšovaním Stránky. 4.11. Osobné údaje Používateľa zostávajú dôverné, okrem prípadov, keď Používateľ dobrovoľne poskytne informácie o sebe pre všeobecný prístup neobmedzenému počtu osôb. 4.12. Prenos osobných údajov Používateľa zo strany Prevádzkovateľa je zákonný počas reorganizácie Prevádzkovateľa a prechodu práv na právneho nástupcu Prevádzkovateľa, pričom všetky povinnosti dodržiavať podmienky tejto Zmluvy vo vzťahu k ním prijatým osobným údajom sú zákonné. prejde na právneho nástupcu. 4.13. Toto vyhlásenie sa vzťahuje len na webovú stránku Prevádzkovateľa. Spoločnosť nekontroluje a nezodpovedá za stránky (služby) tretích strán, ku ktorým má používateľ prístup prostredníctvom odkazov dostupných na Webovej stránke Prevádzkovateľa, a to aj vo výsledkoch vyhľadávania. Na takýchto stránkach (službách) sa môžu zhromažďovať alebo požadovať od používateľa ďalšie osobné údaje a môžu sa vykonávať iné akcie 5. Práva užívateľa ako subjektu osobných údajov, zmena a vymazanie osobných údajov užívateľom 5.1. Užívateľ má právo: 5.1.2. Vyžadovať od Prevádzkovateľa, aby objasnil jeho osobné údaje, zablokoval ich alebo zlikvidoval, ak sú osobné údaje neúplné, neaktuálne, nepresné, získané nezákonne alebo nie sú potrebné na uvedený účel spracúvania, a tiež prijal zákonom stanovené opatrenia na ochranu jeho práv. 5.1.3. Dostávať informácie o spracúvaní jeho osobných údajov vrátane informácií obsahujúcich: 5.1.3.1. potvrdenie skutočnosti o spracúvaní osobných údajov Prevádzkovateľom; 5.1.3.2. účely a spôsoby spracúvania osobných údajov, ktoré prevádzkovateľ používa; 5.1.3.3. meno a sídlo Prevádzkovateľa; 5.1.3.4. spracúvané osobné údaje súvisiace s príslušným subjektom osobných údajov, zdroj ich získania, pokiaľ federálny zákon neustanovuje iný postup na predkladanie takýchto údajov; 5.1.3.5. podmienky spracovania osobných údajov vrátane doby ich uchovávania; 5.1.3.6. ďalšie informácie stanovené v platnej legislatíve Ruskej federácie. 5.2. Odvolanie súhlasu so spracovaním osobných údajov môže Užívateľ uskutočniť zaslaním Prevádzkovateľa primeraného písomného (vytlačeného na hmotnom nosiči a podpísaného Užívateľom) oznámenia. 6. Zodpovednosti Prevádzkovateľa. Prístup k osobným údajom 6.1. Prevádzkovateľ sa zaväzuje zabezpečiť zamedzenie neoprávneného a necieleného prístupu k osobným údajom Používateľov webových stránok Prevádzkovateľa. V tomto prípade sa za oprávnený a cielený prístup k osobným údajom Používateľov Stránky bude považovať prístup všetkých zainteresovaných strán realizovaný v rámci cieľov a predmetu Stránky Prevádzkovateľa. Prevádzkovateľ zároveň nezodpovedá za prípadné zneužitie osobných údajov Používateľov, ku ktorému dôjde v dôsledku: technických problémov v softvéri a v hardvéri a sieťach mimo kontroly Prevádzkovateľa; v súvislosti s úmyselným alebo neúmyselným používaním webových stránok prevádzkovateľa na iný ako zamýšľaný účel tretími osobami; 6.2 Prevádzkovateľ prijíma nevyhnutné a dostatočné organizačné a technické opatrenia na ochranu osobných údajov užívateľa pred neoprávneným alebo náhodným prístupom, zničením, úpravou, blokovaním, kopírovaním, šírením, ako aj pred iným protiprávnym konaním tretích osôb s ním. 7. Zmeny Zásad ochrany osobných údajov. Platné právne predpisy 7.1. Prevádzkovateľ má právo vykonávať zmeny týchto Pravidiel bez osobitného upozornenia Používateľov. Po vykonaní zmien v aktuálnom vydaní sa zobrazí dátum poslednej aktualizácie. Nové vydanie Predpisov nadobúda účinnosť okamihom jeho zverejnenia, pokiaľ nie je v novom vydaní Poriadku stanovené inak. 7.2. Na toto nariadenie a vzťah medzi Používateľom a Prevádzkovateľom vznikajúci v súvislosti s aplikáciou Nariadenia sa vzťahuje právo Ruskej federácie. Prijímam Neprijímam