เครื่องมือค้นหา Yandex มีอะไรใหม่ ยานเดกซ์ - ยานเดกซ์คืออะไรและเหตุใดจึงเรียกว่ายานเดกซ์ องค์ประกอบและหลักการทำงานของระบบค้นหา

พวกเขากลายเป็นส่วนสำคัญของอินเทอร์เน็ตรัสเซียมายาวนาน ขณะนี้เครื่องมือค้นหาเป็นกลไกขนาดใหญ่และซับซ้อนซึ่งไม่เพียงแต่เป็นตัวแทนของเครื่องมือค้นหาข้อมูลเท่านั้น แต่ยังเป็นพื้นที่ที่ดึงดูดใจสำหรับธุรกิจอีกด้วย

ผู้ใช้เครื่องมือค้นหาส่วนใหญ่ไม่เคยคิด (หรือคิดเกี่ยวกับมัน แต่ไม่พบคำตอบ) เกี่ยวกับหลักการทำงานของเครื่องมือค้นหาเกี่ยวกับรูปแบบการประมวลผลคำขอของผู้ใช้เกี่ยวกับสิ่งที่ระบบเหล่านี้ประกอบด้วยและวิธีการทำงานของมัน...

คลาสมาสเตอร์นี้ออกแบบมาเพื่อตอบคำถามว่าเครื่องมือค้นหาทำงานอย่างไร อย่างไรก็ตาม คุณจะไม่พบปัจจัยที่มีอิทธิพลต่อการจัดอันดับเอกสารที่นี่ ยิ่งกว่านั้นคุณไม่ควรนับคำอธิบายโดยละเอียดของอัลกอริทึม Yandex ตามคำบอกเล่าของ Ilya Segalovich ผู้อำนวยการฝ่ายเทคโนโลยีและการพัฒนาเครื่องมือค้นหา Yandex นั้นมีเพียง Ilya Segalovich เท่านั้นที่จำได้ว่า "ถูกทรมาน"...

2. แนวคิดและหน้าที่ของเครื่องมือค้นหา

ระบบค้นหาคือซอฟต์แวร์และฮาร์ดแวร์ที่ซับซ้อนที่ออกแบบมาเพื่อค้นหาอินเทอร์เน็ตและตอบสนองต่อคำขอของผู้ใช้ที่ระบุในรูปแบบของวลีข้อความ (คำค้นหา) โดยสร้างรายการลิงก์ไปยังแหล่งข้อมูลตามลำดับความเกี่ยวข้อง ( ตามคำขอ) เครื่องมือค้นหาระดับนานาชาติที่ใหญ่ที่สุด: "Google", ยาฮู , เอ็มเอสเอ็น . บนอินเทอร์เน็ตของรัสเซีย ได้แก่ Yandex, Rambler, Aport

มาดูแนวคิดของคำค้นหาโดยใช้เครื่องมือค้นหา Yandex เป็นตัวอย่างกันดีกว่า ผู้ใช้ควรกำหนดคำค้นหาให้สอดคล้องกับสิ่งที่เขาต้องการค้นหาโดยกระชับและเรียบง่ายที่สุด สมมติว่าเราต้องการค้นหาข้อมูลใน Yandex เกี่ยวกับวิธีการเลือกรถยนต์ ในการดำเนินการนี้ ให้เปิดหน้าหลักของยานเดกซ์แล้วป้อนข้อความค้นหา "วิธีเลือกรถยนต์" ต่อไป งานของเราคือการเปิดลิงก์ที่ให้ไว้ตามคำขอของเราไปยังแหล่งข้อมูลบนอินเทอร์เน็ต อย่างไรก็ตาม มีความเป็นไปได้ค่อนข้างมากที่เราจะไม่พบข้อมูลที่เราต้องการ หากสิ่งนี้เกิดขึ้น คุณจะต้องเรียบเรียงคำขอของคุณใหม่ หรือฐานข้อมูลเครื่องมือค้นหาไม่มีข้อมูลที่เกี่ยวข้องกับคำขอของเราจริงๆ (ซึ่งอาจเกิดขึ้นได้เมื่อถามคำถามที่ "แคบ" มาก เช่น "วิธีเลือก" รถยนต์ใน Arkhangelsk”)

เป้าหมายหลักของเครื่องมือค้นหาคือการนำเสนอข้อมูลที่ต้องการแก่ผู้คน และสอนผู้ใช้ให้ทำการร้องขอที่ “ถูกต้อง” ไปยังระบบ เช่น ข้อความค้นหาที่สอดคล้องกับหลักการทำงานของเครื่องมือค้นหานั้นเป็นไปไม่ได้ ดังนั้นนักพัฒนาจึงสร้างอัลกอริธึมและหลักการทำงานของเครื่องมือค้นหาที่จะช่วยให้ผู้ใช้ค้นหาข้อมูลที่ต้องการได้

ซึ่งหมายความว่าเครื่องมือค้นหาจะต้อง “คิด” แบบเดียวกับที่ผู้ใช้คิดเมื่อค้นหาข้อมูล เมื่อผู้ใช้ส่งคำขอไปยังเครื่องมือค้นหา เขาต้องการค้นหาสิ่งที่ต้องการอย่างรวดเร็วและง่ายดายที่สุด เมื่อได้รับผลลัพธ์ เขาประเมินประสิทธิภาพของระบบตามคำแนะนำของพารามิเตอร์พื้นฐานหลายประการ เขาพบสิ่งที่เขากำลังมองหาหรือไม่? หากเขาไม่พบ จะต้องเรียบเรียงคำถามใหม่กี่ครั้งเพื่อค้นหาสิ่งที่เขากำลังมองหา เขาสามารถหาข้อมูลที่เกี่ยวข้องได้มากเพียงใด เครื่องมือค้นหาประมวลผลคำค้นหาได้เร็วแค่ไหน? ผลการค้นหานำเสนอสะดวกเพียงใด ผลลัพธ์ที่คุณกำลังมองหาเป็นอันดับแรกหรือที่ร้อยหรือไม่? พบขยะที่ไม่จำเป็นพร้อมข้อมูลที่เป็นประโยชน์มากน้อยเพียงใด จะพบข้อมูลที่จำเป็นเมื่อเข้าถึงเครื่องมือค้นหา เช่น หนึ่งสัปดาห์หรือหนึ่งเดือน?

เพื่อตอบคำถามเหล่านี้ด้วยคำตอบ นักพัฒนาเครื่องมือค้นหาจึงปรับปรุงอัลกอริธึมและหลักการในการค้นหาอย่างต่อเนื่อง เพิ่มฟังก์ชันและความสามารถใหม่ ๆ และพยายามทุกวิถีทางเพื่อเร่งการทำงานของระบบ

3. ลักษณะสำคัญของเครื่องมือค้นหา

ให้เราอธิบายลักษณะสำคัญของเครื่องมือค้นหา:

  • ความสมบูรณ์

    ความสมบูรณ์เป็นหนึ่งในคุณสมบัติหลักของระบบการค้นหา ซึ่งเป็นอัตราส่วนของจำนวนเอกสารที่พบโดยการร้องขอต่อจำนวนเอกสารทั้งหมดบนอินเทอร์เน็ตที่ตอบสนองคำขอที่กำหนด ตัวอย่างเช่น หากมี 100 หน้าบนอินเทอร์เน็ตที่มีวลี "วิธีเลือกรถยนต์" และพบเพียง 60 หน้าสำหรับข้อความค้นหาที่เกี่ยวข้อง ความสมบูรณ์ของการค้นหาจะเป็น 0.6 เห็นได้ชัดว่ายิ่งการค้นหาสมบูรณ์มากขึ้นเท่าใด ผู้ใช้ก็จะไม่พบเอกสารที่ต้องการมากขึ้นเท่านั้น โดยมีเงื่อนไขว่าเอกสารนั้นมีอยู่บนอินเทอร์เน็ตเลย

  • ความแม่นยำ

    ความแม่นยำเป็นคุณสมบัติหลักอีกประการหนึ่งของเครื่องมือค้นหาซึ่งกำหนดโดยระดับที่เอกสารที่พบตรงกับข้อความค้นหาของผู้ใช้ ตัวอย่างเช่น หากข้อความค้นหา "วิธีเลือกรถยนต์" มีเอกสาร 100 ฉบับ โดย 50 รายการในนั้นมีวลี "วิธีเลือกรถยนต์" และส่วนที่เหลือก็มีคำเหล่านี้ (“วิธีเลือกวิทยุที่เหมาะสมและติดตั้งใน รถยนต์") จากนั้นถือว่าความแม่นยำในการค้นหาเท่ากับ 50/100 (=0.5) ยิ่งการค้นหาแม่นยำยิ่งขึ้น ผู้ใช้ก็จะพบเอกสารที่ต้องการได้เร็วยิ่งขึ้นเท่านั้น ก็จะพบ "ขยะ" ประเภทต่าง ๆ น้อยลงในหมู่พวกเขา เอกสารที่พบก็จะไม่สอดคล้องกับคำขอบ่อยขึ้น

  • ความเกี่ยวข้อง

    ความเกี่ยวข้องเป็นองค์ประกอบที่สำคัญไม่แพ้กันในการค้นหา ซึ่งมีลักษณะเฉพาะคือเวลาที่ผ่านไปจากช่วงเวลาที่เอกสารถูกเผยแพร่บนอินเทอร์เน็ตจนกระทั่งเข้าสู่ฐานข้อมูลดัชนีของเครื่องมือค้นหา ตัวอย่างเช่น หนึ่งวันหลังจากข่าวที่น่าสนใจปรากฏขึ้น ผู้ใช้จำนวนมากหันไปหาเครื่องมือค้นหาที่มีข้อความค้นหาที่เกี่ยวข้อง ผ่านไปไม่ถึงหนึ่งวันนับตั้งแต่มีการเผยแพร่ข้อมูลข่าวในหัวข้อนี้ แต่เอกสารหลักได้รับการจัดทำดัชนีและพร้อมสำหรับการค้นหาแล้วเนื่องจากการมีอยู่ของเครื่องมือค้นหาขนาดใหญ่ที่เรียกว่า "ฐานข้อมูลที่รวดเร็ว" ซึ่ง มีการอัปเดตหลายครั้งต่อวัน

  • ความเร็วในการค้นหา

    ความเร็วในการค้นหามีความสัมพันธ์อย่างใกล้ชิดกับความต้านทานโหลด ตัวอย่างเช่น ตามข้อมูลของ Rambler Internet Holding LLC วันนี้ในช่วงเวลาทำการ เครื่องมือค้นหาของ Rambler ได้รับคำขอประมาณ 60 รายการต่อวินาที ภาระงานดังกล่าวจำเป็นต้องลดเวลาการประมวลผลคำขอแต่ละรายการ ความสนใจของผู้ใช้และเครื่องมือค้นหาตรงกันที่นี่: ผู้เข้าชมต้องการได้รับผลลัพธ์โดยเร็วที่สุดและเครื่องมือค้นหาจะต้องดำเนินการตามคำขอโดยเร็วที่สุดเพื่อไม่ให้การคำนวณข้อความค้นหาที่ตามมาช้าลง

  • ทัศนวิสัย

4. ประวัติโดยย่อของการพัฒนาเครื่องมือค้นหา

ในช่วงเริ่มต้นของการพัฒนาอินเทอร์เน็ต จำนวนผู้ใช้มีน้อย และปริมาณข้อมูลที่มีอยู่ค่อนข้างน้อย โดยส่วนใหญ่แล้ว มีเพียงเจ้าหน้าที่วิจัยเท่านั้นที่สามารถเข้าถึงอินเทอร์เน็ตได้ ช่วงนี้งานค้นหาข้อมูลทางอินเตอร์เน็ตยังไม่เร่งด่วนเหมือนตอนนี้

หนึ่งในวิธีแรก ๆ ในการจัดการการเข้าถึงทรัพยากรข้อมูลเครือข่ายคือการสร้างไดเร็กทอรีแบบเปิดของไซต์ลิงก์ไปยังแหล่งข้อมูลที่จัดกลุ่มตามหัวข้อ โครงการแรกดังกล่าวคือเว็บไซต์ Yahoo.com ซึ่งเปิดในฤดูใบไม้ผลิปี 1994 หลังจากที่จำนวนไซต์ในแค็ตตาล็อกเพิ่มขึ้นอย่างมาก ความสามารถในการค้นหาข้อมูลที่จำเป็นในแค็ตตาล็อกก็ถูกเพิ่มเข้ามา โดยรวมแล้ว มันยังไม่ใช่เครื่องมือค้นหา เนื่องจากพื้นที่การค้นหาถูกจำกัดไว้เฉพาะทรัพยากรที่มีอยู่ในแค็ตตาล็อกเท่านั้น ไม่ใช่ทรัพยากรอินเทอร์เน็ตทั้งหมด

ไดเร็กทอรี Link ถูกใช้กันอย่างแพร่หลายในอดีต แต่ปัจจุบันได้สูญเสียความนิยมไปเกือบทั้งหมดแล้ว เนื่องจากแม้แต่แคตตาล็อกสมัยใหม่ซึ่งมีปริมาณมาก ก็มีข้อมูลเกี่ยวกับอินเทอร์เน็ตเพียงบางส่วนเท่านั้น ไดเรกทอรีที่ใหญ่ที่สุดของเครือข่าย DMOZ (หรือที่เรียกว่า Open Directory Project) มีข้อมูลเกี่ยวกับทรัพยากรประมาณ 5 ล้านรายการ ในขณะที่ฐานข้อมูลเครื่องมือค้นหาของ Google ประกอบด้วยเอกสารมากกว่า 8 พันล้านฉบับ

ในปี 1995 เครื่องมือค้นหา Lycos และ AltaVista ปรากฏขึ้น หลังเป็นผู้นำในด้านการค้นหาข้อมูลบนอินเทอร์เน็ตมาหลายปี

ในปี 1997 เซอร์เกย์ บริน และแลร์รี เพจ ได้สร้างเครื่องมือค้นหาของ Google โดยเป็นส่วนหนึ่งของโครงการวิจัยที่มหาวิทยาลัยสแตนฟอร์ด ปัจจุบัน Google เป็นเครื่องมือค้นหาที่ได้รับความนิยมมากที่สุดในโลก!

ในเดือนกันยายน พ.ศ. 2540 เครื่องมือค้นหายานเดกซ์ซึ่งได้รับความนิยมมากที่สุดบนอินเทอร์เน็ตภาษารัสเซียได้ประกาศอย่างเป็นทางการ

ปัจจุบันมีเครื่องมือค้นหาหลักสามแห่ง (ระหว่างประเทศ) ได้แก่ Google, Yahoo และซึ่งมีฐานข้อมูลและอัลกอริธึมการค้นหาของตนเอง เครื่องมือค้นหาอื่น ๆ ส่วนใหญ่ (ซึ่งมีจำนวนมาก) ใช้ผลลัพธ์จากทั้งสามรายการในรูปแบบใดรูปแบบหนึ่ง ตัวอย่างเช่น การค้นหา AOL (search.aol.com) ใช้ฐานข้อมูลของ Google ในขณะที่ AltaVista, Lycos และ AllTheWeb ใช้ฐานข้อมูล Yahoo

5. องค์ประกอบและหลักการทำงานของระบบค้นหา

ในรัสเซียเครื่องมือค้นหาหลักคือ Yandex ตามด้วย Rambler.ru, Google.ru, Aport.ru, Mail.ru ยิ่งไปกว่านั้น ในขณะนี้ Mail.ru ยังใช้เครื่องมือค้นหาและฐานข้อมูลของ Yandex

เสิร์ชเอ็นจิ้นหลักๆ เกือบทั้งหมดมีโครงสร้างเป็นของตัวเอง แตกต่างจากเสิร์ชเอ็นจิ้นอื่นๆ อย่างไรก็ตาม คุณสามารถระบุองค์ประกอบหลักที่เหมือนกันในเครื่องมือค้นหาทั้งหมดได้ ความแตกต่างในโครงสร้างสามารถอยู่ได้เฉพาะในรูปแบบของการใช้กลไกการโต้ตอบของส่วนประกอบเหล่านี้เท่านั้น

โมดูลการจัดทำดัชนี

โมดูลการจัดทำดัชนีประกอบด้วยโปรแกรมเสริมสามโปรแกรม (หุ่นยนต์):

Spider เป็นโปรแกรมที่ออกแบบมาเพื่อดาวน์โหลดหน้าเว็บ สไปเดอร์จะดาวน์โหลดเพจและดึงลิงก์ภายในทั้งหมดจากหน้านั้น ดาวน์โหลดโค้ด html ของแต่ละหน้าแล้ว โรบ็อตใช้โปรโตคอล HTTP เพื่อดาวน์โหลดเพจ แมงมุมทำงานดังนี้ หุ่นยนต์ส่งคำขอ “get/path/document” และคำสั่งคำขอ HTTP อื่นๆ ไปยังเซิร์ฟเวอร์ ในการตอบสนอง หุ่นยนต์จะได้รับข้อความที่มีข้อมูลการบริการและตัวเอกสารเอง

  • URL ของหน้า
  • วันที่ดาวน์โหลดเพจ
  • ส่วนหัว http การตอบสนองของเซิร์ฟเวอร์
  • เนื้อหาของหน้า (โค้ด html)

โปรแกรมรวบรวมข้อมูล (“สไปเดอร์การเดินทาง”) เป็นโปรแกรมที่ติดตามลิงก์ทั้งหมดที่พบในหน้าโดยอัตโนมัติ เลือกลิงก์ทั้งหมดที่มีอยู่ในหน้า หน้าที่ของมันคือการกำหนดว่าสไปเดอร์ควรไปที่ไหนต่อไป ตามลิงก์หรือตามรายการที่อยู่ที่กำหนดไว้ล่วงหน้า โปรแกรมรวบรวมข้อมูลตามลิงก์ที่พบ ค้นหาเอกสารใหม่ที่เครื่องมือค้นหายังไม่รู้จัก

Indexer (ตัวสร้างดัชนีหุ่นยนต์) เป็นโปรแกรมที่วิเคราะห์หน้าเว็บที่ดาวน์โหลดโดยสไปเดอร์ ตัวสร้างดัชนีจะแยกวิเคราะห์เพจออกเป็นส่วนต่างๆ และวิเคราะห์โดยใช้อัลกอริธึมคำศัพท์และสัณฐานวิทยาของตัวมันเอง มีการวิเคราะห์องค์ประกอบต่างๆ ของหน้า เช่น ข้อความ ส่วนหัว ลิงก์ คุณสมบัติโครงสร้างและสไตล์ แท็ก HTML บริการพิเศษ เป็นต้น

ดังนั้น โมดูลการจัดทำดัชนีทำให้คุณสามารถรวบรวมข้อมูลชุดทรัพยากรที่กำหนดโดยใช้ลิงก์ ดาวน์โหลดหน้าที่พบ แยกลิงก์ไปยังหน้าใหม่จากเอกสารที่ได้รับ และดำเนินการวิเคราะห์เอกสารเหล่านี้โดยสมบูรณ์

ฐานข้อมูล

ฐานข้อมูลหรือดัชนีเครื่องมือค้นหาคือระบบจัดเก็บข้อมูล ซึ่งเป็นอาร์เรย์ข้อมูลที่จัดเก็บพารามิเตอร์ที่แปลงเป็นพิเศษของเอกสารทั้งหมดที่ดาวน์โหลดและประมวลผลโดยโมดูลการจัดทำดัชนี

เซิร์ฟเวอร์การค้นหา

เซิร์ฟเวอร์การค้นหาเป็นองค์ประกอบที่สำคัญที่สุดของทั้งระบบ เนื่องจากคุณภาพและความเร็วของการค้นหาขึ้นอยู่กับอัลกอริธึมที่รองรับการทำงานของเซิร์ฟเวอร์โดยตรง

เซิร์ฟเวอร์การค้นหาทำงานดังนี้:

  • คำขอที่ได้รับจากผู้ใช้จะต้องได้รับการวิเคราะห์ทางสัณฐานวิทยา สภาพแวดล้อมข้อมูลของแต่ละเอกสารที่มีอยู่ในฐานข้อมูลจะถูกสร้างขึ้น (ซึ่งต่อมาจะแสดงในรูปแบบนั่นคือข้อมูลข้อความที่สอดคล้องกับคำขอในหน้าผลการค้นหา)
  • ข้อมูลที่ได้รับจะถูกส่งผ่านเป็นพารามิเตอร์อินพุตไปยังโมดูลการจัดอันดับพิเศษ ข้อมูลได้รับการประมวลผลสำหรับเอกสารทั้งหมด ซึ่งส่งผลให้แต่ละเอกสารมีการให้คะแนนของตัวเองซึ่งระบุลักษณะความเกี่ยวข้องของข้อความค้นหาที่ผู้ใช้ป้อนและส่วนประกอบต่างๆ ของเอกสารนี้ที่จัดเก็บไว้ในดัชนีเครื่องมือค้นหา
  • การให้คะแนนนี้สามารถปรับได้ตามเงื่อนไขเพิ่มเติม (เช่น ที่เรียกว่า "การค้นหาขั้นสูง") ทั้งนี้ขึ้นอยู่กับตัวเลือกของผู้ใช้
  • จากนั้น จะมีการสร้างตัวอย่างข้อมูล สำหรับแต่ละเอกสารที่พบ ชื่อเรื่อง บทคัดย่อสั้นๆ ที่ตรงกับข้อความค้นหามากที่สุด และลิงก์ไปยังเอกสารนั้นจะถูกแยกออกจากตารางเอกสาร และคำที่พบจะถูกเน้นสี
  • ผลลัพธ์การค้นหาจะถูกส่งไปยังผู้ใช้ในรูปแบบของ SERP (หน้าผลลัพธ์ของเครื่องมือค้นหา) - หน้าผลลัพธ์การค้นหา

อย่างที่คุณเห็นส่วนประกอบทั้งหมดเหล่านี้มีความสัมพันธ์กันอย่างใกล้ชิดและทำงานร่วมกันทำให้เกิดกลไกที่ชัดเจนและค่อนข้างซับซ้อนสำหรับการทำงานของระบบการค้นหาซึ่งต้องใช้ทรัพยากรจำนวนมาก

6. บทสรุป

ตอนนี้ขอสรุปทั้งหมดข้างต้น

  • เป้าหมายหลักของเครื่องมือค้นหาคือการนำเสนอข้อมูลที่ต้องการแก่ผู้คน
  • ลักษณะสำคัญของเครื่องมือค้นหา:
    1. ความสมบูรณ์
    2. ความแม่นยำ
    3. ความเกี่ยวข้อง
    4. ความเร็วในการค้นหา
    5. ทัศนวิสัย
  • เครื่องมือค้นหาเต็มรูปแบบตัวแรกคือโครงการ WebCrawler ซึ่งเผยแพร่ในปี 1994
  • ระบบค้นหาประกอบด้วยส่วนประกอบต่อไปนี้:
    1. โมดูลการจัดทำดัชนี
    2. ฐานข้อมูล
    3. เซิร์ฟเวอร์การค้นหา

เราหวังว่ามาสเตอร์คลาสของเราจะช่วยให้คุณคุ้นเคยกับแนวคิดของเครื่องมือค้นหามากขึ้นและเข้าใจฟังก์ชันหลัก ลักษณะ และหลักการทำงานของเครื่องมือค้นหาได้ดีขึ้น

สวัสดีเพื่อนรัก! ในบทความนี้ เราจะดูเครื่องมือค้นหา Yandex ต่อไป และอย่างที่คุณจำได้ในบทความก่อนหน้านี้ เราได้กล่าวถึงประวัติความเป็นมาของการสร้างบริษัทที่ยิ่งใหญ่แห่งนี้ ซึ่งครองอันดับหนึ่งในบรรดาคู่แข่งในรัสเซียและที่อื่น ๆ

ทั้งหมดนี้เป็นสิ่งที่ดี แต่แน่นอนว่าผู้เริ่มต้นและผู้สร้างไซต์ที่มีประสบการณ์สนใจคำถามที่สำคัญที่สุดซึ่งเกี่ยวข้องกับวิธีนำโครงการของตนไปเป็นที่แรกในผลการค้นหาอันดับต้น ๆ

ดังนั้นเรามาดูกันว่าเครื่องมือค้นหา Yandex ทำงานอย่างไรเพื่อทำความเข้าใจว่าข้อผิดพลาดใดที่คุณสามารถทำได้และสิ่งที่คาดหวังจากเครื่องมือค้นหาของรัสเซียโดยทั่วไป

ในบทความล่าสุดที่เราพูดคุยกัน หัวข้อนี้ค่อนข้างน่าสนใจและมีประโยชน์ ดังนั้นฉันจึงตัดสินใจที่จะเสริมมันให้ลึกซึ้งยิ่งขึ้น

ดังนั้น ฉันอาจจะรู้สึกสับสนเล็กน้อยกับคำถามที่ว่า “ทำไมเอกสารดัชนีของเครื่องมือค้นหาถึงมี” ไม่ใช่เรื่องง่าย สิ่งที่เหลืออยู่คือการหาคำถาม "อย่างไร"

อัลกอริธึมการจัดอันดับเว็บไซต์

ก่อนอื่น มาทำความรู้จักกับอัลกอริธึมที่เป็นพื้นฐานของเครื่องมือค้นหากันก่อน:

— อัลกอริธึมการค้นหาโดยตรง

มันคืออะไร - คุณจำได้ว่าเคยอ่านเรื่องราวที่ยอดเยี่ยมในหนังสือเล่มหนึ่ง และคุณเริ่มมองหาทีละคน พวกเขาหยิบหนังสือเล่มหนึ่งเข้าไปดู ไม่พบ หยิบอีกเล่ม... หลักการชัดเจน แต่วิธีนี้ยาวมาก นี่ก็เป็นที่เข้าใจได้เช่นกัน

— อัลกอริธึมการค้นหาแบบย้อนกลับ

สำหรับอัลกอริทึมนี้ ไฟล์ข้อความจะถูกสร้างขึ้นจากแต่ละหน้าในบล็อกของคุณ ไฟล์นี้แสดงรายการตามลำดับตัวอักษรทุกคำที่คุณใช้ แม้แต่ตำแหน่งของคำนี้ในข้อความก็ยังระบุ (พิกัดในข้อความ)

นี่เป็นวิธีที่ค่อนข้างรวดเร็ว แต่การค้นหาเกิดขึ้นแล้วโดยมีข้อผิดพลาดบางประการ

สิ่งสำคัญที่ต้องทำความเข้าใจที่นี่คืออัลกอริทึมนี้ไม่ได้ค้นหาบนอินเทอร์เน็ต ไม่ใช่โดยการค้นหาในบล็อก และในไฟล์ข้อความแยกต่างหากที่สร้างขึ้นเมื่อนานมาแล้ว เมื่อหุ่นยนต์มาหาคุณ และไฟล์เหล่านี้ (ดัชนีย้อนกลับ) จะถูกเก็บไว้ในเซิร์ฟเวอร์ Yandex

นี่คืออัลกอริธึมการค้นหาขั้นพื้นฐาน เหล่านั้น. ยานเดกซ์ค้นหาเอกสารที่จำเป็นได้อย่างไร ดูเหมือนจะไม่มีปัญหาใดๆ กับเรื่องนี้

แต่ยานเดกซ์รู้มากกว่าหนึ่งหรือ 100 เอกสาร แต่ตามข้อมูลล่าสุดจากแหล่งที่มาของฉันยานเดกซ์รู้เอกสารประมาณ 11 พันล้านฉบับ (10,727,736,489 หน้า)

และจากจำนวนทั้งหมดนี้ คุณต้องเลือกเอกสารที่ตรงกับคำขอ และที่สำคัญกว่านั้นคือคุณต้องจัดอันดับพวกเขาด้วย เหล่านั้น. จัดเรียงตามระดับความสำคัญหรือตามระดับประโยชน์สำหรับผู้อ่าน

โมเดลการค้นหาทางคณิตศาสตร์

เพื่อแก้ไขปัญหานี้ แบบจำลองทางคณิตศาสตร์จึงเข้ามาช่วยเหลือ ตอนนี้เราจะพูดถึงโมเดลที่ง่ายที่สุด

แบบจำลองทางคณิตศาสตร์แบบบูลีน– หากมีคำปรากฏในเอกสารถือว่าพบเอกสาร แค่เรื่องบังเอิญและไม่มีอะไรซับซ้อน

แต่มีปัญหาที่นี่ ตัวอย่างเช่น หากคุณในฐานะผู้ใช้ป้อนคำยอดนิยมบางคำหรือดีกว่านั้นคือคำบุพบท "v" ซึ่งเป็นคำที่ใช้บ่อยที่สุดในภาษารัสเซียและพบได้ในเอกสารทุกฉบับ คุณจะได้รับผลลัพธ์มากมาย โดยที่คุณไม่รู้ตัวเลขขนาดนั้น คุณเจอเอกสารกี่ฉบับ? ดังนั้นโมเดลเสื่อต่อไปนี้จึงปรากฏขึ้น

แบบจำลองทางคณิตศาสตร์เวกเตอร์– โมเดลนี้กำหนด “น้ำหนัก” ของเอกสาร ความบังเอิญไม่เพียงแต่เกิดขึ้นเท่านั้น แต่คำนั้น จะต้องเกิดขึ้นหลายครั้งด้วย ยิ่งไปกว่านั้น ยิ่งมีคำปรากฏมากเท่าใด ความเกี่ยวข้อง (การปฏิบัติตามข้อกำหนด) ก็จะยิ่งสูงขึ้นเท่านั้น

เป็นโมเดลเวกเตอร์ที่เครื่องมือค้นหาทั้งหมดใช้

โมเดลความน่าจะเป็น- ซับซ้อนยิ่งขึ้น. หลักการคือ: เครื่องมือค้นหาพบเทมเพลตของเพจเอง ตัวอย่างเช่นคุณกำลังมองหาข้อมูลเกี่ยวกับประวัติของยานเดกซ์ ยานเดกซ์เก็บมาตรฐานบางประเภท สมมติว่านี่จะเป็นบทความก่อนหน้าของฉันเกี่ยวกับยานเดกซ์

และเขาจะเปรียบเทียบเอกสารอื่น ๆ ทั้งหมดกับบทความนี้ และตรรกะที่นี่คือ: ยิ่งหน้าบล็อกของคุณคล้ายกับบทความของฉันมากเท่าไหร่ หน้าบล็อกของคุณก็จะเป็นประโยชน์ต่อผู้อ่านมากขึ้นเท่านั้น และยังบอกเล่าเกี่ยวกับประวัติของยานเดกซ์ด้วย

เพื่อลดจำนวนเอกสารที่ต้องแสดงต่อผู้ใช้ จึงได้นำแนวคิดเรื่องความเกี่ยวข้องมาใช้ เช่น การปฏิบัติตาม

หน้าบล็อกของคุณเกี่ยวข้องกับหัวข้อนี้มากน้อยเพียงใด นี่เป็นหัวข้อสำคัญในเรื่องคุณภาพการค้นหา

ผู้ประเมิน - พวกเขาเป็นใครและรับผิดชอบอะไร?

ความเกี่ยวข้องนี้จำเป็นต่อการประเมินคุณภาพของอัลกอริทึมด้วย

เพื่อจุดประสงค์นี้มีสำนักงานใหญ่กองกำลังพิเศษ - เรียกว่าผู้ประเมิน คนเหล่านี้คือคนพิเศษที่มองดูผลการค้นหาด้วยมือ

พวกเขามีคำแนะนำเกี่ยวกับวิธีการตรวจสอบไซต์ วิธีการประเมิน ฯลฯ และพวกเขาจะพิจารณาด้วยตนเองว่าเพจของคุณเหมาะสมกับคำค้นหาหรือไม่

และคุณภาพของอัลกอริธึมการค้นหาขึ้นอยู่กับความคิดเห็นของผู้ประเมิน หากผู้ประเมินทั้งหมดบอกว่าผลการค้นหาไม่สอดคล้องกับคำขอ นั่นหมายความว่าอัลกอริทึมการจัดอันดับไม่ถูกต้อง และยานเดกซ์เป็นคนเดียวที่ต้องตำหนิ

หากผู้ประเมินบอกว่ามีเพียงไซต์เดียวที่ไม่สามารถตอบสนองคำขอได้ นั่นหมายความว่าไซต์นั้นบินไปที่ไหนสักแห่งที่ห่างไกลและถูกลดระดับลงในผลการค้นหา แม่นยำยิ่งขึ้นไม่ใช่ทั้งไซต์ แต่มีเพียงบทความเดียวเท่านั้น แต่นี่ไม่ใช่ "ประเด็น"

แน่นอนว่าผู้ประเมินไม่สามารถตรวจสอบและประเมินบทความทั้งหมดด้วยมือและตาได้ นี่เป็นสิ่งที่เข้าใจได้

และพารามิเตอร์อื่น ๆ ในการจัดอันดับเพจก็เข้ามาช่วยเหลือ

มีมากมาย เช่น

  • น้ำหนักหน้า (vIC, PageRank, กระแทกของทารกรวมๆแล้ว);
  • อำนาจโดเมน;
  • ความเกี่ยวข้องของข้อความกับคำขอ
  • ความเกี่ยวข้องของข้อความลิงก์ภายนอกกับการสืบค้น
  • รวมถึงปัจจัยการจัดอันดับอื่นๆ อีกมากมาย

ผู้ประเมินจะแสดงความคิดเห็น และผู้ที่รับผิดชอบในการสร้างแบบจำลองการจัดอันดับทางคณิตศาสตร์จะแก้ไขสูตร ซึ่งส่งผลให้เครื่องมือค้นหาทำงานได้อย่างมีประสิทธิภาพมากขึ้น

เกณฑ์หลักในการประเมินประสิทธิภาพของสูตร:

1. ความแม่นยำของผลลัพธ์ของเครื่องมือค้นหา- เปอร์เซ็นต์ของเอกสารที่ตรงกับคำขอ (ที่เกี่ยวข้อง) เหล่านั้น. ยิ่งหน้าไม่ตรงกับคำขอน้อยเท่าไรก็ยิ่งดีเท่านั้น

2. ความสมบูรณ์ของผลลัพธ์ของเครื่องมือค้นหา- นี่คืออัตราส่วนของหน้าเว็บที่เกี่ยวข้องสำหรับข้อความค้นหาที่กำหนดต่อจำนวนเอกสารที่เกี่ยวข้องทั้งหมดในคอลเลกชัน (จำนวนหน้าทั้งหมดที่พบในเครื่องมือค้นหา)

ตัวอย่างเช่น หากมีหน้าที่เกี่ยวข้องในคอลเลกชันทั้งหมดมากกว่าในผลการค้นหา นั่นหมายความว่าผลลัพธ์ไม่สมบูรณ์ สิ่งนี้เกิดขึ้นเนื่องจากมีการกรองหน้าเว็บที่เกี่ยวข้องบางหน้า

3. ความเกี่ยวข้องของผลลัพธ์ของเครื่องมือค้นหา- นี่คือความสอดคล้องของหน้าเว็บกับสิ่งที่เขียนไว้ในตัวอย่างข้อมูล ตัวอย่างเช่น เอกสารอาจแตกต่างกันมากหรือไม่มีอยู่เลย แต่ยังคงปรากฏในผลการค้นหา

ความเกี่ยวข้องของผลการค้นหาโดยตรงขึ้นอยู่กับความถี่ที่โรบ็อตการค้นหาสแกนเอกสารจากคอลเลกชัน

การรวบรวมคอลเลกชัน (การจัดทำดัชนีหน้าเว็บไซต์) ดำเนินการโดยโปรแกรมพิเศษ - หุ่นยนต์ค้นหา

โรบ็อตการค้นหาได้รับรายการที่อยู่สำหรับจัดทำดัชนี คัดลอกแล้วส่งเนื้อหาของหน้าเว็บที่คัดลอกเพื่อประมวลผลไปยังอัลกอริธึมที่แปลงเป็นดัชนีย้อนกลับ

“โดยสรุป” เราได้พูดคุยถึงหลักการของเครื่องมือค้นหาแล้ว

สรุป:

  1. โรบ็อตการค้นหามาที่บล็อกของคุณ
  2. โรบ็อตการค้นหาจะเก็บดัชนีย้อนกลับของหน้าไว้สำหรับการค้นหาครั้งต่อไป
  3. เมื่อใช้แบบจำลองทางคณิตศาสตร์ เอกสารจะถูกประมวลผลและแสดงในผลการค้นหาโดยใช้สูตรและคำนึงถึงความคิดเห็นของผู้ประเมิน

นี่เป็นเรื่องง่ายมาก เพียงเพื่อทำความเข้าใจพื้นฐานว่าเครื่องมือค้นหา Yandex ทำงานอย่างไร

ตอนนี้ฉันเขียนข้อความไปมากมายและบางทีอาจจะไม่ชัดเจนมากนัก ดังนั้นฉันขอแนะนำให้คุณกลับมาที่บทความนี้อีกครั้งในภายหลังและดูวิดีโอนี้

นี่เป็นแนวทางที่ดีเยี่ยม ซึ่งฉันก็ได้เรียนรู้จากครั้งหนึ่งเช่นกัน

ฉันหวังว่าข้อมูลนี้จะช่วยให้คุณเข้าใจได้ดีขึ้นว่าเพราะเหตุใดไซต์หนึ่งของคุณจึงอยู่ในตำแหน่งที่เหมาะสมในการค้นหา และทำทุกอย่างเพื่อปรับปรุงไซต์เหล่านั้น

ด้วยเหตุนี้ฉันจึงบอกลาคุณ หากคุณมีคำถามใด ๆ ฉันยินดีที่จะตอบพวกเขาในความคิดเห็นเสมอ หรือบางทีคุณอาจต้องการเพิ่มบทความ?

ยังไงก็แสดงความเห็นด้วย !

เราไม่ได้มีเอกลักษณ์เฉพาะตัวอย่างที่เราคิด ผู้คนหลายล้านคนก่อนหน้าเราสับสน และหลายล้านคนหลังจากเราจะทำให้เครื่องมือค้นหาสับสนด้วยคำถามที่เกือบจะเหมือนกัน ในทางกลับกัน เราคาดเดาไม่ได้เกินไป: การกำหนดคำขอของเราได้รับอิทธิพลจากปัจจัยจำนวนมากที่เราไม่ทราบ และอย่างน้อยด้วยเหตุผลนี้ คำขอของเราแต่ละคน ไม่ว่าจะซ้ำซากจำเจเพียงใด ก็ต้องอาศัยแนวทางเฉพาะตัว

ในความเป็นจริงงานทั้งหมดของเครื่องมือค้นหา Yandex มีสองสิ่งง่ายๆ: เพื่อทำความเข้าใจว่าบุคคลต้องการทราบอะไรจริงๆ และในไม่กี่วินาทีเพื่อค้นหาสิ่งที่เหมาะสมจากเอกสารหลายพันล้านฉบับบนอินเทอร์เน็ต

เอาลายนิ้วมือ

ระบบปฏิบัติการของเครื่องมือค้นหาค่อนข้างคล้ายกับเมทริกซ์ และโรบ็อตการค้นหา (โปรแกรมที่ซับซ้อนและเป็นอิสระในการตัดสินใจที่มันสร้างขึ้น) ก็คล้ายกับ Agent Smith

เพื่อไม่ให้ค้นหาอินเทอร์เน็ตทั้งหมดทุกครั้งที่มีคนจำเป็นต้องรู้บางสิ่ง เสิร์ชเอ็นจิ้นจึงทำงานส่วนหนึ่งล่วงหน้า โดยจะตรวจสอบสิ่งที่อยู่บนเว็บและอยู่ที่ไหน โดยใช้โรบ็อตการค้นหานับพันตัว มีสองประเภท: พื้นฐานและเร็ว ส่วนหลักจะรวบรวมข้อมูลและประมวลผลอินเทอร์เน็ตโดยรวมและส่วนที่รวดเร็ว - เอกสารที่ปรากฏขึ้นเมื่อหนึ่งนาทีหรือสองสามวินาทีที่แล้ว หน้าที่ของโปรแกรมโรบ็อตคือการเลือกข้อมูลที่เหมาะสมและเป็นประโยชน์สำหรับผู้ใช้ ประมวลผล กำจัดทุกสิ่งที่ล้าสมัยและไม่จำเป็นออกไป ในบางแง่ สิ่งนี้ทำให้นึกถึงการคัดแยกขยะ กระดาษในภาชนะใบหนึ่ง แก้วในภาชนะอีกใบ พลาสติกในภาชนะที่สาม เศษอาหารในภาชนะที่สี่...

ข้อมูลที่รวบรวมโดยโรบอตจะก่อให้เกิดสิ่งที่เรียกว่าการส่งอินเทอร์เน็ต มันถูกเก็บไว้ในเซิร์ฟเวอร์ Yandex หลายพันเครื่องและได้รับการอัปเดตอยู่ตลอดเวลา นักเก็ตเป็นเหมือนรายการที่บอกคุณว่าจะหาข้อมูลอะไรได้จากที่ไหน ในรายการนี้ คำหลักแต่ละคำไม่มีหนึ่งคำ แต่มี "หน้า" หลายล้านหน้า เพื่อให้แน่ใจว่าการอัปเดตนักเก็ตทั้งหมดพร้อมใช้งานสำหรับผู้ใช้ การอัปเดตเหล่านั้นจะถูกย้ายจากพื้นที่เก็บข้อมูลไปที่ "การค้นหาพื้นฐาน" ข้อมูลจากหุ่นยนต์หลักจะถูกถ่ายโอนทุกๆ สองสามวัน และจากหุ่นยนต์ที่รวดเร็ว - แบบเรียลไทม์

นำมาใส่น้ำสะอาด



ภาพประกอบ: เอเวเจนี โทนโคโนยี

ขณะค้นหาคำตอบสำหรับคำถามที่กำหนดในฐานข้อมูลที่เตรียมไว้ เครื่องจะเผชิญกับปัญหาหลักสองประการ ปัญหาแรกคือภาษา ก่อนที่จะค้นหาคำตอบสำหรับคำถาม สิ่งสำคัญคือเครื่องจะต้องเข้าใจว่าควรทำในภาษาใด ตัวอย่างเช่น สำหรับผู้ที่พูดภาษารัสเซีย การค้นหา "ทีมของเจ้าชายอิกอร์" จะค้นหาเอกสารที่มีข้อมูลเกี่ยวกับกองทัพ และสำหรับชาวยูเครน "ทีมของเจ้าชายอิกอร์" ก็จะส่งคืนเอกสารที่กล่าวถึงเจ้าหญิงออลกา ภรรยาของเขาด้วย เนื่องจาก ในภาษายูเครน "ภรรยา" คือ "ทีม" และในภาษารัสเซียที่หลากหลาย คำเดียวกันหรืออนุพันธ์ของคำเดียวกันอาจหมายถึงสิ่งที่แตกต่างกัน ตัวอย่างเช่น คำว่า "steel" เป็นรูปแบบหนึ่งของคำนาม "steel" และคำกริยา "become" ปัญหาที่สองคือจิตวิทยามนุษย์ เมื่อป้อนคำขอ เราคาดหวังคำตอบที่รวดเร็วและแม่นยำ โดยไม่ต้องกังวลว่าถ้อยคำในคำขอนั้นสอดคล้องกับหลักการวิเคราะห์ทางคณิตศาสตร์ที่สมองของเครื่องทำงานหรือไม่ ตัวอย่างเช่น โดยการป้อนคำว่า "นโปเลียน" ลงในแถบค้นหา บุคคลต้องการได้รับอะไร: สูตรเค้กหรือชีวประวัติของจักรพรรดิฝรั่งเศส ซื้อคอนยัค หรือค้นหาที่อยู่ของโรงพยาบาลจิตเวช


ในสถานการณ์เช่นนี้ เทคโนโลยีหลายอย่างเข้ามามีบทบาท คุณสามารถให้คำแนะนำได้หลายอย่างใต้แถบค้นหาที่จะระบุคำขอของคุณ เช่น เลือกสิ่งที่คุณต้องการ: สูตรนโปเลียน หรือ นโปเลียน - โบนาปาร์ต หากผู้ใช้ไม่ตอบสนองต่อคำขอของเครื่องและไม่เพิ่มคำลงใน "นโปเลียน" เทคโนโลยี "สเปกตรัม" จะช่วยเรื่องนี้: โดยไม่ต้องหวังว่าจะได้รับความช่วยเหลือ เครื่องจะค้นหาข้อมูลในหลายประเภททันที (เกี่ยวกับเค้ก และเกี่ยวกับจักรพรรดิและเกี่ยวกับม้า) ..) นอกจากนี้กลไกการตั้งค่าส่วนบุคคลยังช่วยให้เข้าใจผู้ใช้ - ความรู้ของเครื่องเกี่ยวกับสิ่งที่ผู้ใช้รายนี้กำลังมองหาบนคอมพิวเตอร์ของเขาในแต่ละวัน สอง สาม หรือเดือนที่ผ่านมา: หากคุณถามคำถาม Yandex เกี่ยวกับการทำอาหารบ่อยครั้ง เครื่องจะแสดงก่อน คุณผลลัพธ์ที่บอกว่านโปเลียนคือเค้ก

การรวมกัน: สโมสรที่น่าสนใจ

งานของเครื่องมือค้นหาไม่ใช่แค่การเลือกเอกสารที่มีคำและวลีจากคำค้นหาเท่านั้น เครื่องจักรต้องเข้าใจว่าเอกสารใดบ้างที่ตรงตามข้อกำหนดที่ขัดแย้งกันของเรา และเหตุใดจึงตรงตามข้อกำหนดเหล่านั้น เราต้องการรับข้อมูลเกี่ยวกับเค้กนโปเลียนหรือบางทีเราอาจไปเยี่ยมชมฟิตเนสคลับที่มีชื่ออวดรู้มาสองสามปีแล้วหรือยังกังวลโดยสิ้นเชิงเกี่ยวกับกลุ่มคนตัวเตี้ย ไม่ว่าในกรณีใด การแก้ปัญหาต้องใช้วิธีการที่ไม่สำคัญ


ผู้สร้างโปรแกรมค้นหา Yandex พบแนวทางนี้โดยการมอบสิทธิ์ในการเลือกให้กับเครื่อง ในอีกด้านหนึ่ง เครื่องจักรที่ไร้วิญญาณ แต่รวดเร็วและชาญฉลาดไม่รู้และไม่อยากรู้อะไรเกี่ยวกับเราในฐานะปัจเจกบุคคล และในทางกลับกัน มันพยายามค้นหาข้อมูลเกี่ยวกับทุกคนให้มากที่สุดเท่าที่จะเป็นไปได้

นอกเหนือจากตำแหน่งทางภูมิศาสตร์ของผู้ใช้และการวิเคราะห์ทางภาษาของข้อความค้นหาของเขาแล้ว เสิร์ชเอ็นจิ้นยังใช้เกณฑ์หลายพันเกณฑ์ที่ไม่ชัดเจนต่อมนุษย์เลย

เคล็ดลับก็คือ เครื่องจักรจะพัฒนาและอัปเดตเกณฑ์เหล่านี้อย่างเป็นอิสระ

เพียงใช้ข้อมูลเกี่ยวกับการตั้งค่าและพฤติกรรมผู้ใช้ของผู้คนหลายล้านคน และเชื่อมโยง "ค่าเฉลี่ยเลขคณิต" นี้กับประวัติการค้นหาของเรา หลักการที่เป็นแนวทางให้กับเมทริกซ์ภายในตัวมันเอง โดยเปรียบเทียบความสนใจของผู้ใช้หลายพันหมวดหมู่ที่เมทริกซ์ได้พัฒนาขึ้น มักจะไม่สอดคล้องกับแนวคิดดั้งเดิมของมนุษย์เกี่ยวกับสิ่งที่ "ความสนใจ" สามารถเป็นหลักการได้ มีนับหมื่นคน พวกเขาสร้างการผสมผสานที่แตกต่างกันและบางครั้งก็ตลกขบขันเข้าด้วยกัน ตัวอย่างเช่น หนึ่งในการผสมผสานเหล่านี้อาจเป็นได้ว่าผลการค้นหาตรงกับความสนใจของผู้เพาะพันธุ์นิวท์ ในเวลาเดียวกันคนไม่เพียงแค่สนใจนิวท์เท่านั้น แต่ยังผสมพันธุ์พวกมันอยู่แล้ว แต่ในปีแรกเท่านั้น

การให้คะแนน มือช่วย


แน่นอนว่าเมทริกซ์จะตัดสินใจเอง (ด้วยความช่วยเหลือของคณิตศาสตร์ระดับสูง) ว่าจะต้องแสดงอะไรและในลำดับใดต่อผู้ใช้ตามเกณฑ์นับหมื่น แต่เดอะเมทริกซ์ยังใช้ผู้คนที่มีชีวิต - พนักงานยานเดกซ์ 1,000 คนที่เรียกว่าผู้ประเมินประเมินผลการค้นหาสำหรับคำขอเฉพาะ (แน่นอนว่าไม่ใช่ทุกคำขอจะได้รับการประเมินและไม่ได้ทำแบบเรียลไทม์) เพื่อพิจารณาว่าพวกเขาตอบสนองหรือไม่ ความคาดหวังของผู้ใช้ทั่วไป : ไม่มีเหตุผลเหมือนเครื่องจักร ไม่แม่นยำในการกำหนด ขัดแย้ง และทางอารมณ์

สวัสดีตอนบ่ายผู้อ่านบล็อก SEO ของฉันที่รัก . บทความนี้เป็นเรื่องเกี่ยวกับ เครื่องมือค้นหา Yandex ทำงานอย่างไร เทคโนโลยีและอัลกอริธึมใดที่ใช้ในการจัดอันดับไซต์ และสิ่งที่ใช้เพื่อเตรียมการตอบสนองต่อผู้ใช้ หลายคนรู้ดีว่าการค้นหาที่สำคัญของรัสเซียนี้กำหนดแนวทางใน Runet เป็นเจ้าของฐานข้อมูลที่ใหญ่ที่สุดใน Eurasia จัดการเนื้อหามากกว่าพันล้านหน้าและรู้คำตอบสำหรับคำถามใด ๆ ตามข้อมูล Liveinternet ในเดือนสิงหาคม 2555 ส่วนแบ่งของยานเดกซ์ในรัสเซียอยู่ที่ 60.5% ผู้ชมพอร์ทัลรายเดือนคือ 48.9 ล้านคน แต่สิ่งที่สำคัญที่สุดสำหรับเราบล็อกเกอร์คือวิธีที่เครื่องมือค้นหาได้รับคำขอของเรา วิธีการประมวลผลคำขอ และผลลัพธ์ที่ตามมาคืออะไร ในอีกด้านหนึ่ง การรู้และเข้าใจข้อมูลนี้ทำให้เราใช้ทรัพยากร Yandex ทั้งหมดได้ง่ายขึ้น ในทางกลับกัน การโปรโมตบล็อกของเราง่ายกว่า ดังนั้นฉันจึงเสนอให้พิจารณาเทคโนโลยีที่สำคัญที่สุดของเครื่องมือค้นหา Runet ที่ดีที่สุดกับฉัน

เมื่อผู้ใช้อินเทอร์เน็ตต้องการใช้เครื่องมือค้นหาเพื่อหาข้อมูลเป็นครั้งแรก เขาอาจมีคำถามหนึ่งข้อ: “การค้นหาทำงานอย่างไร” แต่เมื่อเขาได้รับคำถามนี้มักจะเปลี่ยนเป็นคำถามอื่น: “ทำไมเร็วจัง” และจริงๆ แล้วเหตุใดการค้นหาไฟล์บนคอมพิวเตอร์จึงใช้เวลา 20 วินาที และผลลัพธ์ของคำขอจากเครือข่ายคอมพิวเตอร์ทั้งหมดทั่วโลกปรากฏขึ้นในไม่กี่วินาที สิ่งที่น่าสนใจที่สุดคือคำถามสองข้อแรก (การค้นหาเกิดขึ้นได้อย่างไรและทำไม 1 วินาที) สามารถตอบได้ในคำตอบเดียว - เครื่องมือค้นหาได้เตรียมไว้ล่วงหน้าสำหรับคำขอของผู้ใช้

เพื่อให้เข้าใจหลักการทำงานของยานเดกซ์เช่นเดียวกับเครื่องมือค้นหาอื่น ๆ เรามาเปรียบเทียบกับสมุดโทรศัพท์กันดีกว่า หากต้องการค้นหาหมายเลขโทรศัพท์คุณจำเป็นต้องทราบนามสกุลของสมาชิกและการค้นหาในกรณีนี้จะใช้เวลาสูงสุดหนึ่งนาทีเนื่องจากหน้าทั้งหมดของไดเร็กทอรีเป็นดัชนีเรียงตามตัวอักษรต่อเนื่องกัน แต่ลองนึกดูว่าการค้นหาดำเนินการโดยใช้ตัวเลือกอื่นโดยที่หมายเลขโทรศัพท์เรียงลำดับตามตัวเลขเอง หลังจากการค้นหาดังกล่าวซึ่งจะลากยาวขึ้นตัวเลขจะคงอยู่ต่อหน้าต่อตาผู้ค้นหาเป็นเวลานานมาก 🙂

ในทำนองเดียวกันเครื่องมือค้นหาจะแสดงข้อมูลทั้งหมดจากอินเทอร์เน็ตในรูปแบบที่สะดวก และที่สำคัญที่สุด ข้อมูลทั้งหมดนี้จะถูกวางไว้ในไดเร็กทอรีของเธอล่วงหน้า ก่อนที่ผู้เยี่ยมชมจะมาถึงพร้อมกับคำขอของเขา นั่นคือเมื่อเราถามคำถามกับยานเดกซ์ มันก็รู้คำตอบของเราอยู่แล้ว และมอบให้เราในไม่กี่วินาที แต่วินาทีนี้มีกระบวนการสำคัญหลายประการซึ่งเราจะพิจารณาโดยละเอียด

การทำดัชนีอินเทอร์เน็ต

Yandex ru รวบรวมข้อมูลทั้งหมดที่สามารถหาได้บนอินเทอร์เน็ต เนื้อหาทั้งหมดจะได้รับการตรวจสอบโดยใช้อุปกรณ์พิเศษ รวมถึงรูปภาพตามพารามิเตอร์ภาพ เครื่องมือค้นหามีส่วนร่วมในการรวบรวมดังกล่าวและกระบวนการรวบรวมและจัดเตรียมข้อมูลเรียกว่าการจัดทำดัชนี พื้นฐานของเครื่องดังกล่าวคือระบบคอมพิวเตอร์ซึ่งเรียกอีกอย่างว่าหุ่นยนต์ค้นหา โดยจะรวบรวมข้อมูลไซต์ที่จัดทำดัชนีไว้เป็นประจำ ตรวจสอบเนื้อหาใหม่ๆ และสแกนอินเทอร์เน็ตเพื่อหาเพจที่ถูกลบ หากพบว่าหน้าดังกล่าวบางหน้าไม่มีอยู่แล้วหรือถูกปิดจากการจัดทำดัชนี หน้าดังกล่าวก็จะลบออกจากการค้นหา

โรบ็อตการค้นหาค้นหาไซต์ใหม่ได้อย่างไร ประการแรกต้องขอบคุณลิงก์จากเว็บไซต์อื่น เพราะหากลิงก์ถูกวางบนทรัพยากรบนเว็บใหม่จากไซต์ที่ได้รับการจัดทำดัชนีแล้ว ครั้งถัดไปที่คุณเยี่ยมชมไซต์ที่สอง หุ่นยนต์จะเยี่ยมชมไซต์แรก ประการที่สองมีบริการที่ยอดเยี่ยมซึ่งนิยมเรียกว่า "addurlka" (จากวลีในภาษาอังกฤษ -addurl - เพิ่มที่อยู่) ในนั้นคุณสามารถป้อนที่อยู่ของไซต์ใหม่ของคุณซึ่งโรบ็อตการค้นหาจะเข้าชมหลังจากนั้นไม่นาน ประการที่สาม ด้วยความช่วยเหลือของโปรแกรมพิเศษ Yandex.Bar การเข้าชมของผู้ใช้จะถูกติดตาม ดังนั้น หากบุคคลเข้าสู่แหล่งข้อมูลบนเว็บใหม่ หุ่นยนต์ก็จะปรากฏขึ้นที่นั่นในไม่ช้า

ทุกหน้ารวมอยู่ในการค้นหาหรือไม่ มีการจัดทำดัชนีหน้าเว็บหลายล้านหน้าทุกวัน ในนั้นมีหน้าเว็บที่มีคุณภาพแตกต่างกันซึ่งอาจมีข้อมูลที่แตกต่างกันตั้งแต่เนื้อหาที่ไม่ซ้ำใครไปจนถึงขยะที่สมบูรณ์ ยิ่งไปกว่านั้น ดังที่สถิติบอกว่า มีขยะบนอินเทอร์เน็ตมากกว่ามาก โรบ็อตการค้นหาจะวิเคราะห์แต่ละเอกสารโดยใช้อัลกอริธึมพิเศษ จะพิจารณาว่ามีข้อมูลที่เป็นประโยชน์หรือไม่ และสามารถตอบสนองคำขอของผู้ใช้ได้หรือไม่ ถ้าไม่เช่นนั้น หน้าดังกล่าวจะไม่ได้รับการยอมรับว่าเป็น "นักบินอวกาศ" แต่ถ้าเป็นเช่นนั้น หน้าดังกล่าวก็จะรวมอยู่ในการค้นหาด้วย

หลังจากที่โรบ็อตได้เยี่ยมชมเพจและพิจารณาถึงประโยชน์ของมันแล้ว โรบ็อตจะปรากฏในพื้นที่เก็บข้อมูลของเครื่องมือค้นหา ที่นี่เราจะวิเคราะห์เอกสารใดๆ อย่างละเอียดถี่ถ้วน ดังที่ผู้เชี่ยวชาญด้านศูนย์รถยนต์กล่าวไว้ ไปจนถึงฟันเฟือง หน้านี้ถูกล้างออกจากมาร์กอัป html ข้อความที่สะอาดจะผ่านพื้นที่โฆษณาทั้งหมด - คำนวณตำแหน่งของแต่ละคำ ในรูปแบบที่แยกชิ้นส่วนนี้ หน้าจะกลายเป็นตารางที่มีตัวเลขและตัวอักษร ซึ่งเรียกอีกอย่างว่าดัชนี ตอนนี้ ไม่ว่าจะเกิดอะไรขึ้นกับทรัพยากรบนเว็บที่มีเพจนี้ สำเนาล่าสุดจะพร้อมใช้งานในการค้นหาเสมอ แม้ว่าไซต์ดังกล่าวจะไม่มีอยู่แล้ว แต่สำเนาของเอกสารจะถูกเก็บไว้บนอินเทอร์เน็ตเป็นระยะเวลาหนึ่ง

แต่ละดัชนี พร้อมด้วยข้อมูลเกี่ยวกับประเภทเอกสาร การเข้ารหัส ภาษา และสำเนา ประกอบขึ้น ฐานข้อมูลการค้นหา . มีการอัปเดตเป็นระยะ ดังนั้นจึงอยู่บนเซิร์ฟเวอร์พิเศษพร้อมความช่วยเหลือในการประมวลผลคำขอจากผู้ใช้เครื่องมือค้นหา

กระบวนการจัดทำดัชนีเกิดขึ้นบ่อยแค่ไหน? ประการแรก ขึ้นอยู่กับประเภทของไซต์ ทรัพยากรบนเว็บประเภทแรกเปลี่ยนแปลงเนื้อหาของเพจบ่อยครั้งมาก นั่นคือ เมื่อหุ่นยนต์ค้นหามาที่หน้าเหล่านี้ในแต่ละครั้ง จะมีเนื้อหาที่แตกต่างกันในแต่ละครั้ง ครั้งต่อไปคุณจะไม่พบสิ่งใดที่ใช้สิ่งเหล่านี้ ดังนั้นไซต์ดังกล่าวจะไม่รวมอยู่ในดัชนี ไซต์ประเภทที่สองคือคลังข้อมูลซึ่งมีการเพิ่มลิงก์ไปยังเอกสารสำหรับดาวน์โหลดเป็นระยะ เนื้อหาของไซต์ดังกล่าวมักจะไม่เปลี่ยนแปลง ดังนั้นหุ่นยนต์จึงเข้าชมน้อยมาก เว็บไซต์อื่นๆ ขึ้นอยู่กับความถี่ในการอัปเดตเนื้อหา ซึ่งหมายความว่า: ยิ่งเนื้อหาใหม่ปรากฏบนเว็บไซต์เร็วขึ้นเท่าใด โรบ็อตการค้นหาก็จะยิ่งมาบ่อยมากขึ้นเท่านั้น และให้ความสำคัญกับแหล่งข้อมูลบนเว็บที่สำคัญที่สุดเป็นอันดับแรก (เช่น เว็บไซต์ข่าวมีความสำคัญมากกว่าบล็อกใดๆ เป็นต้น)

การจัดทำดัชนีช่วยให้คุณสามารถทำหน้าที่แรกของเครื่องมือค้นหา - รวบรวมข้อมูลบนหน้าใหม่บนอินเทอร์เน็ต แต่ยานเดกซ์ยังมีฟังก์ชั่นที่สอง - ค้นหาคำตอบสำหรับคำขอของผู้ใช้ในฐานข้อมูลการค้นหาที่เตรียมไว้แล้ว

ยานเดกซ์กำลังเตรียมการตอบกลับ

กระบวนการประมวลผลคำขอและการออกคำตอบที่เกี่ยวข้องได้รับการจัดการโดย ระบบคอมพิวเตอร์ "เมตาเสิร์ช" . สำหรับงานของมัน ก่อนอื่นจะรวบรวมข้อมูลอินพุตทั้งหมด: คำขอถูกสร้างขึ้นจากภูมิภาคใด อยู่ในคลาสใด มีข้อผิดพลาดในคำขอหรือไม่ เป็นต้น หลังจากการประมวลผลดังกล่าว เมตาเสิร์ชจะตรวจสอบว่ามีการสืบค้นที่เหมือนกันทุกประการและมีพารามิเตอร์เดียวกันในฐานข้อมูลหรือไม่ หากคำตอบคือใช่ ระบบจะแสดงผลลัพธ์ที่บันทึกไว้ก่อนหน้านี้ให้ผู้ใช้เห็น หากไม่มีคำถามดังกล่าวในฐานข้อมูล metasearch จะระบุที่อยู่ฐานข้อมูลการค้นหาที่มีข้อมูลดัชนี

และนี่คือจุดที่สิ่งอัศจรรย์เกิดขึ้น ลองนึกภาพว่ามีคอมพิวเตอร์ที่ทรงพลังเครื่องหนึ่งที่เก็บอินเทอร์เน็ตทั้งหมดที่ประมวลผลโดยโรบ็อตการค้นหา ผู้ใช้ตั้งค่าแบบสอบถามและการค้นหาเริ่มต้นในเซลล์หน่วยความจำสำหรับเอกสารทั้งหมดที่เกี่ยวข้องกับแบบสอบถาม พบคำตอบแล้วทุกคนก็มีความสุข แต่ลองพิจารณาอีกกรณีหนึ่งเมื่อมีคำขอจำนวนมากที่มีคำเดียวกันในร่างกาย ระบบจะต้องผ่านเซลล์หน่วยความจำเดียวกันในแต่ละครั้งซึ่งสามารถเพิ่มเวลาที่ใช้ในการประมวลผลข้อมูลได้อย่างมาก ดังนั้นเวลาจึงเพิ่มขึ้นซึ่งอาจนำไปสู่การสูญเสียผู้ใช้ - เขาจะหันไปหาเครื่องมือค้นหาอื่นเพื่อขอความช่วยเหลือ

เพื่อหลีกเลี่ยงความล่าช้าดังกล่าว สำเนาทั้งหมดในดัชนีของไซต์จะถูกกระจายไปยังคอมพิวเตอร์เครื่องต่างๆ หลังจากส่งคำขอแล้ว เมตาเสิร์ชจะสั่งให้เซิร์ฟเวอร์ดังกล่าวค้นหาข้อความของตน หลังจากนั้นข้อมูลทั้งหมดจากเครื่องเหล่านี้จะถูกส่งกลับไปยังคอมพิวเตอร์กลาง ซึ่งจะรวมผลลัพธ์ทั้งหมดที่ได้รับและให้คำตอบที่ดีที่สุดสิบอันดับแรกแก่ผู้ใช้ ด้วยเทคโนโลยีนี้ นกสองตัวถูกฆ่าในคราวเดียว: เวลาในการค้นหาลดลงหลายครั้ง (ได้รับคำตอบในเสี้ยววินาที) และด้วยการเพิ่มขึ้นของแพลตฟอร์ม ข้อมูลจึงถูกทำซ้ำ (ข้อมูลจะไม่สูญหายเนื่องจากการพังทลายอย่างกะทันหัน) . คอมพิวเตอร์ที่มีข้อมูลที่ซ้ำกันประกอบกันเป็นศูนย์ข้อมูล นี่คือห้องที่มีเซิร์ฟเวอร์

เมื่อผู้ใช้เครื่องมือค้นหาถามคำถาม 20 ครั้งจาก 100 ครั้ง เป้าหมายในคำถามนั้นไม่ชัดเจน ตัวอย่างเช่นหากเขาเขียนคำว่า "นโปเลียน" ในแถบค้นหาก็ยังไม่รู้ว่าเขาคาดหวังคำตอบอะไร - สูตรเค้กหรือชีวประวัติของผู้บัญชาการผู้ยิ่งใหญ่ หรือวลี "Brothers Grimm" - นิทานภาพยนตร์กลุ่มดนตรี ยานเดกซ์มีเทคโนโลยีพิเศษเพื่อจำกัดขอบเขตเป้าหมายที่เป็นไปได้ให้เหลือเพียงคำตอบเฉพาะ พิสัย. โดยคำนึงถึงความต้องการของผู้ใช้โดยใช้สถิติคำค้นหา จากคำถามทั้งหมดที่ผู้เยี่ยมชมถามในยานเดกซ์ Spectrum จะระบุวัตถุต่าง ๆ ในนั้น (ชื่อคน ชื่อหนังสือ รุ่นรถ ฯลฯ ) วัตถุเหล่านี้แบ่งออกเป็นบางหมวดหมู่ ปัจจุบันมีหมวดหมู่ดังกล่าวมากกว่า 60 หมวดหมู่ ด้วยความช่วยเหลือเครื่องมือค้นหาจึงมีความหมายที่แตกต่างกันของคำในข้อความค้นหาของผู้ใช้ในฐานข้อมูล สิ่งที่น่าสนใจคือมีการตรวจสอบหมวดหมู่เหล่านี้เป็นระยะ (การวิเคราะห์เกิดขึ้นสองสามครั้งต่อสัปดาห์) ซึ่งช่วยให้ยานเดกซ์สามารถให้คำตอบสำหรับคำถามที่ตั้งไว้ได้แม่นยำยิ่งขึ้น

ด้วยเทคโนโลยี Spectrum ยานเดกซ์จึงจัดระเบียบกล่องโต้ตอบพร้อมท์ จะปรากฏใต้แถบค้นหาที่ผู้ใช้พิมพ์ข้อความค้นหาที่ไม่ชัดเจน บรรทัดนี้แสดงถึงหมวดหมู่ที่อาจอยู่ในหัวเรื่องของคำถาม ผลการค้นหาเพิ่มเติมขึ้นอยู่กับตัวเลือกของผู้ใช้ในหมวดหมู่นี้

จาก 15 ถึง 30% ของผู้ใช้เครื่องมือค้นหา Yandex ทั้งหมดต้องการรับเฉพาะข้อมูลท้องถิ่น (ข้อมูลจากภูมิภาคที่พวกเขาอาศัยอยู่) ตัวอย่างเช่น เกี่ยวกับภาพยนตร์ใหม่ในโรงภาพยนตร์ในเมืองของคุณ ดังนั้นคำตอบสำหรับคำขอดังกล่าวจึงควรแตกต่างกันไปในแต่ละภูมิภาค ในเรื่องนี้ยานเดกซ์ใช้เทคโนโลยีของตน ค้นหาตามภูมิภาค . ตัวอย่างเช่น คำตอบเหล่านี้คือคำตอบที่ผู้อยู่อาศัยที่กำลังมองหาภาพยนตร์ในโรงภาพยนตร์ Oktyabr อาจได้รับ:

แต่นี่คือผลลัพธ์ที่ชาวเมือง Stavropol จะได้รับสำหรับคำขอเดียวกัน:

ภูมิภาคของผู้ใช้ถูกกำหนดโดยที่อยู่ IP เป็นหลัก บางครั้งข้อมูลนี้ไม่ถูกต้อง เนื่องจากผู้ให้บริการหลายรายสามารถทำงานได้ในหลายภูมิภาคพร้อมกัน ดังนั้นจึงเปลี่ยนที่อยู่ IP ของผู้ใช้ โดยหลักการแล้ว หากสิ่งนี้เกิดขึ้นกับคุณ คุณสามารถเปลี่ยนภูมิภาคของคุณได้อย่างง่ายดายในการตั้งค่าในเครื่องมือค้นหา แสดงอยู่ที่มุมขวาบนของหน้าผลลัพธ์ คุณสามารถเปลี่ยนมันได้

เครื่องมือค้นหา Yandex ru - ผลลัพธ์การตอบกลับ

เมื่อ Metasearch เตรียมคำตอบแล้ว เครื่องมือค้นหา Yandex ควรแสดงไว้ในหน้าผลลัพธ์ เป็นรายการลิงก์ไปยังเอกสารที่พบพร้อมข้อมูลเล็กๆ น้อยๆ ในแต่ละเอกสาร หน้าที่ของเทคโนโลยีในการออกผลลัพธ์คือการให้คำตอบที่เกี่ยวข้องมากที่สุดแก่ผู้ใช้ด้วยวิธีที่ให้ข้อมูลมากที่สุด เทมเพลตสำหรับลิงก์ดังกล่าวมีลักษณะดังนี้:

ลองดูผลลัพธ์รูปแบบนี้โดยละเอียด สำหรับ ชื่อผลการค้นหา ยานเดกซ์มักจะใช้ชื่อของชื่อหน้า (สิ่งที่เครื่องมือเพิ่มประสิทธิภาพเขียนไว้ในแท็กชื่อ) หากไม่มีอยู่ คำจากชื่อบทความหรือโพสต์จะปรากฏที่นี่ หากข้อความชื่อเรื่องมีขนาดใหญ่ เครื่องมือค้นหาจะวางส่วนที่เกี่ยวข้องกับข้อความค้นหาที่ระบุมากที่สุดในช่องนี้

น้อยมาก แต่มันเกิดขึ้นที่ชื่อไม่ตรงกับเนื้อหาของคำขอ ในกรณีนี้ Yandex จะสร้างชื่อผลการค้นหาโดยใช้ข้อความในบทความหรือโพสต์ มันจะมีคำค้นหาแน่นอน

สำหรับ ตัวอย่างเครื่องมือค้นหาใช้ข้อความทั้งหมดบนหน้า โดยจะเลือกส่วนทั้งหมดที่มีคำตอบสำหรับคำถาม จากนั้นเลือกส่วนที่เกี่ยวข้องมากที่สุดแล้วแทรกลิงก์ไปยังเอกสารลงในช่องแบบฟอร์ม ด้วยวิธีนี้ เครื่องมือเพิ่มประสิทธิภาพที่มีความสามารถสามารถสร้างใหม่ได้หลังจากเห็นตัวอย่าง ซึ่งจะช่วยปรับปรุงความน่าดึงดูดของลิงก์

เพื่อให้รับรู้ผลลัพธ์ของคำขอของผู้ใช้ได้ดีขึ้น ส่วนหัวจะถูกจัดรูปแบบเป็นลิงก์ในข้อความ (เน้นด้วยสีน้ำเงินพร้อมขีดเส้นใต้) เพื่อให้ทรัพยากรบนเว็บน่าสนใจและเป็นที่จดจำได้ จึงได้เพิ่มไอคอน favicon ซึ่งเป็นไอคอนองค์กรขนาดเล็กของเว็บไซต์ ปรากฏทางด้านซ้ายของข้อความในบรรทัดแรกก่อนส่วนหัว ทุกคำที่รวมอยู่ในคำขอในการตอบกลับจะถูกเน้นด้วยตัวหนาเพื่อความสะดวกในการรับรู้

เมื่อเร็ว ๆ นี้เครื่องมือค้นหา Yandex ได้เพิ่มข้อมูลต่าง ๆ ลงในตัวอย่างซึ่งจะช่วยให้ผู้ใช้ค้นหาคำตอบได้เร็วและแม่นยำยิ่งขึ้น ตัวอย่างเช่น หากผู้ใช้เขียนชื่อองค์กรในคำขอ Yandex จะเพิ่มที่อยู่ หมายเลขติดต่อ และลิงก์ไปยังตำแหน่งในแผนที่ทางภูมิศาสตร์ในตัวอย่าง หากเครื่องมือค้นหาคุ้นเคยกับโครงสร้างของเว็บไซต์ซึ่งมีเอกสารพร้อมคำตอบสำหรับผู้ใช้ก็จะแสดงอย่างแน่นอน นอกจากนี้ยานเดกซ์ยังสามารถเพิ่มหน้าที่เข้าชมบ่อยที่สุดของแหล่งข้อมูลบนเว็บดังกล่าวลงในตัวอย่างได้ทันทีเพื่อให้ผู้เยี่ยมชมสามารถไปที่ส่วนที่เขาต้องการได้ทันทีหากต้องการซึ่งช่วยประหยัดเวลาของเขา

มีตัวอย่างราคาสินค้าสำหรับร้านค้าออนไลน์ การจัดอันดับโรงแรมหรือร้านอาหารในรูปแบบดาว และข้อมูลที่น่าสนใจอื่นๆ พร้อมตัวเลขต่างๆ เกี่ยวกับวัตถุในเอกสารการค้นหา วัตถุประสงค์ของข้อมูลดังกล่าวคือการจัดทำรายการข้อมูลทั้งหมดเกี่ยวกับรายการหรือวัตถุเหล่านั้นที่เป็นที่สนใจของผู้ใช้

โดยทั่วไป หน้าที่มีคำตอบจะมีลักษณะดังนี้: จากตัวอย่างต่างๆ

การจัดอันดับและผู้ประเมิน

งานของยานเดกซ์ไม่เพียงแต่ค้นหาตัวเลือกคำตอบที่เป็นไปได้ทั้งหมดเท่านั้น แต่ยังเลือกคำตอบที่ดีที่สุด (ที่เกี่ยวข้อง) อีกด้วย ท้ายที่สุดแล้วผู้ใช้จะไม่ค้นหาลิงก์ทั้งหมดที่ยานเดกซ์จะให้เขาเป็นผลการค้นหา กระบวนการจัดระเบียบผลการค้นหาเรียกว่า การจัดอันดับ . นั่นคือการจัดอันดับที่กำหนดคุณภาพของคำตอบที่เสนอ

มีกฎที่ยานเดกซ์กำหนดหน้าที่เกี่ยวข้อง:

  • ไซต์ที่ลดคุณภาพการค้นหาจะถูกลดระดับลงในตำแหน่งในหน้าผลลัพธ์ โดยปกติแล้วสิ่งเหล่านี้คือแหล่งข้อมูลบนเว็บที่เจ้าของพยายามหลอกลวงเครื่องมือค้นหา ตัวอย่างเช่น ไซต์เหล่านี้เป็นไซต์ที่มีหน้าเว็บที่มีข้อความที่ไม่มีความหมายหรือมองไม่เห็น แน่นอนว่าโรบ็อตการค้นหาสามารถมองเห็นและเข้าใจได้ แต่ไม่ใช่สำหรับผู้เยี่ยมชมที่อ่านเอกสารนี้ หรือไซต์ที่เมื่อคลิกลิงก์ในพื้นที่ผลการค้นหาจะโอนผู้ใช้ไปยังไซต์อื่นทันที
  • ไซต์ที่มีเนื้อหาเกี่ยวกับกามจะไม่รวมอยู่ในผลลัพธ์หรือมีอันดับลดลงอย่างมาก เนื่องจากแหล่งข้อมูลบนเว็บดังกล่าวมักจะใช้วิธีการส่งเสริมการขายเชิงรุก
  • ไซต์ที่ติดไวรัสจะไม่ลดลงในผลการค้นหาและไม่ถูกแยกออกจากผลการค้นหา - ในกรณีนี้ ผู้ใช้จะได้รับแจ้งเกี่ยวกับอันตรายโดยใช้ไอคอนพิเศษ เนื่องจากยานเดกซ์สันนิษฐานว่าแหล่งข้อมูลบนเว็บดังกล่าวอาจมีเอกสารสำคัญตามคำขอของผู้เยี่ยมชมเครื่องมือค้นหา

ตัวอย่างเช่น นี่คือวิธีที่ Yandex จะจัดอันดับไซต์สำหรับคำค้นหา "apple":

นอกเหนือจากปัจจัยการจัดอันดับแล้ว Yandex ยังใช้ตัวอย่างพิเศษพร้อมข้อความค้นหาและคำตอบที่ผู้ใช้เครื่องมือค้นหาพิจารณาว่าเหมาะสมที่สุด ไม่มีเครื่องจักรใดสามารถสร้างตัวอย่างดังกล่าวได้ในขณะนี้ - นี่เป็นสิทธิพิเศษของมนุษย์ ในยานเดกซ์จะมีการเรียกผู้เชี่ยวชาญดังกล่าว ผู้ประเมิน. หน้าที่ของพวกเขาคือวิเคราะห์เอกสารการค้นหาทั้งหมดอย่างสมบูรณ์และประเมินการตอบสนองต่อคำค้นหาที่ระบุ พวกเขาเลือกคำตอบที่ดีที่สุดและสร้างชุดการฝึกอบรมพิเศษ ในนั้นเครื่องมือค้นหาจะเห็นความสัมพันธ์ระหว่างหน้าที่เกี่ยวข้องและคุณสมบัติของหน้าเหล่านั้น การมีข้อมูลดังกล่าว Yandex สามารถเลือกสูตรการจัดอันดับที่เหมาะสมที่สุดสำหรับแต่ละคำขอได้ วิธีสร้างสูตรดังกล่าวเรียกว่า Matrixnet ข้อดีของระบบนี้คือทนทานต่อการติดตั้งมากเกินไป ซึ่งช่วยให้คุณคำนึงถึงปัจจัยการจัดอันดับจำนวนมาก โดยไม่ต้องเพิ่มจำนวนการให้คะแนนและรูปแบบที่ไม่จำเป็น

ในตอนท้ายของโพสต์ของฉันฉันต้องการแสดงสถิติที่น่าสนใจที่รวบรวมโดยเครื่องมือค้นหา Yandex ในกระบวนการทำงาน

1. ความนิยมของชื่อส่วนตัวในรัสเซียและเมืองรัสเซีย (ข้อมูลที่นำมาจากบัญชีของบล็อกเกอร์และผู้ใช้เครือข่ายโซเชียลในเดือนมีนาคม 2555)

ผู้ทำนายผู้ยิ่งใหญ่

ในปี 1863 นักเขียนผู้ยิ่งใหญ่ Jules Verne ได้สร้างหนังสือเล่มต่อไปของเขาชื่อ “Paris in the 20th Century” ในนั้นเขาบรรยายรายละเอียดเกี่ยวกับรถไฟใต้ดิน รถยนต์ เก้าอี้ไฟฟ้า คอมพิวเตอร์ และแม้แต่อินเทอร์เน็ต อย่างไรก็ตาม ผู้จัดพิมพ์ปฏิเสธที่จะพิมพ์หนังสือเล่มนี้และวางไว้ที่นั่นมานานกว่า 120 ปีจนกระทั่งหลานชายของ Jules Verne พบในปี 1989 หนังสือเล่มนี้ตีพิมพ์ในปี 1994

1. ข้อกำหนดและคำจำกัดความ ในข้อตกลงเกี่ยวกับการประมวลผลข้อมูลส่วนบุคคล (ต่อไปนี้เรียกว่าข้อตกลง) ข้อกำหนดด้านล่างมีคำจำกัดความดังต่อไปนี้: ผู้ดำเนินการ - ผู้ประกอบการรายบุคคล Oleg Aleksandrovich Dneprovsky การยอมรับข้อตกลง - การยอมรับข้อกำหนดทั้งหมดของข้อตกลงโดยสมบูรณ์และไม่มีเงื่อนไขโดยการส่งและประมวลผลข้อมูลส่วนบุคคล ข้อมูลส่วนบุคคล - ข้อมูลที่ผู้ใช้ป้อน (เรื่องของข้อมูลส่วนบุคคล) บนเว็บไซต์และเกี่ยวข้องโดยตรงหรือโดยอ้อมกับผู้ใช้รายนี้ ผู้ใช้ - บุคคลหรือนิติบุคคลใด ๆ ที่เสร็จสิ้นขั้นตอนการกรอกข้อมูลในช่องป้อนข้อมูลบนไซต์สำเร็จ การกรอกช่องป้อนข้อมูลเป็นขั้นตอนสำหรับผู้ใช้ในการส่งชื่อ นามสกุล หมายเลขโทรศัพท์ ที่อยู่อีเมลส่วนตัว (ต่อไปนี้จะเรียกว่าข้อมูลส่วนบุคคล) ไปยังฐานข้อมูลของผู้ใช้ที่ลงทะเบียนของเว็บไซต์ ซึ่งดำเนินการเพื่อวัตถุประสงค์ในการระบุ ผู้ใช้งาน. จากการกรอกข้อมูลในช่องป้อนข้อมูล ข้อมูลส่วนบุคคลจะถูกส่งไปยังฐานข้อมูลของผู้ให้บริการ การกรอกข้อมูลในช่องป้อนข้อมูลเป็นไปโดยสมัครใจ เว็บไซต์ - เว็บไซต์ที่อยู่บนอินเทอร์เน็ตและประกอบด้วยหนึ่งหน้า 2. ข้อกำหนดทั่วไป 2.1. ข้อตกลงนี้จัดทำขึ้นบนพื้นฐานของข้อกำหนดของกฎหมายของรัฐบาลกลางวันที่ 27 กรกฎาคม 2549 ฉบับที่ 152-FZ "เกี่ยวกับข้อมูลส่วนบุคคล" และบทบัญญัติของข้อ 13.11 ว่าด้วย "การละเมิดกฎหมายของสหพันธรัฐรัสเซียในสาขา ข้อมูลส่วนบุคคล” ของประมวลกฎหมายความผิดทางการบริหารของสหพันธรัฐรัสเซีย และใช้ได้กับข้อมูลส่วนบุคคลทั้งหมดที่ผู้ประกอบการสามารถรับเกี่ยวกับผู้ใช้ในขณะที่ใช้งานไซต์ 2.2. การกรอกช่องป้อนข้อมูลโดยผู้ใช้บนเว็บไซต์หมายถึงข้อตกลงที่ไม่มีเงื่อนไขของผู้ใช้กับข้อกำหนดทั้งหมดของข้อตกลงนี้ (การยอมรับข้อตกลง) ในกรณีที่ไม่เห็นด้วยกับเงื่อนไขเหล่านี้ ผู้ใช้จะไม่กรอกข้อมูลในช่องป้อนข้อมูลบนเว็บไซต์ 2.3. ความยินยอมของผู้ใช้ในการให้ข้อมูลส่วนบุคคลแก่ผู้ประกอบการและการประมวลผลโดยผู้ประกอบการจะมีผลใช้ได้จนกว่ากิจกรรมของผู้ประกอบการจะยุติลงหรือจนกว่าผู้ใช้จะเพิกถอนความยินยอม โดยการยอมรับข้อตกลงนี้และทำตามขั้นตอนการลงทะเบียน รวมถึงการเข้าถึงไซต์ในเวลาต่อมา ผู้ใช้ยืนยันว่าด้วยการกระทำตามเจตจำนงเสรีของเขาเองและเพื่อผลประโยชน์ของเขาเอง เขาถ่ายโอนข้อมูลส่วนบุคคลของเขาเพื่อการประมวลผลไปยังผู้ประกอบการและตกลงที่จะ การประมวลผลของพวกเขา ผู้ใช้จะได้รับแจ้งว่าการประมวลผลข้อมูลส่วนบุคคลของเขาจะดำเนินการโดยผู้ประกอบการบนพื้นฐานของกฎหมายของรัฐบาลกลางวันที่ 27 กรกฎาคม 2549 ฉบับที่ 152-FZ "เกี่ยวกับข้อมูลส่วนบุคคล" 3. รายการข้อมูลส่วนบุคคลและข้อมูลอื่น ๆ เกี่ยวกับผู้ใช้ที่จะถ่ายโอนไปยังผู้ให้บริการ 3. 1. เมื่อใช้เว็บไซต์ของผู้ให้บริการ ผู้ใช้ให้ข้อมูลส่วนบุคคลดังต่อไปนี้: 3.1.1. ข้อมูลส่วนบุคคลที่เชื่อถือได้ซึ่งผู้ใช้ให้ไว้เกี่ยวกับตัวเองโดยอิสระเมื่อกรอกข้อมูลในช่องป้อนข้อมูลและ/หรือในกระบวนการใช้บริการเว็บไซต์ รวมถึงนามสกุล ชื่อ นามสกุล หมายเลขโทรศัพท์ (บ้านหรือมือถือ) ที่อยู่อีเมลส่วนตัว 3.1.2. ข้อมูลที่ถ่ายโอนไปยังบริการของไซต์โดยอัตโนมัติระหว่างการใช้งานโดยใช้ซอฟต์แวร์ที่ติดตั้งบนอุปกรณ์ของผู้ใช้ รวมถึงที่อยู่ IP ข้อมูลจากคุกกี้ ข้อมูลเกี่ยวกับเบราว์เซอร์ของผู้ใช้ (หรือโปรแกรมอื่น ๆ ที่มีการเข้าถึงบริการ) 3.2. ผู้ประกอบการไม่ตรวจสอบความถูกต้องของข้อมูลส่วนบุคคลที่ผู้ใช้ให้ไว้ ในกรณีนี้ ผู้ประกอบการถือว่าผู้ใช้ให้ข้อมูลส่วนบุคคลที่เชื่อถือได้และเพียงพอสำหรับคำถามที่เสนอในช่องป้อนข้อมูล 4. วัตถุประสงค์ กฎเกณฑ์ในการรวบรวมและการใช้ข้อมูลส่วนบุคคล 4.1. ผู้ประกอบการประมวลผลข้อมูลส่วนบุคคลที่จำเป็นในการให้บริการและให้บริการแก่ผู้ใช้ 4.2. ข้อมูลส่วนบุคคลของผู้ใช้ถูกใช้โดยผู้ให้บริการเพื่อวัตถุประสงค์ดังต่อไปนี้: 4.2.1. การระบุตัวตนผู้ใช้ 4.2.2. การให้บริการส่วนบุคคลแก่ผู้ใช้ (รวมถึงการแจ้งเกี่ยวกับโปรโมชั่นและบริการใหม่ของบริษัทโดยการส่งจดหมาย) 4.2.3. รักษาการติดต่อกับผู้ใช้หากจำเป็น รวมถึงการส่งการแจ้งเตือน คำขอ และข้อมูลที่เกี่ยวข้องกับการใช้บริการ การให้บริการ ตลอดจนการประมวลผลคำขอและแอปพลิเคชันจากผู้ใช้ 4.3. ในระหว่างการประมวลผลข้อมูลส่วนบุคคล จะดำเนินการดังต่อไปนี้: การรวบรวม การบันทึก การจัดระบบ การสะสม การจัดเก็บ การชี้แจง (การอัปเดต การเปลี่ยนแปลง) การสกัด การใช้ การบล็อก การลบ การทำลาย 4.4. ผู้ใช้ไม่คัดค้านว่าข้อมูลที่ระบุโดยเขาในบางกรณีอาจถูกส่งไปยังหน่วยงานของรัฐที่ได้รับอนุญาตของสหพันธรัฐรัสเซียตามกฎหมายปัจจุบันของสหพันธรัฐรัสเซีย 4.5. ข้อมูลส่วนบุคคลของผู้ใช้จะถูกจัดเก็บและประมวลผลโดยผู้ให้บริการในลักษณะที่ระบุไว้ในข้อตกลงนี้ตลอดระยะเวลากิจกรรมโดยผู้ประกอบการ 4.6. การประมวลผลข้อมูลส่วนบุคคลดำเนินการโดยผู้ดำเนินการโดยการบำรุงรักษาฐานข้อมูล วิธีการอัตโนมัติ กลไก และด้วยตนเอง 4.7. ไซต์ใช้คุกกี้และเทคโนโลยีอื่น ๆ เพื่อติดตามการใช้บริการของไซต์ ข้อมูลนี้จำเป็นเพื่อเพิ่มประสิทธิภาพการทำงานด้านเทคนิคของไซต์และปรับปรุงคุณภาพการให้บริการ ไซต์จะบันทึกข้อมูลโดยอัตโนมัติ (รวมถึง URL, ที่อยู่ IP, ประเภทเบราว์เซอร์, ภาษา, วันที่และเวลาที่ร้องขอ) เกี่ยวกับผู้เยี่ยมชมไซต์แต่ละราย ผู้ใช้มีสิทธิ์ที่จะปฏิเสธที่จะให้ข้อมูลส่วนบุคคลเมื่อเยี่ยมชมไซต์หรือปิดการใช้งานคุกกี้ แต่ในกรณีนี้ ฟังก์ชั่นบางอย่างของไซต์อาจทำงานไม่ถูกต้อง 4.8. เงื่อนไขการรักษาความลับที่กำหนดไว้ในข้อตกลงนี้ใช้กับข้อมูลทั้งหมดที่ผู้ประกอบการสามารถรับเกี่ยวกับผู้ใช้ในระหว่างการเข้าพักบนเว็บไซต์และการใช้งานเว็บไซต์ 4.9. ข้อมูลที่เปิดเผยต่อสาธารณะในระหว่างการบังคับใช้ข้อตกลงนี้ รวมถึงข้อมูลที่ฝ่ายหรือบุคคลที่สามสามารถรับได้จากแหล่งที่บุคคลใด ๆ สามารถเข้าถึงได้โดยเสรีจะไม่เป็นความลับ 4.10. ผู้ประกอบการใช้มาตรการที่จำเป็นทั้งหมดเพื่อปกป้องความลับของข้อมูลส่วนบุคคลของผู้ใช้จากการเข้าถึง การแก้ไข การเปิดเผยหรือการทำลายโดยไม่ได้รับอนุญาต รวมถึง: ทำให้มั่นใจในการตรวจสอบภายในอย่างต่อเนื่องของกระบวนการรวบรวม จัดเก็บ และประมวลผลข้อมูล และรับประกันความปลอดภัย รับประกันความปลอดภัยทางกายภาพของข้อมูล ป้องกันการเข้าถึงระบบทางเทคนิคโดยไม่ได้รับอนุญาตซึ่งรับประกันการทำงานของไซต์ ซึ่งผู้ดำเนินการจัดเก็บข้อมูลส่วนบุคคล ให้การเข้าถึงข้อมูลส่วนบุคคลเฉพาะกับพนักงานของผู้ประกอบการหรือบุคคลที่ได้รับอนุญาตซึ่งต้องการข้อมูลนี้เพื่อปฏิบัติหน้าที่ที่เกี่ยวข้องโดยตรงกับการให้บริการแก่ผู้ใช้ตลอดจนการดำเนินงาน การพัฒนา และการปรับปรุงไซต์ 4.11. ข้อมูลส่วนบุคคลของผู้ใช้ยังคงเป็นความลับ ยกเว้นในกรณีที่ผู้ใช้สมัครใจให้ข้อมูลเกี่ยวกับตนเองเพื่อการเข้าถึงโดยทั่วไปโดยไม่จำกัดจำนวนบุคคล 4.12. การถ่ายโอนข้อมูลส่วนบุคคลของผู้ใช้โดยผู้ดำเนินการนั้นถูกต้องตามกฎหมายในระหว่างการจัดระเบียบใหม่ของผู้ประกอบการและการโอนสิทธิ์ไปยังผู้สืบทอดตามกฎหมายของผู้ประกอบการ ในขณะที่ภาระผูกพันทั้งหมดในการปฏิบัติตามข้อกำหนดของข้อตกลงนี้ที่เกี่ยวข้องกับข้อมูลส่วนบุคคลที่เขาได้รับคือ โอนไปยังทายาทตามกฎหมาย 4.13. คำชี้แจงนี้ใช้กับเว็บไซต์ของผู้ให้บริการเท่านั้น บริษัทไม่ได้ควบคุมและไม่รับผิดชอบต่อเว็บไซต์ (บริการ) ของบุคคลที่สามที่ผู้ใช้สามารถเข้าถึงได้ผ่านลิงก์ที่มีอยู่บนเว็บไซต์ของผู้ให้บริการ รวมถึงในผลการค้นหา บนเว็บไซต์ (บริการ) ดังกล่าว ข้อมูลส่วนบุคคลอื่น ๆ อาจถูกรวบรวมหรือร้องขอจากผู้ใช้ และอาจดำเนินการอื่น ๆ 5. สิทธิ์ของผู้ใช้ในเรื่องของข้อมูลส่วนบุคคล การเปลี่ยนแปลงและการลบข้อมูลส่วนบุคคลโดยผู้ใช้ 5.1 ผู้ใช้มีสิทธิ์: 5.1.2 กำหนดให้ผู้ดำเนินการชี้แจงข้อมูลส่วนบุคคลของตน ปิดกั้นหรือทำลายหากข้อมูลส่วนบุคคลไม่สมบูรณ์ ล้าสมัย ไม่ถูกต้อง ได้มาโดยผิดกฎหมายหรือไม่จำเป็นสำหรับวัตถุประสงค์ในการประมวลผลที่ระบุไว้ และใช้มาตรการตามกฎหมายเพื่อปกป้องสิทธิ์ของเขา 5.1.3. รับข้อมูลเกี่ยวกับการประมวลผลข้อมูลส่วนบุคคลของเขา รวมถึงข้อมูลที่มี: 5.1.3.1 การยืนยันข้อเท็จจริงในการประมวลผลข้อมูลส่วนบุคคลโดยผู้ดำเนินการ 5.1.3.2. วัตถุประสงค์และวิธีการประมวลผลข้อมูลส่วนบุคคลที่ผู้ประกอบการใช้ 5.1.3.3. ชื่อและที่ตั้งของผู้ประกอบการ 5.1.3.4. ข้อมูลส่วนบุคคลที่ประมวลผลที่เกี่ยวข้องกับหัวข้อที่เกี่ยวข้องของข้อมูลส่วนบุคคลแหล่งที่มาของการได้รับเว้นแต่ว่ากฎหมายของรัฐบาลกลางจะกำหนดขั้นตอนที่แตกต่างกันสำหรับการนำเสนอข้อมูลดังกล่าว 5.1.3.5. เงื่อนไขการประมวลผลข้อมูลส่วนบุคคล รวมถึงระยะเวลาการจัดเก็บข้อมูล 5.1.3.6. ข้อมูลอื่น ๆ ที่กำหนดโดยกฎหมายปัจจุบันของสหพันธรัฐรัสเซีย 5.2. การเพิกถอนความยินยอมในการประมวลผลข้อมูลส่วนบุคคลสามารถดำเนินการโดยผู้ใช้โดยส่งการแจ้งเตือนเป็นลายลักษณ์อักษรที่เหมาะสม (พิมพ์บนสื่อที่จับต้องได้และลงนามโดยผู้ใช้) ให้ผู้ประกอบการ 6. ความรับผิดชอบของผู้ปฏิบัติงาน การเข้าถึงข้อมูลส่วนบุคคล 6.1. ผู้ประกอบการดำเนินการเพื่อให้แน่ใจว่าการป้องกันการเข้าถึงข้อมูลส่วนบุคคลของผู้ใช้เว็บไซต์ของผู้ประกอบการโดยไม่ได้รับอนุญาตและไม่ใช่เป้าหมาย ในกรณีนี้ การเข้าถึงข้อมูลส่วนบุคคลของผู้ใช้ไซต์ที่ได้รับอนุญาตและกำหนดเป้าหมายจะถือว่าเข้าถึงได้โดยผู้มีส่วนได้เสียทั้งหมด ซึ่งดำเนินการภายในกรอบวัตถุประสงค์และหัวข้อของไซต์ของผู้ให้บริการ ในเวลาเดียวกัน ผู้ให้บริการจะไม่รับผิดชอบต่อการใช้ข้อมูลส่วนบุคคลของผู้ใช้ในทางที่ผิดที่อาจเกิดขึ้นอันเป็นผลมาจาก: ปัญหาทางเทคนิคในซอฟต์แวร์และฮาร์ดแวร์และเครือข่ายที่อยู่นอกเหนือการควบคุมของผู้ให้บริการ ในส่วนที่เกี่ยวข้องกับการใช้งานเว็บไซต์ของผู้ให้บริการโดยตั้งใจหรือไม่ตั้งใจ นอกเหนือจากวัตถุประสงค์ที่บุคคลที่สามตั้งใจไว้ 6.2 ผู้ประกอบการใช้มาตรการเชิงองค์กรและทางเทคนิคที่จำเป็นและเพียงพอเพื่อปกป้องข้อมูลส่วนบุคคลของผู้ใช้จากการเข้าถึง การทำลาย การแก้ไข การบล็อก การคัดลอก การแจกจ่ายโดยไม่ได้รับอนุญาตหรือโดยไม่ได้ตั้งใจ รวมถึงจากการกระทำที่ผิดกฎหมายอื่น ๆ ของบุคคลที่สามด้วย 7. การเปลี่ยนแปลงนโยบายความเป็นส่วนตัว กฎหมายที่ใช้บังคับ 7.1 ผู้ประกอบการมีสิทธิ์ในการเปลี่ยนแปลงกฎข้อบังคับเหล่านี้โดยไม่ต้องแจ้งให้ทราบเป็นพิเศษแก่ผู้ใช้ เมื่อมีการเปลี่ยนแปลงในฉบับปัจจุบัน วันที่ของการอัปเดตครั้งล่าสุดจะถูกระบุ ข้อบังคับฉบับใหม่มีผลใช้บังคับนับตั้งแต่เวลาที่ประกาศ เว้นแต่ข้อบังคับฉบับใหม่จะกำหนดไว้เป็นอย่างอื่น 7.2. กฎหมายของสหพันธรัฐรัสเซียจะใช้บังคับกับข้อบังคับนี้และความสัมพันธ์ระหว่างผู้ใช้และผู้ประกอบการที่เกิดขึ้นที่เกี่ยวข้องกับการใช้ข้อบังคับนี้ ฉันยอมรับฉันไม่ยอมรับ