Yandex 검색 엔진의 새로운 기능. Yandex - Yandex란 무엇이며 Yandex라고 불리는 이유는 무엇입니까? 검색 시스템의 구성 및 작동 원리

그들은 오랫동안 러시아 인터넷의 필수적인 부분이 되었습니다. 검색 엔진은 이제 정보 검색 도구일 뿐만 아니라 매력적인 비즈니스 영역을 나타내는 거대하고 복잡한 메커니즘입니다.

대부분의 검색 엔진 사용자는 검색 엔진의 작동 원리, 사용자 요청 처리 체계, 이러한 시스템의 구성 및 작동 방식에 대해 생각해 본 적이 없습니다(또는 이에 대해 생각했지만 답을 찾지 못했습니다).

이 마스터 클래스는 검색 엔진 작동 방식에 대한 질문에 답하기 위해 고안되었습니다. 그러나 여기서는 문서 순위에 영향을 미치는 요소를 찾을 수 없습니다. 또한 Yandex 알고리즘에 대한 자세한 설명을 기 대해서는 안됩니다. Yandex 검색 엔진의 기술 및 개발 책임자인 Ilya Segalovich에 따르면 그는 Ilya Segalovich 자신에 의해서만 "고문을 받고 있는" 것으로 인식될 수 있습니다...

2. 검색엔진의 개념과 기능

검색 시스템은 인터넷을 검색하고 관련성 순으로 정보 소스에 대한 링크 목록을 생성하여 텍스트 구문(검색 쿼리) 형식으로 지정된 사용자 요청에 응답하도록 설계된 소프트웨어 및 하드웨어 복합체입니다. 요청에 따라). 가장 큰 국제 검색 엔진: "Google", 야후 , MSN . 러시아 인터넷에서는 Yandex, Rambler, Aport가 있습니다.

Yandex 검색 엔진을 예로 들어 검색어의 개념을 자세히 살펴 보겠습니다. 검색어는 사용자가 찾고자 하는 내용에 따라 최대한 간단하고 간단하게 작성되어야 합니다. Yandex에서 자동차 선택 방법에 대한 정보를 찾고 싶다고 가정해 보겠습니다. 이렇게 하려면 Yandex 메인 페이지를 열고 "자동차 선택 방법"이라는 검색어 텍스트를 입력하세요. 다음으로 우리의 임무는 요청에 따라 인터넷 정보 소스에 대한 링크를 여는 것입니다. 그러나 필요한 정보를 찾지 못할 가능성이 높습니다. 이런 일이 발생하면 요청을 다시 작성해야 하거나 검색 엔진 데이터베이스에 실제로 요청에 대한 관련 정보가 없습니다(예를 들어 '선택 방법'과 같이 매우 '좁은' 쿼리를 요청할 때 발생할 수 있음). 아르한겔스크의 자동차”)

모든 검색 엔진의 주요 목표는 사람들이 찾고 있는 정보를 정확하게 제공하는 것입니다. 그리고 사용자에게 시스템에 "올바른" 요청을 하도록 가르칩니다. 검색엔진의 운영원리에 부합하는 검색어는 불가능합니다. 따라서 개발자는 사용자가 원하는 정보를 찾을 수 있도록 하는 검색 엔진용 알고리즘과 작동 원리를 만듭니다.

이는 검색 엔진이 사용자가 정보를 검색할 때 생각하는 것과 동일한 방식으로 "생각"해야 함을 의미합니다. 사용자는 검색 엔진에 요청할 때 필요한 것을 최대한 빠르고 쉽게 찾고 싶어합니다. 결과를 받은 그는 몇 가지 기본 매개변수에 따라 시스템 성능을 평가합니다. 그가 찾고 있던 것을 찾았나요? 만일 그가 그것을 찾지 못했다면, 그가 찾고 있던 것을 찾기 위해 몇 번이나 질문을 바꿔야 했습니까? 그가 찾을 수 있는 관련 정보는 얼마나 됩니까? 검색 엔진이 요청을 얼마나 빨리 처리했나요? 검색결과가 얼마나 편리하게 제시되었나요? 찾고 있던 결과가 첫 번째였나요, 아니면 백 번째였나요? 유용한 정보와 함께 불필요한 쓰레기가 얼마나 발견되었나요? 일주일 안에, 아니면 한 달 안에 검색 엔진에 접속하면 필요한 정보를 찾을 수 있을까요?

이러한 모든 질문에 답하기 위해 검색 엔진 개발자는 지속적으로 검색 알고리즘과 원리를 개선하고 새로운 기능과 기능을 추가하며 시스템 작동 속도를 높이기 위해 가능한 모든 방법을 시도하고 있습니다.

3. 검색엔진의 주요 특징

검색 엔진의 주요 특징을 설명하겠습니다.

완전성
완전성은 검색 시스템의 주요 특징 중 하나이며, 이는 주어진 요청을 충족하는 인터넷상의 총 문서 수에 대한 요청으로 발견된 문서 수의 비율입니다. 예를 들어, 인터넷에 '자동차 선택 방법'이라는 문구가 포함된 페이지가 100개 있는데 그 중 해당 쿼리에 대해 60개만 검색된 경우 검색 완성도는 0.6이 됩니다. 분명히 검색이 완전할수록 사용자가 필요한 문서가 인터넷에 전혀 존재한다면 찾지 못할 가능성이 줄어 듭니다.
정확성
정확성은 검색 엔진의 또 다른 주요 특성으로, 발견된 문서가 사용자의 쿼리와 일치하는 정도에 따라 결정됩니다. 예를 들어, "자동차 선택 방법"이라는 쿼리에 100개의 문서가 포함되어 있고 그 중 50개에는 "자동차 선택 방법"이라는 문구가 포함되어 있고 나머지에는 단순히 다음 단어("올바른 라디오를 선택하고 설치하는 방법")가 포함되어 있습니다. a car”), 검색 정확도는 50/100(=0.5)과 동일한 것으로 간주됩니다. 검색이 정확할수록 사용자가 필요한 문서를 더 빨리 찾을 수 있고, "쓰레기"의 종류가 줄어들수록 발견된 문서가 요청과 일치하지 않는 경우가 줄어듭니다.
관련성
관련성은 문서가 인터넷에 게시된 순간부터 검색 엔진 색인 데이터베이스에 입력될 때까지 경과하는 시간을 특징으로 하는 검색의 똑같이 중요한 구성 요소입니다. 예를 들어, 흥미로운 뉴스가 나온 다음 날 많은 수의 사용자가 관련 검색어가 있는 검색 엔진을 찾았습니다. 객관적으로 이 주제에 대한 뉴스 정보가 게시된 지 하루도 채 지나지 않았지만, 대형 검색 엔진의 소위 "빠른 데이터베이스" 덕분에 주요 문서는 이미 색인화되어 검색이 가능합니다. 하루에 여러번 업데이트됩니다.
검색 속도
검색 속도는 부하 저항과 밀접한 관련이 있습니다. 예를 들어 Rambler Internet Holding LLC에 따르면 현재 업무 시간 동안 Rambler 검색 엔진은 초당 약 60개의 요청을 받습니다. 이러한 작업 부하에는 개별 요청의 처리 시간을 줄여야 합니다. 여기서는 사용자와 검색 엔진의 관심사가 일치합니다. 방문자는 가능한 한 빨리 결과를 얻기를 원하며 검색 엔진은 후속 쿼리 계산 속도가 느려지지 않도록 가능한 한 빨리 요청을 처리해야 합니다.
시계

4. 검색 엔진 개발의 간략한 역사

인터넷 개발 초기에는 사용자 수가 적었고, 이용 가능한 정보의 양도 상대적으로 적었습니다. 대부분의 경우 연구진만이 인터넷에 접속할 수 있었습니다. 당시에는 인터넷에서 정보를 검색하는 작업이 지금만큼 시급하지는 않았습니다.

네트워크 정보 리소스에 대한 액세스를 구성하는 첫 번째 방법 중 하나는 주제에 따라 그룹화된 리소스에 대한 링크인 사이트의 공개 디렉토리를 만드는 것이었습니다. 첫 번째 프로젝트는 1994년 봄에 오픈한 Yahoo.com 웹사이트였습니다. 카탈로그의 사이트 수가 크게 증가한 후 카탈로그에서 필요한 정보를 검색하는 기능이 추가되었습니다. 완전한 의미에서 검색 영역은 모든 인터넷 리소스가 아니라 카탈로그에 있는 리소스로만 제한되었기 때문에 아직 검색 엔진이 아니었습니다.

링크 디렉토리는 과거에 널리 사용되었지만 현재는 그 인기를 거의 완전히 잃었습니다. 방대한 양의 현대 카탈로그조차도 인터넷에서 무시할 수 있는 부분에 대한 정보만 포함하고 있기 때문입니다. DMOZ 네트워크의 가장 큰 디렉토리(오픈 디렉토리 프로젝트라고도 함)에는 500만 개의 리소스에 대한 정보가 포함되어 있으며 Google 검색 엔진 데이터베이스는 80억 개 이상의 문서로 구성되어 있습니다.

1995년에는 검색 엔진인 Lycos와 AltaVista가 등장했습니다. 후자는 수년 동안 인터넷 정보 검색 분야의 선두 주자였습니다.

1997년 Sergey Brin과 Larry Page는 스탠포드 대학교 연구 프로젝트의 일환으로 Google 검색 엔진을 만들었습니다. Google은 현재 전 세계에서 가장 인기 있는 검색 엔진입니다!

1997년 9월, 러시아어 인터넷에서 가장 인기 있는 검색 엔진인 Yandex가 공식적으로 발표되었습니다.

현재 Google, Yahoo 등 세 가지 주요 검색 엔진(국제)이 있으며 자체 데이터베이스와 검색 알고리즘을 보유하고 있습니다. 대부분의 다른 검색 엔진(그 중 다수)은 나열된 세 가지 결과를 어떤 형태로든 사용합니다. 예를 들어, AOL 검색(search.aol.com)은 Google 데이터베이스를 사용하는 반면 AltaVista, Lycos 및 AllTheWeb은 Yahoo 데이터베이스를 사용합니다.

5. 검색시스템의 구성 및 운영원리

러시아의 주요 검색 엔진은 Yandex이며, Rambler.ru, Google.ru, Aport.ru, Mail.ru가 그 뒤를 따릅니다. 또한 현재 Mail.ru는 Yandex 검색 엔진과 데이터베이스를 사용하고 있습니다.

거의 모든 주요 검색 엔진은 다른 검색 엔진과 다른 자체 구조를 가지고 있습니다. 그러나 모든 검색 엔진에 공통된 주요 구성 요소를 식별하는 것은 가능합니다. 구조의 차이는 이러한 구성 요소의 상호 작용 메커니즘을 구현하는 형태로만 나타날 수 있습니다.

인덱싱 모듈

인덱싱 모듈은 세 가지 보조 프로그램(로봇)으로 구성됩니다.

Spider는 웹 페이지를 다운로드하도록 설계된 프로그램입니다. 스파이더는 페이지를 다운로드하고 해당 페이지에서 모든 내부 링크를 검색합니다. 각 페이지의 HTML 코드가 다운로드됩니다. 로봇은 HTTP 프로토콜을 사용하여 페이지를 다운로드합니다. 거미는 다음과 같이 작동합니다. 로봇은 "get/path/document" 요청과 기타 HTTP 요청 명령을 서버에 보냅니다. 이에 대한 응답으로 로봇은 서비스 정보와 문서 자체가 포함된 텍스트 스트림을 수신합니다.

페이지 URL
페이지를 다운로드한 날짜
서버 응답 http 헤더
페이지 본문(html 코드)

크롤러("여행" 스파이더)는 페이지에 있는 모든 링크를 자동으로 따라가는 프로그램입니다. 페이지에 있는 모든 링크를 선택합니다. 그 임무는 링크나 미리 결정된 주소 목록을 기반으로 스파이더가 다음에 어디로 가야 할지 결정하는 것입니다. 크롤러는 발견된 링크를 따라 검색 엔진에 아직 알려지지 않은 새 문서를 검색합니다.

인덱서(로봇 인덱서)는 스파이더가 다운로드한 웹페이지를 분석하는 프로그램이다. 인덱서는 페이지를 구성 요소 부분으로 구문 분석하고 자체 어휘 및 형태론적 알고리즘을 사용하여 분석합니다. 텍스트, 제목, 링크, 구조 및 스타일 기능, 특수 서비스 HTML 태그 등 다양한 페이지 요소를 분석합니다.

따라서 인덱싱 모듈을 사용하면 링크를 사용하여 특정 리소스 세트를 크롤링하고, 발견된 페이지를 다운로드하고, 수신된 문서에서 새 페이지에 대한 링크를 추출하고, 이러한 문서에 대한 완전한 분석을 수행할 수 있습니다.

데이터 베이스

데이터베이스 또는 검색 엔진 인덱스는 데이터 저장 시스템으로, 인덱싱 모듈에 의해 다운로드되고 처리된 모든 문서의 특수하게 변환된 매개변수가 저장되는 정보 배열입니다.

검색서버

검색 서버는 전체 시스템에서 가장 중요한 요소입니다. 검색의 품질과 속도는 검색 기능의 기반이 되는 알고리즘에 직접적으로 좌우되기 때문입니다.

검색 서버는 다음과 같이 작동합니다.

사용자로부터 받은 요청은 형태소 분석을 거칩니다. 데이터베이스에 포함된 각 문서의 정보 환경이 생성됩니다(이후 검색 결과 페이지의 요청에 해당하는 텍스트 정보 형식으로 표시됩니다).
수신된 데이터는 특수 순위 모듈에 입력 매개변수로 전달됩니다. 데이터는 모든 문서에 대해 처리되며, 그 결과 각 문서에는 사용자가 입력한 쿼리와 검색 엔진 인덱스에 저장된 이 문서의 다양한 구성 요소의 관련성을 특징으로 하는 자체 등급이 있습니다.
사용자의 선택에 따라 이 등급은 추가 조건(예: 소위 "고급 검색")에 의해 조정될 수 있습니다.
다음으로, 스니펫이 생성됩니다. 즉, 발견된 각 문서에 대해 제목, 쿼리와 가장 잘 일치하는 짧은 초록, 문서 자체에 대한 링크가 문서 테이블에서 추출되고 발견된 단어가 강조 표시됩니다.
검색 결과는 검색 결과 페이지인 SERP(검색 엔진 결과 페이지) 형식으로 사용자에게 전송됩니다.

보시다시피 이러한 모든 구성 요소는 서로 밀접하게 관련되어 있으며 상호 작용하여 엄청난 양의 리소스가 필요한 검색 시스템 작동을 위한 명확하고 다소 복잡한 메커니즘을 형성합니다.

6. 결론

이제 위의 내용을 모두 요약해 보겠습니다.

모든 검색 엔진의 주요 목표는 사람들이 찾고 있는 정보를 정확하게 제공하는 것입니다.
검색 엔진의 주요 특징:
1. 완전성
2. 정확성
3. 관련성
4. 검색 속도
5. 시계
최초의 본격적인 검색 엔진은 1994년에 출시된 WebCrawler 프로젝트였습니다.
검색 시스템에는 다음 구성 요소가 포함됩니다.
1. 인덱싱 모듈
2. 데이터 베이스
3. 검색서버

우리의 마스터 클래스를 통해 검색 엔진의 개념에 더 익숙해지고 검색 엔진의 주요 기능, 특성 및 작동 원리를 더 잘 이해할 수 있기를 바랍니다.

안녕 친애하는 친구! 이 기사에서 우리는 Yandex 검색 엔진을 계속 살펴볼 것이며, 기억하시는 것처럼 이전 기사에서 우리는 러시아 및 기타 지역의 경쟁사 중 1위를 차지하는 이 위대한 회사의 창립 역사에 대해 논의했습니다.

이 모든 것이 좋지만 초보자와 숙련된 사이트 빌더는 자신의 프로젝트를 TOP 검색 결과의 첫 번째 위치에 올리는 방법과 관련된 가장 중요한 질문에 관심이 있습니다.

따라서 어떤 실수를 저지를 수 있는지, 그리고 일반적으로 러시아 검색 엔진에서 무엇을 기대할 수 있는지 이해하기 위해 Yandex 검색 엔진이 어떻게 작동하는지 살펴보겠습니다.

지난 기사에서 우리는 논의했습니다. 이 주제는 매우 흥미롭고 유용했습니다. 그래서 나는 그것을 보완하고 심화시키기로 결정했습니다.

그래서 아마도 "검색 엔진이 문서를 색인화하는 이유"라는 질문에 약간 매료되었을 것입니다. 남은 것은 "어떻게"라는 질문을 알아내는 것뿐입니다.

웹사이트 순위 알고리즘

먼저 모든 검색 엔진의 기본이 되는 몇 가지 알고리즘에 대해 알아 보겠습니다.

— 직접 검색 알고리즘.

그것은 무엇입니까 - 당신은 책 중 하나에서 멋진 이야기를 읽은 것을 기억합니다. 그리고 하나하나 살펴보기 시작합니다. 한 권의 책을 가져다가 살펴보고, 찾지 못하고, 다른 책을 가져갔습니다... 원리는 분명하지만 이 방법은 매우 깁니다. 이것은 또한 이해할 수 있습니다.

— 역방향 검색 알고리즘.

이 알고리즘의 경우 블로그의 각 페이지에서 텍스트 파일이 생성됩니다. 이 파일에는 귀하가 사용한 모든 단어가 알파벳순으로 나열되어 있습니다. 텍스트에서 이 단어의 위치도 표시됩니다(텍스트의 좌표).

이는 상당히 빠른 방법이지만 검색이 이미 일부 오류와 함께 발생하고 있습니다.

여기서 이해해야 할 가장 중요한 점은 이 알고리즘은 블로그에서 검색하는 것이 아니라 인터넷에서 검색하는 것이 아니라는 점입니다. 그리고 오래 전에 생성된 별도의 텍스트 파일에 있습니다. 로봇이 당신에게 왔을 때. 그리고 이러한 파일(역방향 색인)은 Yandex 서버에 저장됩니다.

이것이 기본 검색 알고리즘이었습니다. 저것들. Yandex가 필요한 문서를 간단히 찾는 방법. 이것에는 아무런 문제가 없을 것 같습니다.

하지만 Yandex는 1개 이상, 심지어 100개 이상의 문서를 알고 있지만, 내 소스의 최신 데이터에 따르면 Yandex는 약 110억 개의 문서(10,727,736,489페이지)를 알고 있습니다.

그리고 이 모든 수량 중에서 요청에 맞는 문서를 선택해야 합니다. 그리고 더 중요한 것은 어떻게든 순위를 매겨야 한다는 것입니다. 저것들. 중요도에 따라, 또는 오히려 독자에게 유용한 정도에 따라 정렬합니다.

수학적 검색 모델

이 문제를 해결하기 위해 수학적 모델이 구출됩니다. 이제 가장 간단한 모델에 대해 이야기하겠습니다.

부울 수학적 모델– 문서에 단어가 나타나면 문서가 발견된 것으로 간주됩니다. 우연일 뿐이고 복잡한 것은 없습니다.

그러나 여기에는 문제가 있습니다. 예를 들어, 사용자로서 인기 있는 단어 또는 러시아어에서 가장 일반적이고 모든 문서에서 발견되는 전치사 "v"를 입력하면 매우 많은 결과가 제공됩니다. 당신은 그런 숫자조차 깨닫지 못하고 있는데, 얼마나 많은 문서를 찾았나요? 따라서 다음과 같은 매트 모델이 등장했습니다.

벡터 수학적 모델– 이 모델은 문서의 "무게"를 결정합니다. 우연이 일어날 뿐만 아니라, 단어가 여러 번 나타나야 합니다. 또한, 단어가 많이 나타날수록 관련성(준수성)이 높아집니다.

모든 검색 엔진이 사용하는 벡터 모델입니다.

확률 모델- 더 복잡한. 원칙은 다음과 같습니다. 검색 엔진이 페이지 템플릿 자체를 찾았습니다. 예를 들어 Yandex의 역사에 대한 정보를 찾고 있습니다. Yandex는 일종의 표준을 저장합니다. 이것이 Yandex에 대한 이전 기사가 될 것이라고 가정해 보겠습니다.

그리고 그는 이 기사와 다른 모든 문서를 비교할 것입니다. 그리고 여기의 논리는 다음과 같습니다. 귀하의 블로그 페이지가 내 기사와 더 유사할수록 귀하의 블로그 페이지가 독자에게도 유용하고 Yandex의 역사에 대해서도 알려줄 가능성이 더 높습니다.

사용자에게 표시해야 하는 문서 수를 줄이기 위해 관련성 개념이 도입되었습니다. 규정 준수.

귀하의 블로그 페이지가 주제와 얼마나 관련성이 있습니까? 이는 검색 품질과 관련하여 중요한 주제입니다.

평가자 - 그들은 누구이며 어떤 책임을 지는가?

이러한 관련성은 알고리즘의 품질을 평가하는 데에도 필요합니다.

이를 위해 특수 부대 본부가 있으며 이를 평가자라고 합니다. 검색결과를 손으로 샅샅이 살펴보는 특별한 사람들입니다.

사이트 확인 방법, 평가 방법 등에 대한 지침이 있습니다. 그리고 귀하의 페이지가 검색어에 적합한지 여부를 수동으로 결정합니다.

그리고 검색 알고리즘의 품질은 평가자의 의견에 따라 달라집니다. 모든 평가자가 검색 결과가 요청과 일치하지 않는다고 말하면 이는 순위 알고리즘이 잘못되었으며 Yandex가 비난받을 유일한 사람임을 의미합니다.

평가자가 단 하나의 사이트만 요청을 충족하지 못한다고 말하면 해당 사이트가 멀리 떨어진 곳으로 날아가 검색 결과에서 낮아진다는 의미입니다. 보다 정확하게는 전체 사이트가 아니라 단 하나의 기사이지만 이것이 "요점이 아닙니다"입니다.

물론 평가자가 모든 기사를 손과 눈으로 검토하고 평가할 수는 없습니다. 이것은 이해할 수 있습니다.

그리고 페이지 순위를 결정하는 다른 매개변수가 도움이 됩니다.

예를 들어 다음과 같은 것들이 많이 있습니다.

페이지 무게(vIC, PageRank, 아기 범프전체적으로);
도메인 권한;
요청에 대한 텍스트의 관련성
쿼리에 대한 외부 링크 텍스트의 관련성
다른 많은 순위 요소도 포함됩니다.

평가자는 의견을 제시하고 수학적 순위 모델 설정을 담당하는 사람들은 공식을 편집하여 검색 엔진이 보다 효율적으로 작동하도록 합니다.

공식 성능을 평가하기 위한 주요 기준은 다음과 같습니다.

1. 검색 엔진 결과의 정확성- 요청과 일치하는 문서의 비율(관련) 저것들. 요청과 일치하지 않는 페이지가 적을수록 좋습니다.

2. 검색엔진 결과의 완전성- 컬렉션 내 관련 문서의 총 개수(검색 엔진에서 발견된 전체 페이지)에 대한 특정 검색어에 대한 관련 웹 페이지의 비율입니다.

예를 들어 검색 결과보다 전체 컬렉션에 관련 페이지가 더 많다면 결과가 불완전하다는 의미입니다. 이는 관련 웹페이지 중 일부가 필터링되었기 때문에 발생했습니다.

3. 검색 엔진 결과의 관련성- 이는 스니펫에 작성된 내용을 웹페이지와 준수하는 것입니다. 예를 들어 문서가 매우 다르거나 전혀 존재하지 않더라도 검색 결과에는 계속 표시될 수 있습니다.

검색 결과의 관련성은 검색 로봇이 컬렉션에서 문서를 스캔하는 빈도에 따라 직접적으로 달라집니다.

컬렉션 수집(사이트 페이지 색인 생성)은 검색 로봇이라는 특수 프로그램에 의해 수행됩니다.

검색 로봇은 인덱싱을 위한 주소 목록을 받아 복사한 후, 복사된 웹 페이지의 내용을 처리하기 위해 역인덱스로 변환하는 알고리즘으로 보냅니다.

글쎄요, 말하자면 "간단히" 우리는 검색 엔진의 원리에 대해 논의했습니다.

요약해보자:

검색 로봇이 귀하의 블로그에 찾아옵니다.
검색 로봇은 후속 검색을 위해 페이지의 역방향 색인을 저장합니다.
수학적 모델을 사용하여 문서는 공식을 사용하고 평가자의 의견을 고려하여 검색 결과에 처리되고 표시됩니다.

이것은 매우 매우 간단합니다. Yandex 검색 엔진의 작동 방식에 대한 기본적인 이해를 얻으려면.

나는 이제 너무 많은 텍스트를 썼고 아마도 너무 많은 것이 명확하지 않을 것입니다. 그러므로 잠시 후에 이 기사로 돌아와서 이 비디오를 시청하는 것이 좋습니다.

이것은 나도 한때 배운 훌륭한 가이드입니다.

이 정보가 귀하의 사이트 중 하나가 검색에서 적절한 위치를 차지하는 이유를 더 잘 이해하고 이를 개선하기 위해 모든 노력을 기울이는 데 도움이 되기를 바랍니다.

이것으로 작별 인사를 드립니다. 질문이 있으시면 언제든지 댓글로 답변해 드리겠습니다. 아니면 기사에 추가하고 싶으신가요?

어쨌든 귀하의 의견을 표현하십시오. !

우리는 우리가 생각하는 것만큼 독특하지 않습니다. 우리 이전의 수백만 명의 사람들이 의아해했고 우리 이후의 수백만 명의 사람들이 거의 동일한 질문으로 검색 엔진을 의아해하게 될 것입니다. 반면에 우리는 예측하기가 너무 어렵습니다. 요청의 공식화는 우리가 인식하지 못하는 수많은 요인의 영향을 받습니다. 그리고 적어도 이러한 이유로 우리 각자의 요청은 아무리 진부하더라도 개별적인 접근 방식이 필요합니다.

실제로 Yandex 검색 엔진의 전체 작업은 사람이 실제로 알고 싶어하는 것이 무엇인지 이해하는 것과 몇 초 안에 인터넷에 있는 수십억 개의 문서 중에서 적합한 것을 찾는 두 가지 간단한 작업으로 귀결됩니다.

지문 채취

검색 엔진의 운영 체제는 매트릭스와 다소 유사하며, 검색 로봇(복잡하고 독립적인 의사 결정 프로그램)은 스미스 요원과 유사합니다.

누군가가 무언가를 알아야 할 때마다 전체 인터넷을 검색하지 않기 위해 검색 엔진은 작업의 일부를 미리 수행합니다. 즉, 수천 개의 검색 로봇을 사용하여 웹에 무엇이 있는지, 어디에 있는지 확인합니다. 기본형과 고속형의 두 가지 유형이 있습니다. 주요 문서는 인터넷 전체를 크롤링하고 처리하며 빠른 문서는 1분 또는 몇 초 전에 나타난 문서입니다. 로봇 프로그램의 임무는 사용자에게 적합하고 유용한 정보를 선택하고 처리하며 오래되고 불필요한 모든 정보를 제거하는 것입니다. 어떤 면에서 이것은 쓰레기를 분류하는 것을 연상시킵니다. 한 용기에는 종이, 다른 용기에는 유리, 세 번째 용기에는 플라스틱, 네 번째 용기에는 음식물 쓰레기...

로봇이 수집한 정보는 소위 인터넷 캐스트를 형성합니다. 수천 개의 Yandex 서버에 저장되며 지속적으로 업데이트됩니다. 너겟은 어떤 정보를 어디서 찾을 수 있는지 알려주는 목록과 같습니다. 이 목록에서 각 키워드에는 하나가 아닌 수백만 개의 "페이지"가 있습니다. 사용자가 모든 너깃 업데이트를 사용할 수 있도록 하기 위해 업데이트가 저장소에서 "기본 검색"으로 이동됩니다. 메인 로봇의 데이터는 며칠 간격으로 전송되고 빠른 로봇의 데이터는 실시간으로 전송됩니다.

깨끗한 물을 가지고 오세요

삽화: EVGENY 톤코노지

준비된 데이터베이스에서 주어진 질문에 대한 답을 검색하는 동안 기계는 두 가지 주요 어려움에 직면합니다. 첫 번째 어려움은 언어입니다. 질문에 대한 답을 찾기 전에 기계가 어떤 언어로 답을 찾아야 하는지 이해하는 것이 중요합니다. 예를 들어, 러시아어를 사용하는 사람의 경우 "이고르 왕자의 분대"를 검색하면 군대에 대한 정보가 포함된 문서가 검색되고, 우크라이나인의 경우 "이고르 왕자의 분대"는 그의 아내인 올가 공주가 언급된 문서도 반환됩니다. 우크라이나어로 "아내"는 "분대"입니다. 그리고 풍부한 러시아어에서는 동일한 단어나 그 파생어가 다른 의미를 가질 수 있습니다. 예를 들어, "steel"이라는 단어는 명사 "steel"과 동사 "become"의 형태 중 하나입니다. 두 번째 어려움은 인간의 심리입니다. 요청을 입력할 때 우리는 요청의 문구가 기계의 두뇌가 작동하는 수학적 분석의 원리와 일치하는지 자연스럽게 걱정하지 않고 빠르고 정확한 답변을 기대합니다. 예를 들어, 검색창에 "나폴레옹"이라는 단어를 입력하면 케이크 레시피나 프랑스 황제의 전기, 코냑 구입, 정신병원 주소 찾기 등 무엇을 얻고 싶어 할까요?

이러한 상황에서는 여러 가지 기술이 활용됩니다. 귀하의 요청을 지정하는 검색창 아래에 몇 가지 힌트를 제공할 수 있습니다. 예를 들어, 나폴레옹 요리법이나 나폴레옹 - 보나파르트 중에서 필요한 것을 선택하십시오. 사용자가 기계의 요청에 응답하지 않고 "나폴레옹"에 단어를 추가하지 않으면 "스펙트럼" 기술이 문제를 해결하는 데 도움이 됩니다. 도움을 바라지 않고 기계는 즉시 여러 범주(케이크 관련, 그리고 황제와 말에 대해). ..). 또한 개인화 메커니즘은 사용자를 이해하는 데 도움이 됩니다. 즉, 이 사용자가 하루, 2, 3 또는 몇 달 전에 자신의 컴퓨터에서 찾고 있던 내용에 대한 기계의 지식입니다. 요리에 대해 Yandex에 자주 질문하면 기계가 먼저 나폴레옹이 케이크라고 말하는 결과가 나왔습니다.

조합: 관심 클럽

검색 엔진의 임무는 단순히 검색 쿼리에서 단어와 구문이 포함된 문서를 선택하는 것이 아닙니다. 기계는 어떤 문서가 우리의 상충되는 요구 사항을 충족하는지, 왜 이를 충족하는지 이해해야 합니다. 우리는 케이크 나폴레옹에 대한 정보를 얻고 싶습니까? 아니면 몇 년 동안 가식적인 이름을 가진 피트니스 클럽을 방문했거나 심지어 키가 작은 사람들의 콤플렉스에 대해 완전히 걱정하고 있습니까? 어쨌든 문제를 해결하려면 사소한 접근 방식이 필요합니다.

Yandex 검색 프로그램의 제작자는 선택권을 기계에 위임하여 이러한 접근 방식을 찾았습니다. 한편으로는 영혼이 없지만 매우 빠르고 똑똑한 기계는 개인으로서 우리에 대해 아무것도 모르고 알고 싶어하지 않으며, 다른 한편으로는 모든 사람에 대해 가능한 한 많은 것을 찾으려고 노력합니다.

사용자의 지리적 위치와 쿼리에 대한 언어적 분석 외에도 검색 엔진은 인간에게는 전혀 명확하지 않은 수천 가지 기준을 사용합니다.

비결은 기계가 이러한 기준을 독립적으로 개발하고 업데이트한다는 것입니다.

이는 단순히 수백만 명의 사용자 선호도 및 사용자 행동에 대한 데이터를 사용하고 이 "산술 평균"을 쿼리 기록과 연관시킵니다. 매트릭스가 개발한 수천 가지 사용자 관심 분야 범주를 비교하면서 매트릭스 자체를 안내하는 원칙은 원칙적으로 "관심사"가 무엇인지에 대한 전통적인 인간의 생각에 맞지 않는 경우가 많습니다. 수만 개가 있습니다. 그들은 서로 다르고 때로는 재미있는 조합을 만듭니다. 예를 들어 이러한 조합 중 하나는 검색 결과가 영원을 사육하는 사람의 관심분야와 일치하는 것일 수 있습니다. 동시에 사람은 뉴트에 관심이있을뿐만 아니라 이미 번식하고 있지만 첫해에만 관심이 있습니다.

평가. 도와주는 손

물론 매트릭스는 수만 가지 기준에 따라 사용자에게 무엇을, 어떤 순서로 표시해야 하는지 자체적으로 (고등 수학의 도움으로) 결정합니다. 그러나 Matrix는 또한 살아있는 사람을 사용합니다. 소위 평가자라고 불리는 1000명의 Yandex 직원이 특정 요청에 대한 검색 결과를 평가합니다(물론 모든 요청이 평가되는 것은 아니며 실시간으로 수행되지는 않습니다). 일반 사용자의 기대: 기계만큼 합리적이지 않고 공식이 정확하지 않으며 모순적이고 감정적입니다.

안녕하세요, 내 SEO 블로그 독자 여러분. . 이 기사는 Yandex 검색 엔진 작동 방식 사이트 순위를 매기는 데 사용하는 기술과 알고리즘은 무엇이며 사용자에 대한 응답을 준비하기 위해 수행하는 작업은 무엇입니까? 많은 사람들은 이 러시아 검색의 주력 제품이 Runet의 분위기를 조성하고, 유라시아에서 가장 큰 데이터베이스를 소유하고, 10억 페이지가 넘는 콘텐츠를 처리하고, 모든 질문에 대한 답을 알고 있다는 것을 알고 있습니다. 2012년 8월 Liveinternet 데이터에 따르면 Yandex의 러시아 점유율은 60.5%입니다. 포털의 월간 방문자는 4,890만 명입니다. 그러나 우리 블로거에게 가장 중요한 것은 검색 엔진이 요청을 수신하는 방법, 요청을 처리하는 방법 및 결과가 무엇인지입니다. 한편으로는 이 정보를 알고 이해하면 모든 Yandex 리소스를 더 쉽게 사용할 수 있고, 다른 한편으로는 블로그를 홍보하는 것이 더 쉬워집니다. 따라서 저는 최고의 Runet 검색 엔진의 가장 중요한 기술을 저와 함께 살펴볼 것을 제안합니다.

인터넷 사용자가 처음으로 정보를 찾기 위해 검색 엔진을 이용하려고 할 때 "검색은 어떻게 작동하나요?"라는 한 가지 질문이 생길 수 있습니다. 하지만 그가 그것을 받으면 이 질문은 종종 다른 질문으로 바뀌곤 합니다. “왜 그렇게 빨리요?” 그리고 실제로 컴퓨터에서 파일을 검색하는 데 20초가 걸리고 전 세계 컴퓨터 전체 네트워크의 요청 결과가 1초 안에 나타나는 이유는 무엇입니까? 가장 흥미로운 점은 처음 두 질문(검색이 어떻게 발생하는지, 왜 1초인지)이 하나의 답변으로 답변될 수 있다는 것입니다. 검색 엔진은 사용자의 요청을 미리 준비했습니다.

다른 검색 엔진과 마찬가지로 Yandex의 작동 원리를 이해하기 위해 전화번호부를 비유해 보겠습니다. 전화번호를 찾으려면 가입자의 성을 알아야 하며, 이 경우 디렉토리의 모든 페이지는 연속적인 알파벳순 색인이므로 검색하는 데 최대 1분이 걸립니다. 그러나 전화번호가 숫자 자체에 따라 정렬되는 다른 옵션을 사용하여 검색이 수행되었다고 상상해 보십시오. 더 오랜 시간 동안 계속되는 검색 후에는 검색자의 눈앞에 숫자가 매우 오랫동안 남아 있습니다. 🙂

마찬가지로 검색 엔진은 인터넷의 모든 정보를 편리한 형식으로 표시합니다. 그리고 가장 중요한 것은 이 모든 데이터가 방문자가 요청을 가지고 도착하기 전에 미리 그녀의 디렉토리에 저장된다는 것입니다. 즉, Yandex에 질문을 하면 Yandex는 이미 우리의 대답을 알고 있습니다. 그리고 잠시 후에 그것을 우리에게 줍니다. 그러나 이 두 번째에는 여러 가지 중요한 프로세스가 포함되어 있으며 이제 자세히 살펴보겠습니다.

인터넷 인덱싱

Yandex ru는 인터넷에서 얻을 수 있는 모든 정보를 수집합니다. 특수 장비를 사용하여 시각적 매개변수를 기반으로 한 이미지를 포함한 모든 콘텐츠를 검토합니다. 이러한 수집에는 검색 엔진이 관여하며, 데이터를 수집하고 준비하는 과정을 색인화라고 합니다. 이러한 기계의 기본은 검색 로봇이라고도 불리는 컴퓨터 시스템입니다. 정기적으로 색인화된 사이트를 크롤링하고 새 콘텐츠가 있는지 확인하며 인터넷에서 삭제된 페이지도 검색합니다. 그러한 페이지 중 일부가 더 이상 존재하지 않거나 색인 생성에서 닫혀 있음을 발견하면 검색에서 해당 페이지를 제거합니다.

검색 로봇은 어떻게 새로운 사이트를 찾나요? 첫째, 다른 사이트의 링크 덕분입니다. 링크가 이미 색인화된 사이트의 새 웹 리소스에 배치되면 다음에 두 번째 사이트를 방문할 때 로봇이 첫 번째 사이트를 방문하기 때문입니다. 둘째, 일반적으로 "addurlka"(영어 -addurl - 주소 추가 문구에서 유래)라고 불리는 훌륭한 서비스가 있습니다. 여기에는 잠시 후 검색 로봇이 방문하게 될 새 사이트의 주소를 입력할 수 있습니다. 셋째, 특별 프로그램인 "Yandex.Bar"의 도움으로 이를 사용하는 사용자의 방문을 추적합니다. 따라서 사람이 새로운 웹 리소스에 접속하면 곧 그곳에 로봇이 나타날 것입니다.

모든 페이지가 검색에 포함되나요? 매일 수백만 개의 페이지가 색인화됩니다. 그 중에는 고유한 콘텐츠부터 완전한 쓰레기에 이르기까지 다양한 정보를 포함할 수 있는 다양한 품질의 페이지가 있습니다. 게다가 통계에 따르면 인터넷에는 쓰레기가 훨씬 더 많습니다. 검색 로봇은 특별한 알고리즘을 사용하여 각 문서를 분석합니다. 유용한 정보가 있는지, 사용자의 요청에 응답할 수 있는지 여부를 판단합니다. 그렇지 않은 경우 해당 페이지는 "우주비행사"로 허용되지 않지만, 그렇다면 검색에 포함됩니다.

로봇이 페이지를 방문하고 그 유용성을 판단한 후에는 해당 페이지가 검색 엔진의 저장소에 나타납니다. 여기서 우리는 자동 센터 마스터가 말했듯이 톱니바퀴까지 모든 문서를 매우 기본적인 것까지 분석합니다. 페이지에서 html 마크업이 지워지고 깨끗한 텍스트가 전체 인벤토리를 거쳐 각 단어의 위치가 계산됩니다. 이 분해된 형태에서 페이지는 숫자와 문자가 포함된 표로 바뀌는데, 이를 색인이라고도 합니다. 이제 이 페이지가 포함된 웹 리소스에 무슨 일이 일어나더라도 항상 최신 복사본을 검색할 수 있습니다. 사이트가 더 이상 존재하지 않더라도 해당 문서의 사본은 한동안 인터넷에 저장됩니다.

각 색인은 문서 유형, 인코딩, 언어에 대한 데이터와 함께 사본을 구성합니다. 데이터베이스 검색 . 정기적으로 업데이트되므로 검색 엔진 사용자의 요청을 처리하는 데 도움이 되는 특수 서버에 위치합니다.

색인 생성 프로세스는 얼마나 자주 발생합니까? 우선, 사이트 유형에 따라 다릅니다. 첫 번째 유형의 웹 리소스는 페이지 내용을 매우 자주 변경합니다. 즉, 검색 로봇이 매번 이러한 페이지에 올 때마다 다른 콘텐츠가 포함됩니다. 다음번에는 해당 사이트를 사용하여 아무것도 찾을 수 없으므로 해당 사이트는 색인에 포함되지 않습니다. 두 번째 유형의 사이트는 다운로드할 문서에 대한 링크가 페이지에 주기적으로 추가되는 데이터 창고입니다. 이러한 사이트의 내용은 일반적으로 변경되지 않으므로 로봇이 해당 사이트를 방문하는 경우는 극히 드뭅니다. 다른 사이트는 자료 업데이트 빈도에 따라 다릅니다. 이는 다음을 의미합니다. 사이트에 새로운 콘텐츠가 더 빨리 나타날수록 검색 로봇이 더 자주 방문합니다. 그리고 가장 중요한 웹 리소스에 우선순위가 부여됩니다(예를 들어 뉴스 사이트는 어떤 블로그보다 훨씬 더 중요합니다).

인덱싱을 사용하면 검색 엔진의 첫 번째 기능인 인터넷의 새 페이지에 대한 정보를 수집할 수 있습니다. 그러나 Yandex에는 이미 준비된 검색 데이터베이스에서 사용자 요청에 대한 답변을 검색하는 두 번째 기능도 있습니다.

Yandex가 응답을 준비 중입니다.

요청을 처리하고 관련 응답을 발행하는 프로세스는 다음에서 처리됩니다. 컴퓨터 시스템 "메타서치" . 작업을 위해 먼저 요청이 이루어진 지역, 속한 클래스, 요청에 오류가 있는지 여부 등 모든 입력 정보를 수집합니다. 이러한 처리 후에 메타서치는 데이터베이스에 동일한 매개변수를 가진 동일한 쿼리가 있는지 확인합니다. 대답이 '예'이면 시스템은 이전에 저장된 결과를 사용자에게 표시합니다. 그러한 질문이 데이터베이스에 없으면 메타 검색은 색인 데이터가 포함된 검색 데이터베이스를 처리합니다.

그리고 여기서 놀라운 일이 일어납니다. 검색 로봇이 처리한 전체 인터넷을 저장하는 초강력 컴퓨터가 하나 있다고 상상해 보세요. 사용자가 쿼리를 설정하면 쿼리와 관련된 모든 문서에 대한 검색이 메모리 셀에서 시작됩니다. 답을 찾았고 모두가 행복해졌습니다. 하지만 본문에 동일한 단어가 포함된 요청이 많은 경우에는 다른 경우를 생각해 보겠습니다. 시스템은 매번 동일한 메모리 셀을 거쳐야 하므로 데이터를 처리하는 데 걸리는 시간이 크게 늘어날 수 있습니다. 따라서 시간이 증가하여 사용자를 잃을 수 있습니다. 그는 다른 검색 엔진에 도움을 요청할 것입니다.

이러한 지연을 방지하기 위해 사이트 인덱스의 모든 복사본은 여러 컴퓨터에 배포됩니다. 요청을 전송한 후 메타 검색은 해당 서버에 텍스트를 검색하도록 지시합니다. 그 후, 이들 기계의 모든 데이터는 중앙 컴퓨터로 반환되고, 얻은 모든 결과를 결합하여 사용자에게 상위 10개의 가장 좋은 답변을 제공합니다. 이 기술을 사용하면 한 번에 두 마리의 새가 죽습니다. 검색 시간이 몇 배로 단축되고(답은 1초 안에 얻음) 플랫폼의 증가 덕분에 정보가 복제됩니다(갑자기 고장으로 인해 데이터가 손실되지 않음). . 중복된 정보를 가진 컴퓨터 자체가 데이터 센터를 구성합니다. 이는 서버가 있는 공간입니다.

검색 엔진 사용자가 쿼리를 하면 100번 중 20번은 질문의 목표가 모호합니다. 예를 들어, 그가 검색 창에 "나폴레옹"이라는 단어를 쓰면 케이크 조리법이나 위대한 사령관의 전기 등 그가 기대하는 대답이 무엇인지 아직 알 수 없습니다. 또는 "그림 형제"라는 문구는 동화, 영화, 뮤지컬 그룹입니다. 이러한 가능한 목표 범위를 특정 답변으로 좁히기 위해 Yandex에는 특별한 기술이 있습니다. 범위. 검색어 통계를 사용하여 사용자 요구를 고려합니다. Spectrum은 방문자가 Yandex에서 묻는 모든 질문 중에서 다양한 개체(사람 이름, 책 제목, 자동차 모델 등)를 식별합니다. 이러한 개체는 특정 범주로 배포됩니다. 현재 이러한 카테고리는 60개가 넘습니다. 이들의 도움으로 검색 엔진은 데이터베이스에 사용자 쿼리의 단어에 대한 다양한 의미를 갖게 됩니다. 흥미롭게도 이러한 범주는 정기적으로 확인되므로(분석은 일주일에 두 번 발생) Yandex가 제기된 질문에 대한 답변을 보다 정확하게 제공할 수 있습니다.

Spectrum 기술을 기반으로 Yandex는 대화 프롬프트를 구성했습니다. 사용자가 모호한 쿼리를 입력하는 검색 창 아래에 나타납니다. 이 줄은 질문의 주제가 속할 수 있는 범주를 반영합니다. 추가 검색 결과는 이 카테고리에 대한 사용자의 선택에 따라 달라집니다.

Yandex 검색 엔진 전체 사용자 중 15~30%는 지역 정보(거주 지역의 데이터)만 받기를 원합니다. 예를 들어, 귀하가 거주하는 도시의 영화관에 개봉되는 새 영화에 관한 것입니다. 따라서 이러한 요청에 대한 답변은 지역마다 달라야 합니다. 이와 관련하여 Yandex는 자사 기술을 사용합니다. 지역을 기준으로 검색 . 예를 들어, Oktyabr 영화관에서 다양한 영화 레퍼토리를 찾는 주민들이 받을 수 있는 답변은 다음과 같습니다.

그러나 이것은 Stavropol시 주민들이 동일한 요청에 대해 받게 될 결과입니다.

사용자의 지역은 주로 IP 주소에 따라 결정됩니다. 많은 공급자가 동시에 여러 지역에서 작업할 수 있고 그에 따라 사용자의 IP 주소가 변경될 수 있기 때문에 이 데이터가 정확하지 않은 경우가 있습니다. 원칙적으로 이런 일이 발생하면 검색 엔진 설정에서 쉽게 지역을 변경할 수 있습니다. 결과 페이지의 오른쪽 상단에 표시됩니다. 변경할 수 있습니다.

검색 엔진 Yandex ru-응답 결과

Metasearch가 답변을 준비하면 Yandex 검색 엔진이 이를 결과 페이지에 표시해야 합니다. 각각에 대한 약간의 정보가 포함된 발견된 문서에 대한 링크 목록입니다. 결과를 발행하는 기술의 임무는 가장 유익한 방식으로 사용자에게 가장 관련성이 높은 답변을 제공하는 것입니다. 이러한 링크 중 하나의 템플릿은 다음과 같습니다.

이 결과 형식을 더 자세히 살펴보겠습니다. 을 위한 검색결과 제목 Yandex는 종종 페이지 제목의 이름(최적화 프로그램이 제목 태그에 쓰는 이름)을 사용합니다. 해당 항목이 없으면 기사나 게시물 제목의 단어가 여기에 표시됩니다. 제목 텍스트가 큰 경우 검색 엔진은 해당 쿼리와 가장 관련성이 높은 부분을 이 필드에 배치합니다.

아주 드물지만 제목이 요청 내용과 일치하지 않는 경우가 있습니다. 이 경우 Yandex는 기사나 게시물의 텍스트를 사용하여 검색 결과 제목을 구성합니다. 확실히 쿼리 단어가 있을 것입니다.

을 위한 단편검색 엔진은 페이지의 모든 텍스트를 사용합니다. 쿼리에 대한 답변이 있는 모든 조각을 선택한 다음 가장 관련성이 높은 조각을 선택하고 문서에 대한 링크를 양식 필드에 삽입합니다. 이 접근 방식 덕분에 유능한 최적화 프로그램은 스니펫을 본 후 이를 다시 만들 수 있으므로 링크의 매력이 향상됩니다.

사용자 요청의 결과를 더 잘 인식하기 위해 제목은 텍스트의 링크 형식으로 지정됩니다(밑줄이 있는 파란색으로 강조 표시됨). 웹 리소스를 매력적이고 알아보기 쉽게 만들기 위해 사이트의 소규모 회사 아이콘인 파비콘이 추가됩니다. 제목 앞 첫 번째 줄의 텍스트 왼쪽에 나타납니다. 응답 요청에 포함된 모든 단어는 인식의 용이성을 위해 굵게 강조 표시되었습니다.

최근 Yandex 검색 엔진은 사용자가 더욱 빠르고 정확하게 답변을 찾는 데 도움이 되는 다양한 정보를 스니펫에 추가했습니다. 예를 들어, 사용자가 요청에 조직 이름을 적으면 Yandex는 해당 주소, 연락처 번호 및 해당 위치에 대한 링크를 지도 조각에 추가합니다. 검색 엔진이 사용자에 대한 답변이 포함된 문서가 포함된 사이트의 구조에 익숙하다면 이를 확실히 표시합니다. 또한 Yandex는 해당 웹 리소스에서 가장 많이 방문한 페이지를 즉시 스니펫에 추가할 수 있으므로 원하는 경우 방문자가 필요한 섹션으로 즉시 이동하여 시간을 절약할 수 있습니다.

온라인 상점의 제품 가격, 별표 형태의 호텔 또는 레스토랑 등급, 검색 문서의 개체에 대한 다양한 숫자가 포함된 기타 흥미로운 정보가 포함된 스니펫이 있습니다. 이러한 정보의 목적은 사용자가 관심을 갖는 항목이나 개체에 대한 전체 데이터 목록을 제공하는 것입니다.

일반적으로 다양한 예를 통해 답변이 포함된 페이지는 다음과 같습니다.

순위 및 평가자

Yandex의 작업에는 가능한 모든 답변 옵션을 검색하는 것뿐만 아니라 가장 적합한(관련된) 옵션을 선택하는 것도 포함됩니다. 결국 사용자는 Yandex가 검색 결과로 제공하는 모든 링크를 뒤지지 않을 것입니다. 검색결과를 정리하는 과정을 순위 . 즉, 제안된 답변의 품질을 결정하는 것은 순위입니다.

Yandex가 관련 페이지를 결정하는 규칙이 있습니다.

검색 품질을 저하시키는 사이트는 결과 페이지의 위치가 하향 조정됩니다. 일반적으로 이는 소유자가 검색 엔진을 속이려고 하는 웹 리소스입니다. 예를 들어, 의미가 없거나 보이지 않는 텍스트가 포함된 페이지가 있는 사이트입니다. 물론, 검색 로봇에게는 보이고 이해될 수 있지만, 이 문서를 읽는 방문자에게는 그렇지 않습니다. 또는 검색 결과 영역의 링크를 클릭하면 사용자가 즉시 완전히 다른 사이트로 이동하는 사이트입니다.
선정적인 내용이 포함된 사이트는 결과에 포함되지 않거나 순위가 크게 감소합니다. 이는 이러한 웹 리소스가 공격적인 홍보 방법을 사용하는 경우가 많기 때문입니다.
바이러스에 감염된 사이트는 검색 결과에서 순위가 낮아지지 않으며 검색 결과에서 제외되지 않습니다. 이 경우 특수 아이콘을 통해 사용자에게 위험에 대한 알림을 제공합니다. 이는 Yandex가 검색 엔진 방문자의 요청에 따라 해당 웹 리소스에 중요한 문서가 포함될 수 있다고 가정하기 때문입니다.

예를 들어, Yandex가 검색어 "사과"에 대해 사이트 순위를 매기는 방법은 다음과 같습니다.

순위 요소 외에도 Yandex는 검색 엔진 사용자가 가장 적합하다고 생각하는 쿼리 및 답변이 포함된 특수 샘플을 사용합니다. 현재 어떤 기계도 그러한 샘플을 만들 수 없습니다. 이는 인간의 특권입니다. Yandex에서는 이러한 전문가를 호출합니다. 평가자. 그들의 임무는 모든 검색 문서를 완전히 분석하고 지정된 쿼리에 대한 응답을 평가하는 것입니다. 그들은 최고의 답변을 선택하고 특별한 훈련 세트를 만듭니다. 여기에서 검색 엔진은 관련 페이지와 해당 속성 간의 관계를 확인합니다. 이러한 정보를 바탕으로 Yandex는 각 요청에 대한 최적의 순위 공식을 선택할 수 있습니다. 이러한 공식을 구성하는 방법을 매트릭스넷(Matrixnet)이라고 합니다. 이 시스템의 장점은 과적합에 강하다는 것입니다. 이를 통해 불필요한 평가 및 패턴 수를 늘리지 않고도 많은 순위 요소를 고려할 수 있습니다.

내 게시물 끝부분에서는 Yandex 검색 엔진이 작업 과정에서 수집한 흥미로운 통계를 보여 드리고 싶습니다.

1. 러시아와 러시아 도시에서 개인 이름의 인기 (2012년 3월 블로거 및 소셜 네트워크 사용자의 계정에서 가져온 데이터).

위대한 예언자

1863년, 위대한 작가 쥘 베른(Jules Verne)은 그의 다음 저서 “20세기 파리”를 썼습니다. 그 안에 그는 지하철, 자동차, 전기의자, 컴퓨터, 심지어 인터넷까지 자세히 설명했다. 그러나 출판사는 이 책의 인쇄를 거부했으며 1989년 Jules Verne의 증손자가 발견할 때까지 120년 이상 방치되었습니다. 이 책은 1994년에 출판되었다.

1. 용어 및 정의 개인 데이터 처리에 관한 본 계약(이하 "계약")에서 아래 용어의 정의는 다음과 같습니다. 운영자 - 개인 기업가 Oleg Aleksandrovich Dneprovsky. 계약 수락 - 개인 데이터를 전송하고 처리함으로써 계약의 모든 조건을 완전하고 무조건적으로 수락합니다. 개인 데이터 - 사용자(개인 데이터의 대상)가 사이트에 입력하고 이 사용자와 직간접적으로 관련된 정보입니다. 사용자 - 사이트의 입력 필드를 작성하는 절차를 성공적으로 완료한 개인 또는 법인입니다. 입력 필드를 작성하는 것은 사용자가 자신의 이름, 성, 전화번호, 개인 이메일 주소(이하 개인 데이터)를 사이트에 등록된 사용자의 데이터베이스로 전송하는 절차이며, 이는 식별 목적으로 수행됩니다. 사용자. 입력 필드를 작성하면 개인 데이터가 운영자의 데이터베이스로 전송됩니다. 입력 필드를 작성하는 것은 자발적입니다. 웹사이트 - 인터넷에 위치하며 한 페이지로 구성된 웹사이트입니다. 2. 일반 조항 2.1. 본 계약은 2006년 7월 27일자 연방법 No. 152-FZ "개인 데이터에 관한" 요구 사항과 "분야에서 러시아 연방 법률 위반"에 관한 13.11조의 조항을 기반으로 작성되었습니다. 개인 데이터”는 러시아 연방 행정법 위반에 관한 규정이며 운영자가 사이트를 사용하는 동안 사용자에 대해 얻을 수 있는 모든 개인 데이터에 유효합니다. 2.2. 사이트에서 사용자가 입력 필드를 작성하는 것은 사용자가 본 계약의 모든 조건에 무조건 동의함(계약 수락)을 의미합니다. 이러한 조건에 동의하지 않는 경우 사용자는 사이트의 입력 필드를 작성하지 않습니다. 2.3. 운영자에 대한 개인 데이터 제공 및 운영자의 처리에 대한 사용자의 동의는 운영자의 활동이 종료되거나 사용자가 동의를 철회할 때까지 유효합니다. 본 계약을 수락하고 등록 절차를 거쳐 사이트에 접속함으로써 사용자는 자신의 자유 의지와 이익을 위해 처리를 위해 자신의 개인 데이터를 운영자에게 전송한다는 것을 확인하고 다음에 동의합니다. 그들의 처리. 사용자는 자신의 개인 데이터 처리가 2006년 7월 27일자 연방법 No. 152-FZ "개인 데이터에 관한"에 근거하여 운영자에 의해 수행된다는 통지를 받습니다. 3. 운영자에게 전송되는 사용자의 개인정보 및 기타 정보 목록 3. 1. 운영자 웹사이트 이용 시, 사용자는 다음과 같은 개인정보를 제공합니다: 3.1.1. 성, 이름, 부칭, 전화번호(집 또는 휴대폰), 개인 이메일 주소를 포함하여 입력 필드를 작성할 때 및/또는 사이트 서비스를 사용하는 과정에서 사용자가 독립적으로 자신에 대해 제공하는 신뢰할 수 있는 개인 정보입니다. 3.1.2. IP 주소, 쿠키 정보, 사용자 브라우저(또는 서비스에 액세스하는 기타 프로그램)에 대한 정보를 포함하여 사용자 장치에 설치된 소프트웨어를 사용하여 사이트 서비스를 사용하는 동안 자동으로 사이트 서비스로 전송되는 데이터. 3.2. 운영자는 사용자가 제공한 개인 데이터의 정확성을 확인하지 않습니다. 이 경우 운영자는 사용자가 입력란에 제시된 질문에 대해 신뢰할 수 있고 충분한 개인정보를 제공한 것으로 간주합니다. 4. 개인 데이터 수집 및 사용 목적, 규칙 4.1. 운영자는 서비스 제공 및 이용자에게 서비스 제공을 위해 필요한 개인정보를 처리합니다. 4.2. 운영자는 사용자의 개인 데이터를 다음 목적으로 사용합니다: 4.2.1. 사용자 식별 4.2.2. 사용자에게 맞춤형 서비스 제공(서신 발송을 통해 회사의 새로운 프로모션 및 서비스에 대한 알림 포함) 4.2.3. 서비스 이용, 서비스 제공과 관련된 알림, 요청 및 정보 전송, 사용자의 요청 및 신청 처리 등 필요한 경우 사용자와의 커뮤니케이션을 유지합니다. 4.3. 개인정보를 처리하는 과정에서 수집, 기록, 체계화, 축적, 저장, 명확화(업데이트, 변경), 추출, 이용, 차단, 삭제, 파기 등의 조치가 수행됩니다. 4.4. 사용자는 특정 경우에 자신이 지정한 정보가 러시아 연방 현행법에 따라 러시아 연방의 승인된 국가 기관에 제공될 수 있다는 점에 반대하지 않습니다. 4.5. 사용자의 개인 데이터는 운영자의 전체 활동 기간 동안 본 계약에 규정된 방식으로 운영자에 의해 저장되고 처리됩니다. 4.6. 개인 데이터 처리는 데이터베이스, 자동화, 기계적 및 수동 방법을 유지 관리하여 운영자에 의해 수행됩니다. 4.7. 사이트는 쿠키 및 기타 기술을 사용하여 사이트 서비스 사용을 추적합니다. 이 데이터는 사이트의 기술 운영을 최적화하고 서비스 제공 품질을 향상시키는 데 필요합니다. 사이트는 사이트의 각 방문자에 대한 정보(URL, IP 주소, 브라우저 유형, 언어, 요청 날짜 및 시간 포함)를 자동으로 기록합니다. 사용자는 사이트 방문 시 개인 데이터 제공을 거부하거나 쿠키를 비활성화할 권리가 있지만, 이 경우 사이트의 모든 기능이 제대로 작동하지 않을 수 있습니다. 4.8. 본 계약에 제공된 기밀 유지 조건은 사용자가 사이트에 머무르고 사이트를 사용하는 동안 운영자가 사용자에 대해 얻을 수 있는 모든 정보에 적용됩니다. 4.9. 본 계약 이행 과정에서 공개적으로 공개된 정보와 당사자 또는 제3자가 누구나 무료로 접근할 수 있는 출처에서 얻을 수 있는 정보는 기밀이 아닙니다. 4.10. 운영자는 무단 액세스, 수정, 공개 또는 파기로부터 사용자 개인 데이터의 기밀성을 보호하기 위해 다음을 포함하여 필요한 모든 조치를 취합니다. 데이터 수집, 저장 및 처리 프로세스에 대한 지속적인 내부 검증을 보장하고 보안을 보장합니다. 데이터의 물리적 보안을 보장하고 운영자가 개인 데이터를 저장하는 사이트 운영을 보장하는 기술 시스템에 대한 무단 액세스를 방지합니다. 개인 데이터에 대한 액세스는 운영자의 직원 또는 사용자에 대한 서비스 제공, 사이트 운영, 개발 및 개선과 직접 관련된 업무를 수행하기 위해 이 정보가 필요한 승인된 사람에게만 제공됩니다. 4.11. 사용자의 개인 데이터는 사용자가 무제한의 사람들에게 일반적인 접근을 위해 자발적으로 자신에 대한 정보를 제공하는 경우를 제외하고는 기밀로 유지됩니다. 4.12. 운영자가 조직을 개편하고 운영자의 법적 승계인에게 권리를 양도하는 동안 운영자가 사용자 개인 데이터를 전송하는 것은 적법한 반면, 운영자가 받은 개인 정보와 관련하여 본 계약의 조건을 준수해야 하는 모든 의무는 다음과 같습니다. 법적 승계인에게 양도됩니다. 4.13. 본 정책은 운영자의 웹사이트에만 적용됩니다. 회사는 검색 결과를 포함하여 운영자 웹사이트에서 제공되는 링크를 통해 사용자가 액세스할 수 있는 제3자 사이트(서비스)를 통제하거나 책임지지 않습니다. 해당 사이트(서비스)에서는 사용자로부터 기타 개인정보를 수집하거나 요청할 수 있으며 기타 조치가 수행될 수 있습니다. 개인정보주체로서의 이용자의 권리, 이용자의 개인정보 변경 및 삭제 5.1. 사용자에게는 다음과 같은 권리가 있습니다. 5.1.2. 개인 데이터가 불완전하거나, 오래되었거나, 부정확하거나, 불법적으로 획득되었거나, 명시된 처리 목적에 필요하지 않은 경우 운영자에게 개인 데이터를 명확히 하고 이를 차단하거나 파기하도록 요구하고, 또한 자신의 권리를 보호하기 위해 법률이 제공하는 조치를 취해야 합니다. 5.1.3. 다음을 포함하는 정보를 포함하여 개인 데이터 처리에 관한 정보를 받습니다. 5.1.3.1. 운영자의 개인 데이터 처리 사실 확인 5.1.3.2. 운영자가 사용하는 개인정보 처리 목적 및 방법 5.1.3.3. 운영자의 이름과 위치 5.1.3.4. 연방법에 의해 해당 데이터 표시에 대한 다른 절차가 제공되지 않는 한, 관련 개인 데이터 주제와 관련된 처리된 개인 데이터, 수령 출처 5.1.3.5. 저장 기간을 포함한 개인 데이터 처리 조건 5.1.3.6. 러시아 연방의 현행법에 의해 제공되는 기타 정보. 5.2. 개인 데이터 처리에 대한 동의 철회는 사용자가 운영자에게 적절한 서면(유형 매체에 인쇄하고 사용자 서명) 통지를 보내어 수행할 수 있습니다. 6. 운영자의 책임. 개인 데이터에 대한 접근 6.1. 운영자는 운영자 웹사이트 사용자의 개인 데이터에 대한 무단 및 비표적 접근을 방지하기 위해 최선을 다합니다. 이 경우, 사이트 사용자의 개인 데이터에 대한 승인되고 표적화된 액세스는 운영자 사이트의 목표 및 주제 프레임워크 내에서 구현되는 모든 이해 관계자의 액세스로 간주됩니다. 동시에 운영자는 다음의 결과로 발생하는 사용자 개인 데이터의 오용 가능성에 대해 책임을 지지 않습니다. 운영자가 통제할 수 없는 소프트웨어, 하드웨어 및 네트워크의 기술적 문제; 의도된 목적 이외의 제3자에 의한 운영자 웹사이트의 의도적 또는 비의도적 사용과 관련하여; 6.2 운영자는 사용자의 개인정보를 무단 또는 우발적인 접근, 파기, 수정, 차단, 복사, 배포 및 기타 제3자의 불법 행위로부터 보호하기 위해 필요하고 충분한 조직적, 기술적 조치를 취합니다. 7. 개인정보 보호정책의 변경. 적용 가능한 법률 7.1. 운영자는 사용자에게 특별한 통지 없이 본 규정을 변경할 권리가 있습니다. 현재 버전이 변경되면 마지막 업데이트 날짜가 표시됩니다. 규정의 새 판에서 달리 규정하지 않는 한, 규정의 새 판은 발행된 순간부터 효력을 발생합니다. 7.2. 본 규정 및 본 규정의 적용과 관련하여 발생하는 사용자와 운영자 간의 관계에는 러시아 연방 법률이 적용됩니다. 동의합니다 동의하지 않습니다