Про поиск Яндекса 2016. Приветствие и вступление Петр Попов Яндекс

– Я Петр Попов, работаю в Яндекс, до этого я программировал комп. игры, делал 3Д графику, знал про видео карточки, в общем такие вещи «исполнял». И нужно сказать, что, устраиваясь в Яндексе, я мало знал про предметную область, о том, что здесь люди делают, знал, что хорошие люди тут трудятся. Сейчас я расскажу достаточно полно и глубоко о том, как выглядит наш поиск.

 

– Что такое Яндекс? Принципы работы поиска Яндекс

 

Яндекс –поисковик! Получает запрос юзера системы и формирует десятку результатов. Почему только 10-ку? Юзеры системы чрезвычайно редко идут на дальние страницы. Можно считать, что 10 страниц (документов – как выражался Петр Попов) это все что мы показываем. Мы считаем, что самое главное это счастье пользователя поисковой системы. От состава 10-ки и от того как эти документы переставлены и ранжированы это самое счастье пользователя и зависит. Если выдача 10-ки ухудшится, то пользователи начинают использовать Яндекс поиск меньше и уходят в другие поисковики, в общем плохо себя чувствует.

Архитектура поиска и из чего она состоит рассказал нам Петр Попов сотрудник Яндекс.

 

Модель работы Яндекса на подготовленном слайде выглядит так:

  1. Обойти интернет
  2. Построить поисковый индекс
  3. Выложить индекс на поиск
  4. Ответить пользователю
  5. PROFIT

Пройдемся прям по следам этого конвейера. Скачивает Яндекс странички со скоростью нескольких миллиардов урлов в день. Как Яндекс вообще находит новые страницы в интернете? Он обходит какую-то страничку, вытягивает оттуда ссылки, и эти ссылки его потенциальные жертвы для скачивания. Это по сути парсинг документов (страниц).

Дальше…Мы скачали все эти безумные триллионы документов, мы их проиндексировали, а дальше нужно положить их в поисковый индекс. Кладем в индекс мы не все, а только лучшее что скачали.

– Есть товарищ Ашманов, широко известный в узких кругах, как специалист поисковых систем и он строит разные графики поисковых систем. Как он строиться? Задается запрос по редкому слову, и смотрит, какие документы, есть во всех поисковиках. Наша поисковая система лидирует.

 

Существует мнение, что для Яндекс РФ самый основной регион, а остальные уже второстепенные, но это не так, хотя и имеет право на жизнь. Вот эта главная схема:

петр попов на конференции яндекс