Яндекс рассказал студентам о Matrixnet и качестве поиска

Яндекса провел 'Студень' - 'студенческий день' в московской гостинице Radisson-SAS

10 июля 2010 года
248

Первого апреля в московской гостинице Radisson-SAS прошло мероприятие Яндекса под названием 'Студень' - 'студенческий день'. Это была однодневная конференция, которая заняла целый рабочий день - с 10 утра до 7 вечера. Посетило её, по данным Яндекса, около 700 человек, представлявших более 50 ВУЗов. Студентов приглашали на конференцию с помощью почтовой рассылки, регистрация осуществлялась по приглашениям, распространенным через ВУЗы, другие каналы привлечения аудитории не использовались. Иначе, как отметил Андрей Себрант, пришли бы одни оптимизаторы.

Охота за головами

Последних, впрочем, хватает и среди студентов, так что на мероприятии они присутствовали, окружали с вопросами Садовского, фотографировали инструкцию для асессоров.

Отвечая на вопрос о цели мероприятия, топ-менеджеры Яндекса заявили, что пришло время стать более открытыми, что им хочется рассказать миру о технологиях и попрактиковаться они решили на студентах. Однако участники отметили, что многое было сделано для привлечения 'свежей крови' в компанию. Представители Яндекса рассказывали о его устройстве, организации производственных процессов, показывали фото нового офиса, проводили показательные собеседования, работали с желающими на стендах 'Школы анализа данных' и стажировок в Яндексе. Илья Сегалович, отвечая на вопросы редакции рассылки, отметил, что Яндексу для дальнейшего развития не хватает не столько денег, сколько людей, найти которых сложно, а выращивать - долго.

MatrixNet: машина умнее человека

Фёдор Романенко из отдела качества веб-поиска рассказал о том, что такое MatrixNet и что изменилось в Яндексе после ее введения.

MatrixNet - это технология машинного обучения , внедренная Яндексом в 2009 году. Этот алгоритм анализирует разультаты работы асессоров - сочетания запроса и страницы с оценкой того, насколько вторая релевантна первому. Получая такую выборку, машина выбирает связанные факторы и диапазоны их значений. Она пытается понять, почему человек оценил страницу релевантной запросу и применить выделенные факторы к другим страницам.

По словам Фёдора Романенко, MatrixNet оказалась крайне эффективна для повышения качества поиска, она стала обнаруживать факторы, о которых сотрудники поискового отдела сами не подозревали - "машина получилась умнее человека". Фёдор упомянул "400 основных факторов ранжирования", судя по формулировке, есть еще некоторое количество неосновных.

Создателям алгоритма удалось решить проблему переобучения. Переобучение случалось с алгоритмом, который знал много потенциальных факторов ранжирования, но исследовал слишком мало документов, и в результате добавлял в формулу те признаки страницы, которые к релевантности имеют слабое отношение - например, первую букву заголовка или количество абзацев.

С переобучением борются кроссвалидацией - выборка запросов делится пополам, одна половина используется для обучения, вторая - для проверки.

С машинным обучением тесно связан еще один интригующий оптимизаторов феномен - асессоры. Фёдор пояснил, что выборка запросов для оценки релевантности страниц делается так, что запросы в ней встречаются с той же частотой, с которой присутствуют в общем потоке пользовательских запросов. Периодически "устаревшие" оценки выбрасываются и в базу добавляются новые. К данному моменту асессоры оценили 4 миллиона документов по 100 тыс. запросов. Уникальных запросов в день всего пользователями делается примерно в 50 раз больше.

По словам Фёдора Романенко, качество поиска Яндекса после введения MatrixNet резко улучшилось. Это оказалось заметно и по собственным внутренним метрикам Яндекса, и по росту поисковой доли, которую меряет Liveinternet. Даже ввод локальных факторов ранжирования в рамках "Арзамаса" не дал такого подъема качества поиска и "пользовательского счастья", как "Снежинск" с MatrixNet.

Как померить счастье пользователя?

Было рассказано и о том, как именно измеряется удовлетворенность пользователя выдачей. Учитываются такие факторы, как позиция первого клика (если он был сделан где-то внизу SERP, значит, первые места занимают нерелевантные сайты), доля некликнутых ссылок (не во всей выдаче, конечно), доля длинных кликов (пользователь перешел на сайт, а потом вернулся на выдачу, так что Яндекс знает, сколько времени он провёл на сайте).

А вообще, то, насколько пользователь доволен поисковым результатом, обратно пропорционально тому, сколько времени и сил он потратил на его достижение. При этом языком запросов люди не пользуются, о грамотном составлении запроса не думают, так что Яндексу нужно самому учиться понимать, что хотел пользователь.

Известно, что пользователи обучаются при помощи поисковых подсказок - смотрят, что искали другие и используют чужие формулировки. Анализировать поведение пользователей помогает Яндекс.Бар, которых установлено уже больше 3 миллионов.

У Яндекса много метрик оценки качества поиска, они постоянно дорабатываются, появляются новые. "Если по какой-то метрике мы лучше всех, мы ее выбрасываем и разрабатываем такую, по которой мы хуже всех", - рассказал Фёдор.

Немного истории

В начале своего доклада Фёдор напомнил слушателям историю поисковых технологий. Упоминающиеся даты - это не год изобретения, а год удачного внедрения технологии популярными порталами.

  • 1994 год. Yahoo. Каталог сайтов, вместо поиска - сёрфинг по структурированному содержимому.
  • 1995 год, Altavista. Текстовое ранжирование по формуле tf * idf
  • 1997 год, Яндекс. Поиском занялись лингвисты, подключили морфологию русского языка. У Рамблера морфология появилась уже в 1996, но разбору подвергался только запрос, Яндекс учитывал морфологию и в текстах страниц.
  • У Google русская морфология появилась только в 2006 - можно для удобства считать именно этот год началом активной борьбы за рунетовский рынок поиска.
  • Рамблер обогнал Яндекс еще в одном отношении. Он в 1997 году начал использовать для ранжирования сайтов "внешние факторы" - статистику из счетчиков ТОП-100. У Яндекса в 1997 году появился тИЦ. По словам Фёдора, сейчас "один тИЦ не очень много определяет" в ранжировании страницы по запросу - используется гораздо больше факторов.
  • Google стал использовать PR ("глобальную ссылочную авторитетность") с 1998 года. Google понимал Page Rank как измерение "вероятности того, что случайный сёрфер, блуждая по ссылкам, окажется на этой странице".

Правда о том, зачем Яндексу англоязычный индекс

Среди многочисленных вопросов, заданных Яндексу участниками конференции, были, конечно, и посвященные соперничеству с Google. Например, такой: может ли Яндекс привлечь в ряды своих пользователей гиков, которые привыкли к Google и не хотят пользоваться отечественным поисковиком? Оказалось, что Яндекс думает об этих людях. Они - технические специалисты, ищут статьи соответствующей тематики, любят западные IT -ресурсы. Поэтому добавлены в англоязычный индекс были в первую очередь именно такие сайты - которые отечественные 'технари' ищут в Google.

Был вопрос и по модной теме персонализации поиска. Представитель Яндекса справедливо заметил, что о персонализации последнее время много что говорят, но мало внедряют. В Яндексе сейчас "от самого пользователя результаты поиска не зависят", но в ближайшем будущем персонализация "будет постепенно появляться в умеренных количествах".

Вам будет интересно

Следите за нашими новостями

Подпишитесь на рассылку, и мы будем приглашать вас на наши мероприятия и делиться советами экспертов компании. Рассылка «Практика интернет-маркетинга» выходит дважды в месяц, в ней мы публикуем статьи о продвижении брендов в Интернете, делимся репортажами с крупных отраслевых событий и отвечаем на вопросы читателей.
Спасибо

Для завершения подписки вам необходимо перейти по ссылке,
присланной по указанному адресу email.

Произошла ошибка

Пожалуйста, попробуйте еще раз