Яндекса провел 'Студень' - 'студенческий день' в московской гостинице Radisson-SAS
Первого апреля в московской гостинице Radisson-SAS прошло мероприятие Яндекса под названием 'Студень' - 'студенческий день'. Это была однодневная конференция, которая заняла целый рабочий день - с 10 утра до 7 вечера. Посетило её, по данным Яндекса, около 700 человек, представлявших более 50 ВУЗов. Студентов приглашали на конференцию с помощью почтовой рассылки, регистрация осуществлялась по приглашениям, распространенным через ВУЗы, другие каналы привлечения аудитории не использовались. Иначе, как отметил Андрей Себрант, пришли бы одни оптимизаторы.
Последних, впрочем, хватает и среди студентов, так что на мероприятии они присутствовали, окружали с вопросами Садовского,
Отвечая на вопрос о цели мероприятия, топ-менеджеры Яндекса заявили, что пришло время стать более открытыми, что им хочется рассказать миру о технологиях и попрактиковаться они решили на студентах. Однако участники отметили, что многое было сделано для привлечения 'свежей крови' в компанию. Представители Яндекса рассказывали о его устройстве, организации производственных процессов, показывали фото нового офиса, проводили показательные собеседования, работали с желающими на стендах 'Школы анализа данных' и стажировок в Яндексе. Илья Сегалович, отвечая на вопросы редакции рассылки, отметил, что Яндексу для дальнейшего развития не хватает не столько денег, сколько людей, найти которых сложно, а выращивать - долго.
Фёдор Романенко из отдела качества веб-поиска рассказал о том, что такое MatrixNet и что изменилось в Яндексе после ее введения.
MatrixNet - это технология машинного обучения
, внедренная Яндексом в 2009 году. Этот алгоритм анализирует разультаты работы асессоров - сочетания запроса и страницы с оценкой того, насколько вторая релевантна первому. Получая такую выборку, машина выбирает связанные факторы и диапазоны их значений. Она пытается понять, почему человек оценил страницу релевантной запросу и применить выделенные факторы к другим страницам.
По словам Фёдора Романенко, MatrixNet оказалась крайне эффективна для повышения качества поиска, она стала обнаруживать факторы, о которых сотрудники поискового отдела сами не подозревали - "машина получилась умнее человека". Фёдор упомянул "400 основных факторов ранжирования", судя по формулировке, есть еще некоторое количество неосновных.
Создателям алгоритма удалось решить проблему переобучения. Переобучение случалось с алгоритмом, который знал много потенциальных факторов ранжирования, но исследовал слишком мало документов, и в результате добавлял в формулу те признаки страницы, которые к релевантности имеют слабое отношение - например, первую букву заголовка или количество абзацев.
С переобучением борются кроссвалидацией - выборка запросов делится пополам, одна половина используется для обучения, вторая - для проверки.
С машинным обучением тесно связан еще один интригующий оптимизаторов феномен - асессоры. Фёдор пояснил, что выборка запросов для оценки релевантности страниц делается так, что запросы в ней встречаются с той же частотой, с которой присутствуют в общем потоке пользовательских запросов. Периодически "устаревшие" оценки выбрасываются и в базу добавляются новые. К данному моменту асессоры оценили 4 миллиона документов по 100 тыс. запросов. Уникальных запросов в день всего пользователями делается примерно в 50 раз больше.
По словам Фёдора Романенко, качество поиска Яндекса после введения MatrixNet резко улучшилось. Это оказалось заметно и по собственным внутренним метрикам Яндекса, и по росту поисковой доли, которую меряет Liveinternet. Даже ввод локальных факторов ранжирования в рамках "Арзамаса" не дал такого подъема качества поиска и "пользовательского счастья", как "Снежинск" с MatrixNet.
Было рассказано и о том, как именно измеряется удовлетворенность пользователя выдачей. Учитываются такие факторы, как позиция первого клика (если он был сделан где-то внизу SERP, значит, первые места занимают нерелевантные сайты), доля некликнутых ссылок (не во всей выдаче, конечно), доля длинных кликов (пользователь перешел на сайт, а потом вернулся на выдачу, так что Яндекс знает, сколько времени он провёл на сайте).
А вообще, то, насколько пользователь доволен поисковым результатом, обратно пропорционально тому, сколько времени и сил он потратил на его достижение. При этом языком запросов люди не пользуются, о грамотном составлении запроса не думают, так что Яндексу нужно самому учиться понимать, что хотел пользователь.
Известно, что пользователи обучаются при помощи поисковых подсказок - смотрят, что искали другие и используют чужие формулировки. Анализировать поведение пользователей помогает Яндекс.Бар, которых установлено уже больше 3 миллионов.
У Яндекса много метрик оценки качества поиска, они постоянно дорабатываются, появляются новые. "Если по какой-то метрике мы лучше всех, мы ее выбрасываем и разрабатываем такую, по которой мы хуже всех", - рассказал Фёдор.
В начале своего доклада Фёдор напомнил слушателям историю поисковых технологий. Упоминающиеся даты - это не год изобретения, а год удачного внедрения технологии популярными порталами.
Вам будет интересно
Доставляем экспертный контент
Мы делимся с подписчиками экспертным контентом: отправляем полезные статьи, советы от специалистов, приглашаем на вебинары. Подпишитесь, чтобы узнать больше о продвижении бизнеса в Интернете, наших мероприятиях и репортажах с крупных отраслевых событий. Выберите наиболее удобную платформу для вас и наслаждайтесь контентом!
Нажимая на кнопку «Подписаться», я даю согласие на обработку персональных данных и соглашаюсь c политикой конфиденциальности
Мы отправили вам проверочое письмо — пожалуйста, подтвердите адрес электронной почты, перейдя по ссылке внутри письма.
Пожалуйста, попробуйте еще раз