Продвигаем бизнес в Интернете с 2001 года

Как мы расшифровываем поисковые алгоритмы? Интервью с Михаилом Воловичем

Как работает Лаборатория поисковой аналитики: что это такое, зачем она нужна и как может помочь оптимизаторам.

Последнее обновление: 02 октября 2019 года
6432

Продвигая проекты наших клиентов, мы используем данные Лаборатории поисковой аналитики». Она проводит «расшифровку» поисковых алгоритмов и выявляет важные сейчас факторы ранжирования. Это помогает точно понять, что важно для продвижения определенного проекта, а не действовать наугад. На основе ее данных готовим и ежегодный отчет «Яндекс и Google. Факторы ранжирования».

Но как работает Лаборатория? Мы поговорили об этом с ее руководителем, Михаилом Воловичем.

Как родилась идея создать Лабораторию? Кто её отцы-основатели?

В нынешнем виде «Лаборатория поисковой аналитики» существует с осени 2014 года, но вообще-то ей уже больше 10 лет: мы занимались анализаторами поисковых машин (проект AnalyzeThis.ru) и распознаванием поискового спама. Когда мы занялись SEO-аналитикой, этот опыт нам очень пригодился.

В 2014 году стало понятно, что центр тяжести в SEO смещается от ссылок, которые до этого решали почти всё, куда-то еще. Стала модной тема коммерческих факторов ранжирования, но что именно работает и как, было не очень понятно. Вообще, это было время, когда на рынке практически никто толком не понимал, что нужно делать, чтобы эффективно продвигать сайты; всё делалось наощупь.

И тут пришел Игорь Ашманов и сказал, что пора от анализа поиска для поисковиков переходить к анализу поиска для SEO, потому что кто же, если не мы. И всё завертелось.

Сколько человек работает над сервисом (разработка, аналитика и так далее)? Какие у них роли?

Не очень много. Больше десяти, но меньше двадцати — точное количество я, пожалуй, назвать не готов.

Аналитики, программисты, асессоры. Плюс нас консультируют ведущие SEO-специалисты «Ашманов и партнеры», а отдел юзабилити помогает проектировать наши сервисы.

Кстати, у нас время от времени появляются вакансии аналитика. Если вы сильны в математике и знаете толк в SEO, обращайтесь, обсудим.

Лаборатория проверяет различные гипотезы продвижения и выявляет корреляции между параметрами сайтов и их позициями в топе, верно?

Примерно так и есть — с точностью до нюансов.

Представьте себе, что у вас есть набор запросов, результаты поиска от трех разных поисковиков по каждому из них и значения нескольких сотен параметров для каждого из результатов поиска. Если запросов много (например, сто или тысяча), вы можете применить к этим данным методы математической статистики и достаточно надежно оценить, насколько каждый из параметров важен (или, наоборот, безразличен) для поиска. При этом важность для поиска может проявляться не только в высокой корреляции между значением параметра и позицией.

Например, очень важно сравнивать значения параметров между теми результатами, которые попали в топ для данного поисковика, и теми, которые остались «за бортом» (хотя другие поисковые машины считают их достаточно релевантными). Может существовать очень сильная связь между наличием параметра и попаданием в топ-30 — а внутри «тридцатки» значимой корреляции между параметром и позицией при этом может не быть. (Формально, с математической точки зрения, сильная связь в данном случае — это низкая вероятность того, что различия по данному параметру между попавшими и не попавшими в топ-30 возникли случайно.)

Ну и отсутствие связи между параметром и результатами поиска — тоже важный и интересный результат. Иногда даже более важный и более интересный, чем ее наличие.

На основе этого формируются рекомендации для практического продвижения?

Да, причем рекомендации формируются сразу в двух смыслах.

Во-первых, на основании этих данных мы можем оценить, какие параметры важны для поискового продвижения, и сформировать «теоретические» рекомендации.

Во-вторых, задав на входе нашему сервису свой набор запросов и продвигаемые по ним страницы, оптимизатор получает на выходе практические рекомендации — чем продвигаемый сайт «хуже» конкурентов, чего не хватает, что нужно исправить и т. п. Причем эти рекомендации уже учитывают поисковый контекст и отранжированы по важности. Пример рекомендаций Лаборатории

Пример из отчета Лаборатории для одного из сайтов с учетом его конкурентов


Какие группы факторов анализирует Лаборатория?

Корректнее говорить не о факторах, а о параметрах. Ведь даже если мы видим явную связь между значением параметра и позицией, мы не можем утверждать, что Яндекс (или Google) использует в качестве фактора ранжирования именно этот параметр.

Мы начинали с коммерческих параметров, но название «Лаборатория коммерческих факторов ранжирования», которое некоторое время бытовало, давно — практически сразу — устарело.

Сейчас мы также рассматриваем:

  • ссылочные параметры — сколько доменов (страниц) ссылаются на данный сайт (страницу);

  • ссылочно-текстовые — как часто в ссылках на сайт (страницу) встречаются слова запроса;

  • текстовые — как часто в тексте страницы и ее заголовках встречаются слова запроса;

  • «социальные» — наличие групп в соцсетях, ссылок «поделиться», количество шеров и т. п.;

  • технические и др. — скорость загрузки страницы, наличие кодов счетчиков и рекламы, строение URL'а, возраст домена и т. п.

Совсем недавно мы научились также работать с трафиковыми параметрами — количество просмотров страниц, доля трафика из разных источников, продолжительность сессии и т. п.

По сути дела, за бортом остаются только поведенческие факторы — но, кажется, к ним тоже более или менее понятно, как подобраться.

По какому принципу в Лабораторию добавляются новые факторы?

Самое трудное — придумать, какие еще параметры можно вычислить или получить из доступных источников. Как только идея нового потенциального фактора приходит нам в голову, мы ее стараемся как можно быстрее реализовать и проверить.

Вообще говоря, поисковые машины работают примерно так же. Они постоянно ищут новые факторы, которые можно было бы использовать в ранжировании, а потом проверяют, дает ли их использование хотя бы небольшое улучшение качества поиска.

Иногда понятно, что тот или иной параметр нужен, и приходится его мучительно изобретать. Так, через несколько месяцев после того, как Яндекс ввел санкции за покупку ссылок, мы научились оценивать «риск “Минусинска”». Это комплексный параметр, производный от ряда более простых параметров, которые для этого тоже пришлось ввести. Затем точно так же был «сконструирован» комплексный параметр «риск “Баден-Бадена”» — над ним мы продолжаем работать и сейчас.

У нас есть стандартная подборка запросов, данные по которой оцениваются примерно раз в месяц уже более трех лет. Это позволяет отслеживать изменения в ранжировании Яндекса и Google и корректировать работу нашего сервиса — прежде всего, менять важность, которая приписывается различным факторам при составлении отчетов.

Изменения влияния ссылочных факторов

Пример отслеживания влияния ссылочных факторов (вошел в исследование  «Яндекс и Google: факторы ранжирования в 2017 году»)

Данные по стандартной подборке дополняются данными по большим выборкам (из 5–10 тысяч запросов разных тематик), которые, к сожалению, всё время разные.

Лаборатория заточена только под алгоритмы ранжирования Яндекса?

Нет, почти в равной степени Яндекса и Google. Другое дело, что продвижение в Яндексе у наших клиентов более востребовано.

Кстати, с тем же успехом мы могли бы давать рекомендации и по продвижению в поиске Mail.ru, если бы это было кому-нибудь нужно.

А насколько правильность рекомендаций Лаборатории подтверждается практикой?

С одной стороны, она подтверждается ежедневно, всем опытом компании «Ашманов и партнеры» и ее клиентов. С другой, выделить вклад именно рекомендаций Лаборатории достаточно сложно. Наши оптимизаторы уже несколько лет ими активно пользуются — но их собственные опыт и мастерство, без сомнения, важнее.

Строго говоря, то, что сайты, которые продвигаются в соответствии с нашими рекомендациями, попадают в топ, ничего не доказывает. «Доказательное SEO» — вещь еще более редкая и дорогая, чем доказательная медицина. Строгий эксперимент здесь хотя и возможен теоретически, но скорее на далекой периферии, — а наши оптимизаторы работают часто с самыми конкурентными запросами.

Скажем так — рекомендации нашего сервиса достаточно разумны и эффективны, чтобы ими с удовольствием пользовались опытные оптимизаторы в своей ежедневной практической работе.

Сколько примерно сайтов в год анализирует Лаборатория?

Сотни сайтов, десятки тысяч запросов. В основном это сайты клиентов нашей компании.

Как данными Лаборатории могут воспользоваться оптимизаторы в отрасли? Есть ли такая возможность?

Мы достаточно много и подробно рассказываем о своих результатах — нашей компании вообще свойственна открытость. Например, к последней конференции Optimization мы выпустили white paper — брошюру «Яндекс и Google: факторы ранжирования в 2017 году». Собираемся сделать подготовку таких отчетов для отрасли доброй традицией.

В этот отчет вошли наиболее важные параметры, коррелирующие с позициями сайтов, с указанием их влияния на позиции и попадание в топ-30.

Иллюстрация из отчета

Топ-50 параметров для Яндекса и Google, данные из исследования «Яндекс и Google: факторы ранжирования в 2017 году»  

Что касается сервиса автоматизированной подготовки отчетов — пока он останется только для внутреннего пользования.

Есть популярное мнение: «делайте сайты для людей, и они будут высоко ранжироваться». Это так? И помогает ли Лаборатория делать сайты для людей?

Скажем так — Яндекс очень хотел бы, чтобы это было правдой, и многое делает для того, чтобы «сказку сделать былью». Работает это, скорее всего, примерно так.

В основе ранжирования любого поисковика лежат асессорские оценки. Асессоры оценивают, какие сайты лучше отвечают на запросы пользователей, учитывая не только релевантность страницы запросу, но и полезность страницы и сайта в целом. Сотрудники поискового отдела придумывают формальные критерии (параметры), которые можно было бы вычислять автоматически и учитывать при оценке качества сайта и его релевантности запросу. Среди этих параметров есть и такие, которые прямо или косвенно оценивают полезность сайта для пользователей — в частности, коммерческие метрики создавались именно для этого. Дальше применяются методы машинного обучения, которые определяют, в каких случаях, на каком этапе и с каким весом учитывать каждый из параметров в формуле ранжирования.

На поиске работает уже готовая формула ранжирования, точнее несколько: сначала из миллионов кандидатов относительно простыми (а значит, быстро вычисляемыми) формулами отбирается ограниченное число страниц для более тонкого ранжирования; потом они обсчитываются комплексной формулой ранжирования и выстраиваются в окончательном порядке.

В результате решение о том, насколько сайт «сделан для людей», принимается всё-таки по формальным критериям, которые поисковые машины, естественно, не раскрывают. Наша работа — показать, какие параметры могут учитываться поисковыми машинами, а затем помочь сравнить свой сайт с конкурентами и выявить потенциальные проблемы.

Иногда работа оптимизаторов приводит к тому, что сайт попадает под санкции. Есть ли такой риск, если оптимизировать сайт с помощью Лаборатории?

Санкции — это попытка поисковых машин укоротить тех, кто пытается формально подстроиться под параметры формулы ранжировании, а содержательным критериям, которые эти параметры призваны моделировать, не соответствует. Например, ссылочное ранжирование призвано оценивать авторитетность сайта в Сети — но ссылки, купленные за деньги, если что-то и оценивают, то только готовность платить за попадание в топ.

Разумеется, если следовать рекомендациям Лаборатории формально, не улучшая сайт, а лишь имитируя «образцовое поведение», можно нарваться на санкции. Лаборатория рекомендует, например, по возможности использовать телефоны 8-800, поскольку они свидетельствуют о готовности бизнеса, стоящего за сайтом, платить за удобство пользователей. 

Корреляция номера 8-800 и позиций

Показатели корреляции телефона 8-800 с позициями, использованы в исследовании «Яндекс и Google: факторы ранжирования в 2017 году»

Некоторые владельцы сайтов указывают на сайте такой номер, но на самом деле он не работает. Я пока не слышал о санкциях за такой обман, но не удивлюсь, если они в недалеком будущем появятся.

В большинстве случаев, однако, санкции назначаются тоже по каким-то формальным критериям, которые поддаются оценке. Так, в 2016 году мы разработали комплексный параметр «риск “Минусинска”», а в 2017-м — «риск “Баден-Бадена”». Это помогает нашим клиентам не подходить к опасной черте.

Недавно появился сервис «Тургенев», который оценивает риск попадания сайта под «Баден-Баден». Использует ли «Тургенев» данные Лаборатории?

Да, конечно, «Тургенев» целиком и полностью на них основан. Мы сначала научились оценивать риск «Баден-Бадена» для сайтов своих клиентов, для чего потребовалось разработать целое семейство новых параметров. А потом поняли, что было бы интересно сделать на этой основе сервис, открытый для всех. Так и появился «Тургенев».

Правда, его пришлось сделать немного редуцированным по сравнению с тем сервисом, который доступен для наших клиентов (назовем его «внутренним Тургеневым»). Обычный «Тургенев» работает только с текстом, а «внутренний» учитывает также контекст. Например, длину текстовых блоков у других страниц, найденных по запросу, или процент «содержательного текста» на них (он сильно зависит от тематики). Но работа над «Тургеневым» заставила нас сильно развить алгоритм и данные, так что он уже давно даже без контекста работает лучше, чем когда-то с ним. Отчего, кстати, выиграли и клиенты «Ашманов и партнеры».

Между прочим, мы научились распознавать плохие SEO-тексты не только по количеству повторов («тошнота» и др.) или насыщенности «ключевиками», но и по характерным словам и оборотам речи. Сейчас таких лексических маркеров плохого стиля набралось уже больше 26 тысяч. В результате «Тургенев» постепенно становится стандартом для копирайтеров, его используют не только для оценки риска попадания под фильтры, но и просто для улучшения текстов. И не только «сеошных».

Как сервис будет развиваться в будущем?

Вот несколько вещей, над которыми мы уже работаем или планируем ими заняться в ближайшее время.

  • Самая главная задача для нас сейчас — выпуск новой версии сервиса для анализа сайтов наших клиентов. Оптимизаторам станет заметно удобнее работать, но главные бенефициары — конечно, клиенты «АиП».

  • Мы продолжим расширять набор параметров, с которым работаем. О трафиковых и, в перспективе, поведенческих метриках я уже упоминал.

  • У нас уже был опыт отдельного сбора «мобильных» результатов поиска, но мы пока не пытались комплексно оценить разницу в ранжировании между десктопным и мобильным поиском. Сейчас эта задача становится всё более актуальной.

  • Мы продолжаем развивать «Тургенева». Скоро у него появится API — правда, скорее всего, в отличие от основного сервиса, он будет платным. На подходе новый алгоритм для вкладки «Запросы»: наполнение текста «ключевиками» скоро будет детектироваться гораздо лучше, чем сейчас. И, конечно, будет развиваться дальше любимая нами «Стилистика».

  • Мы думаем над тем, как автоматизировать аналитику — например, автоматически отслеживать изменения в алгоритмах ранжирования или особенности ранжирования по разным тематикам (наборам запросов).

  • И еще мы думаем над новыми сервисами для оценки сайтов наших клиентов и для рынка.

Вам будет интересно

Хотите обсудить ваш проект?
Напишите нам о своих бизнес-задачах, и мы предложим проверенные решения.

Доставляем экспертный контент

Мы делимся с подписчиками экспертным контентом: отправляем полезные статьи, советы от специалистов, приглашаем на вебинары. Подпишитесь, чтобы узнать больше о продвижении бизнеса в Интернете, наших мероприятиях и репортажах с крупных отраслевых событий. Выберите наиболее удобную платформу для вас и наслаждайтесь контентом!

Нажимая на кнопку «Подписаться», я даю согласие на обработку персональных данных и соглашаюсь c политикой конфиденциальности

Спасибо за подписку!

Мы отправили вам проверочое письмо — пожалуйста, подтвердите адрес электронной почты, перейдя по ссылке внутри письма.

Произошла ошибка

Пожалуйста, попробуйте еще раз