18 лет — опыт продвижения сайтов в интернете

Как работать с исследованиями факторов ранжирования

Наша Лаборатория поисковой аналитики регулярно выпускает SEO-исследования об особенностях поиска в определенной отрасли, и каждый год — о факторах ранжирования в Яндексе и Google в целом. Откуда мы берем эти данные и главное, что с ними делать оптимизаторам на практике? Разбираемся в этой статье.

10 октября 2019 года
1341

Откуда берутся данные исследований факторов ранжирования

Цель исследований Лаборатории — увидеть за параметрами сайтов и страниц, которые мы различными правдами и неправдами умеем им приписать, факторы ранжирования, которые используют поисковые машины, формируя выдачу.

Для этого нам, прежде всего, нужно понять, какие характеристики сайтов и страниц могут быть важны для ранжирования, а затем придумать, как их «сосчитать». Сейчас у нас параметров уже больше 600 (хотя, разумеется, не все они фактически являются факторами ранжирования). 

Источники данных

  • Наши источники. Большую часть параметров мы «снимаем» со страниц, попавших в результаты поиска, сами. Например, определяем размер HTML-кода, долю в нём текста и ссылок, количество вхождений слов запроса в заголовки h2–h4, наличие счетчика Google Analytics или протокола https, максимальную цену на странице, концентрацию слов запроса и их синонимов в SEO-тексте.

  • Внешние сервисы. Значения некоторых параметров мы получаем от самих поисковиков или сторонних сервисов. Например, значения ИКС (а раньше тИЦ), количество страниц в индексе и количество страниц, найденных на сайте, мы узнаем у Яндекса. Количество «шеров» в соцсетях можно узнать ВКонтакте и в «Одноклассниках», а возраст сайта — напрямую на whois-сервисах или косвенно по первому упоминанию на Archive.org. Данные о ссылках мы получаем от MegaIndex, трафиковые и некоторые поведенческие параметры — от SimilarWeb и Alexa.com.

  • Экспертные оценки. Большая группа параметров — около ста — основаны на экспертных оценках. Их выставляют наши асессоры, которые для каждой страницы, попавшей в результаты поиска, заполняют специальную анкету. «Ручные» (асессорские) параметры — в основном коммерческие или социальные. Большая часть из них относятся к сайту в целом. Если какие-либо другие страницы с сайта ранее уже были оценены, асессор получает уже почти готовую анкету — ему остается заполнить только строки, относящиеся к конкретной странице. Асессорские оценки есть только для коммерческих сайтов — если асессор оценил сайт как информационный, то на этом заполнение анкеты заканчивается.

Многие асессорские параметры для отдельных страниц дублируются близкими автоматическими параметрами, однако результаты по ним не всегда совпадают. Например, асессор учтет только телефон компании — владельца сайта, а автомат — и телефоны клиентов; поэтому при автоматическом детектировании на сайтах агрегаторов находится больше телефонов вообще и телефонов 8-800 в частности.

Типы параметров

Параметры делятся на бинарные (есть или нет у сайта или страницы какое-то свойство) и числовые. 

Когда речь идет о нескольких результатах поиска (например, о топ-10) и/или о выборке запросов, бинарные параметры удобно указывать в процентах. Например, 31% означает, что для 31% сайтов, попавших на интересующие нас позиции по данной выборке, значение параметра — есть. 

С числовыми параметрами всё немного сложнее: если разброс значений невелик, мы используем средние значения; если он значительный, мы считаем для каждого из запросов медиану, а затем усредняем полученные результаты для всех запросов выборки.

Параметры, у которых несколько значений, мы обычно сводим к бинарным — так с ними гораздо удобнее работать. Например, в нашей асессорской анкете для количества брендов в ассортименте предусмотрены варианты один, несколько или много. Данные из этой строки анкеты мы используем в двух бинарных параметрах: Один бренд (да, если один; нет, если несколько или много) и Много брендов (да, если много; нет, если один или несколько). Есть еще вариант не актуально, который просто выключает учет этой группы параметров для сайта.

Пример анкеты.jpg

Выборки

Мы работаем в  основном с коммерческими тематиками, в которых практически для любого запроса (кроме разве что самых экзотических низкочастотных запросов) найдутся десятки страниц, не  просто очень релевантных, но и специально под него оптимизированных. Для среднечастотных запросов таких страниц сотни, для высокочастотных — тысячи. Поисковым машинам есть из  чего выбрать, и попадание в топ-30 любой из них по конкурентному коммерческому запросу — фактически гарантия высокой релевантности. 

Когда Яндекс (или Google) расставляет результаты поиска по запросу в каком-то порядке, он отдает предпочтение одним релевантным страницам перед другими, тоже релевантными. Почему в топ-30 попали именно эти страницы — а не другие 30 (возможно, не менее достойные), которые мы тоже знаем и  с которыми мы их вполне можем сравнить? Чем отличаются страницы, попавшие на первые позиции, от страниц, замыкающих топ-30? Можно ли увидеть во всём этом закономерности? 

Если взять достаточно большую выборку запросов и для результатов поиска по каждому из  них получить значения каких-либо параметров, то для каждого параметра можно проверить, связаны ли его значения статистически значимо: 

  • с позицией в результатах поиска (в пределах топ-30) — в том числе, с попаданием в топ-3 или топ-10; 

  • попаданием в топ-30 (в качестве фона можно использовать страницы, попавшие в топ-30 двух других поисковиков). 

Чем больше выборка, тем точнее будут результаты. Но даже для небольших выборок, размером порядка 100 запросов, результаты оказываются статистически значимыми, а большие выборки их в основном подтверждают.

Конечно, от запросов зависит очень многое, и факторы ранжирования могут проявлять себя по-разному в зависимости от них. Значимость одних и тех же параметров на разных выборках запросов может сильно различаться. 

Это может быть связано и с объективными особенностями ранжирования для тех или иных тематик или интентов (намерений пользователя), и с «ландшафтом» сайтов, конкурирующих за место в топе: параметры, с которыми всё хорошо у сайтов с высокой видимостью, будут казаться важными, даже если поисковая машина на них не обращает внимания. Поэтому важно, во-первых, чтобы контрольная выборка запросов была достаточно представительной и разнообразной и, во-вторых, чтобы полученные на ней результаты контролировались по другим выборкам.

Сейчас мы работаем с четырьмя типами выборок:

  1. Одна стандартная выборка из 160 коммерческих запросов разных тематик. Она не очень велика и не идеально сбалансирована по тематикам и частоте запросов, но зато мы следим за ней с весны 2015 года, и по ней удобно отслеживать изменения в ранжировании. 

  2. Эталонные отраслевые выборки немного большего объема; на их основе в этом году мы подготовили аналитические отчеты по факторам ранжирования в электронной коммерции, финансах, медицине, автомобилях и недвижимости.

  3. Много узкотематических выборок — в основном из запросов, по которым продвигаются сайты наших клиентов. Их размер может быть разным, но обычно составляет десятки или сотни запросов. 

  4. Сводные выборки из тысяч запросов, которые мы несколько раз в год составляем из тематических выборок в исследовательских целях. Они уже достаточно большие для того, чтобы графики зависимости средних значений параметров от позиции получались гладкими, но, к сожалению, они каждый раз разные, поскольку составляются просто из запросов, оцененных за какой-то период. Можно составлять также сводные выборки по тематикам (например, медицина или мебель), по типам запросов (например, информационные), по регионам, и т. п.

Как оцениваются данные

Теперь мы подошли к самому главному. У нас есть выборка, есть значения параметра для всех (ну или почти всех) сайтов/страниц, попавших в топ-30 Яндекса, Google и Mail.ru. Как понять, важен ли параметр для ранжирования в каждом из поисковиков? И что, собственно, значит «важен»?

Корреляции с позицией

Самая простая связь с ранжированием — это когда с приближением к первой позиции значения параметра растут (или падают). Иногда такая зависимость очевидна, если посмотреть на диаграмму средних значений параметра по позициям. Однако возможны нюансы, особенно с числовыми параметрами, где на общую картину могут сильно влиять «выбросы» значений для отдельных сайтов. Поэтому лучше оценивать зависимость при помощи методов математической статистики.

Мы используем в качестве основного ранговый критерий Спирмена (см. врезку) — именно его значение мы имеем в виду, когда говорим о коэффициенте корреляции между позицией и значением параметра. Мы считаем корреляцию с позицией сильной, если коэффициент корреляции — 0,10 и больше (или –0,10 и меньше). Ранговый критерий Спирмена используется нами также при оценке корреляций между параметрами.

При этом мы предпочитаем не полагаться только на одну метрику и контролируем ее при помощи точного теста Фишера (а также U-теста Манна—Уитни). Корреляция засчитывается, только если она «подтверждается» статистически достоверной разницей между значениями параметра для топ-3 или топ-10 и оставшейся частью топ-30.

Чем сильнее корреляция, тем обычно больше перепад значений между топ-3 и третьей десяткой выдачи (исключения могут возникать, например, когда максимум значений приходится не на первые позиции, а на середину первой десятки, как мы это часто видели в отчете по недвижимости). На наших стандартных диаграммах по параметрам мы третью десятку не показываем, но при сильной корреляции разница в средних значениях высока и для топ-3 VS. топ-30.

Корреляция параметра локализации с топ-3 и топ-300

На таких диаграммах указаны коэффициенты корреляции, а также сила связи с попаданием в топ-30. Но «сила» параметров обычно видна и без этого. Если значения для топ-3 заметно выше, чем для топ-30, значит, скорее всего, есть сильная корреляция между параметром и позицией. Если значения для топ-30 заметно выше, чем для фона, скорее всего, есть сильная связь с попаданием в топ.

Например, для локализации в Москве для Яндекса среднее значение для топ-3 — 97%, для топ-30 — 94%, для третьей десятки выдачи (позиции 21–30) — 92%, коэффициент корреляции 0,06. Для Яндекса коэффициент корреляции заметно выше — 0,19; сильнее и разброс значений: топ-3 — 94%, топ-30 — 83%, третья десятка — 74%.

параметр локализации в Москве

Отметим, кстати, что чем ближе к нулю или к 100%, тем «весомее» разница в значениях параметров. Казалось бы, между 98% и 96%, как между 58% и 56%, — всего два процентных пункта. Но рост с 96 до 98% означает уменьшение доли сайтов, не имеющих параметра, в два раза!

Контраст с фоном

Большая часть запросов в выборках, с которыми мы работаем, — коммерческие и высококонкурентные; по ним нет недостатка в релевантных страницах. Качество поиска у всех трех основных поисковых систем достаточно высокое, чтобы попадание в топ-30 хотя бы одной из них можно было считать гарантией достаточной релевантности запросу и качества. Значит, если страница не попала в топ-30, например, в Google, но попала в Яндексе или в Mail.ru, — то это не потому, что она вообще плохая, а потому, что Google предпочел ей какие-то другие страницы (или сайты), лучше соответствующие каким-то важным для него критериям.

Значит, сравнивая топ-30 поисковика с фоном — со страницами, которых там нет, но которые попали в выдачу по тем же запросам в других поисковых машинах, — мы можем многое узнать о том, какие параметры для него важны. Например, мы можем утверждать, что локализация в Москве важнее для Яндекса, чем для Google, несмотря на то, что корреляция с позицией в Google выше. Потому что в топ-30 Яндекса 94% сайтов локализованы в Москве, а в топ-30 Google — только 83%. Получается, что в Google доля сайтов, не имеющих московских адресов и телефонов, почти в три раза больше — 17% против 6%.

Наш основной инструмент для оценки разницы между топ-30 и фоном — точный тест Фишера. Чем ближе его значение к нулю, тем меньше вероятность того, что разница в значениях параметров между выдачей поисковой машины и фоном случайна.

Но если связь с попаданием в топ-30 не случайна, то чем она может определяться? Есть несколько основных вариантов, которые, впрочем, могут и дополнять друг друга в различных пропорциях.

  1. Предварительный отбор. Современные формулы ранжирования очень сложны — а значит, могут требовать много ресурсов и времени на вычисление. Чтобы уменьшить нагрузку на сервера и ускорить обработку, ранжирование может выполняться в два или больше этапов, причем сначала к большому количеству страниц, поднятых из индекса, применяются упрощенные формулы, оптимизированные под быстрое вычисление. В итоге отбирается относительно немного (например, тысяча) результатов, к которым уже и применяется полная формула ранжирования. Если параметр входит в упрощенную формулу и учитывается на ранних этапах ранжирования, его значения для сайтов, дошедших до последнего этапа, изначально будут в среднем высокими. И даже если на этом последнем этапе параметр уже не учитывается, его влияние на общие результаты ранжирования может быть очень большим.

  2. Продолжение градиента. Некоторые из страниц фона на самом деле попадают в выдачу, но ниже 30-й позиции. Если есть корреляция с позицией, т. е. с удалением от вершины значения параметра падают, то не удивительно, если сайты (страницы), попавшие на 47-ю или 350-ю позицию, имеют в среднем более низкие значения параметра, чем попавшие на 2-ю или 25-ю.

  3. Корреляции с другими параметрами. Если точный тест Фишера показывает, что распределение не случайно, это означает только, что более высокие значения параметра в топ-30 по сравнению с фоном — не результат случайного выигрыша в лотерею, а следствие каких-то объективных причин. Причины могут быть разными — и они не обязательно связаны с отбором по интересующему нас (или близкому) параметру. Например, в выдаче Google обычно заметно меньше агрегаторов, чем в выдаче Яндекса. Средние значения многих параметров для агрегаторов заметно выше или ниже, чем для других коммерческих сайтов, — и это может сильно влиять на разницу между средними значениями этих параметров для двух поисковиков.

Чем больше контраст между топ-30 и фоном, тем больше вероятность того, что параметр действительно учитывается при ранжировании (или по крайней мере близок к одному из факторов ранжирования). Как всегда, при приближении к нулю или 100% разница весомее. Однако всегда могут найтись альтернативные объяснения — например, связанные с распределением типов сайтов в выдаче.

С другой стороны, отсутствие контраста между топ-30 и фоном или даже более высокие значения в фоне не обязательно говорят о том, что отбора по параметру нет. Если корреляция с позицией зависит только от одной поисковой машины, то фон — от всех трёх. Если кто-то из конкурентов уделяет интересующему нас параметру больше внимания, «наша» поисковая машина может оказаться в его тени, хотя тоже отдает предпочтение сайтам с высокими значениями параметра. Поэтому отрицательные корреляции мы на диаграммах отмечаем, а отрицательную связь с попаданием в топ — нет (за исключением инвертированных параметров вроде рангов, для которых чем меньше, тем лучше).


Как использовать результаты исследований

Параметры, которые мы называем важными, — это не обязательно факторы ранжирования, которые используют поисковики. Возможно, поисковая машина не включила именно конкретный параметр в  свою формулу ранжирования. Почему? Вариантов много: 

  • Есть другие параметры, влияющие на ранжирование, от которых данный параметр прямо или косвенно зависит (самая частая ситуация). 

  • Значение параметра выше у тех сайтов, которые занимают высокую позицию в результатах поиска (например, количество посещений страницы тем больше, чем лучше она ранжируется, просто за счет переходов из поисковика). 

  • Параметр часто включают в программу оптимизации сайтов, потому что распространено мнение, что он важен. В результате у «сильно оптимизированных» сайтов (а таких в топе большинство) значения данного параметра в среднем выше, хотя на самом деле «работают» другие параметры. 

  • Параметр был важен некоторое время назад, но сейчас на ранжирование уже не влияет; тем не менее, в топе закрепилось много сайтов с «правильными» его значениями. 

Даже в тех случаях, если фактор ранжирования действительно используется поисковой системой, нельзя утверждать, что он в точности совпадает с нашим параметром — скорее всего, найдутся сайты (страницы), для  которых значение «нашего параметра» и «их фактора» существенно различаются. 

Тем не менее, если наши данные показывают, что параметр «важен для ранжирования», то это в большинстве случаев действительно важно, и при поисковой оптимизации сайтов эти выводы полезно учитывать. Хотя и не стоит добиваться улучшения показателей по важным параметрам любой ценой.

Что же в таком случае делать?

Исправляйте критические ошибки

Параметры, которые ощутимо коррелируют с факторами ранжирования, — важны. Если у вас ограниченный ассортимент, или нет локализации в Москве, или нет цен, то по многим запросам у вас просто нет шансов попасть в топ.

Такова ситуация с параметрами, которые учитываются на предварительных этапах ранжирования, (о чём можно догадаться по большому контрасту между значениями параметра в топ-30 и фоне) а также с теми, у которых доля в топе приближается к ста процентам.

Если ваш сайт не в топе (т. е. вообще не ранжируется по запросу — именно тридцатка тут не принципиальна), стоит обратить внимание на параметры, сильно связанные с попаданием в топ, которых у него нет или по которым он заметно отстает от конкурентов.

Важно помнить, что в Яндексе факторы, отвечающие за текстовую релевантность, тоже относятся к этой категории. У страницы, на которой мало слов запроса, есть все шансы остаться за бортом, даже если с другими факторами ранжирования всё замечательно. При этом «мало» — не значит совсем нет. Если у конкурентов вхождений слов запроса набирается на 40 запросов, а у вас на пять, вы сильно рискуете.

Обращайтесь к здравому смыслу

Например, наши данные показывают, что чем больше размер HTML, размер текста и даже время загрузки страницы (только в Яндексе и в разумных пределах — менее секунды без учета скриптов и т. п.), тем выше в среднем ранжируются сайты. 

Это связано с тем, что размер HTML сильно коррелирует с количеством исходящих внутренних ссылок, картинок, цен и т. п. — т. е. с размером «витрины». Она важна, особенно для интернет-магазинов: от ее размера зависит ассортимент, количеством страниц в индексе, трафиком и т. п. Именно витрина вносит основной вклад в текстовую релевантность. Здесь не накажут за «ключевики» и повторы, а большой объем не назовут «портянкой». А значит, размер HTML коррелирует с количеством вхождений слов запроса в «текстовые фрагменты» (т. е. вне SEO-текста), в ссылки, в атрибуты alt; с количеством повторов и «содержательных» слов в тексте страницы. 

Размер HTML-кода важен. Но это не значит, что нужно оптимизировать свой сайт, специально увеличивая размер HTML или время загрузки!

Сравнивайте свой сайт с конкурентами

Размер HTML вряд ли непосредственно учитывается в ранжировании, но его можно использовать для контроля. Если страницы вашего сайта значительно меньше, чем страницы конкурентов в топ-3, топ-10 или топ-30, — это повод задуматься, всё ли вы правильно делаете и не нужно ли что-то изменить.

Метод сравнения с конкурентами (а иногда и слепого подражания им) — в SEO, прямо скажем, не новость. Например, именно так работают сервисы, формирующие по списку ключевых слов «задание для копирайтеров». Наши данные помогают выбрать для такого сравнения правильные критерии.

Критерии, которые отслеживают поисковики, могут быть формальными

Представители Яндекса и Google уже много лет говорят, как важно делать сайты не для поисковых машин, а для людей, и именно это — самый прямой путь к высоким позициям в поиске. Чем дальше, тем больше в этом правды: факторы ранжирования всё более успешно моделируют полезность сайтов для человека. 

Тем не менее, скорее всего, и сейчас значительная часть факторов опирается на простые критерии. Например, о наличии отзывов поисковая машина может судить по наличию заголовков, содержащих слово отзывы, а о наличии видео — по присутствию на странице кода видеоплеера. 

Рассчитывать, что вы сумеете легко обмануть поисковик, не стоит. Так, мы не призываем вас повесить на сайт фейковый телефон 8-800 (как это сделали многие года два назад). Но вот найти и вставить в подходящие места релевантные видео, раз уж поисковые машины так хотят их видеть, — точно полезно. Записать свои, вероятно, было бы еще полезнее — но и значительно сложнее, а потому не факт, что эффективнее.

Если параметр для вас неактуален, за его отсутствие вам ничего не будет

Информация о доставке на сайте — несомненно, важный параметр. В Google есть корреляция с позицией, в Яндексе — сильная связь с попаданием в топ-30 (89% против 83% в фоне), а для конкретных видов доставки (курьер, самовывоз) — и корреляция с позицией. Тем не менее, владельцам сайтов, предлагающих услуги, о доставке можно не беспокоиться — просто потому, что для них она не актуальна.

Оплата картой — не менее важный параметр. В обеих поисковых машинах на нашей общей выборке видна и сильная корреляция с позицией, и связь с попаданием в топ-30 (в Яндексе тоже сильная). Но вот за автомобили расплачиваться картой не принято, да и вообще на автомобильных сайтах вопрос о способах оплаты предпочитают не поднимать. И — кто бы мог подумать! — для автомобилей оплата картой (как и другие параметры, связанные с оплатой) если и коррелирует с позицией, то только отрицательно.

Каким образом поисковые машины поймут, что параметр не актуален, — в конце концов, не так уж и важно (хотя, несомненно, интересно). Можно смело исходить из того, что они справятся: они просто не могут позволить себе в таких вещах сильно ошибаться.

Встраивайте данные в стратегию продвижения 

Лаборатория поисковой аналитики компании «Ашманов и партнеры» занимается не только исследованиями, и это даже не главная часть нашей работы. Мы разработали практические инструменты для SEO-специалистов — прежде всего нашей компании.

Главный наш продукт предназначен для внутреннего пользования и в компании так и называется без изысков — «Лаборатория». Он позволяет для той или иной выборки запросов собрать информацию, а затем построить нужный отчет для оптимизатора или черновик отчета для клиента (его потом доработает оптимизатор).

Мы сравниваем значения параметров у сайта и его конкурентов из топ-30 и выдаем подробные рекомендации, ранжированные по важности. Значимость каждого параметра определяется не только его исходной оценкой (основанной на корреляции с позицией и связи с попаданием в топ-30), но и контекстом — тем, как параметр представлен в конкретной выкачке и как его значения у интересующего нас сайта соотносятся со значениями у конкурентов.

Мы готовим новое ежегодное исследование факторов ранжирования. Данные о корреляции разных групп факторов с позициями первыми получат участники конференции Optimization 2019, которая пройдет 30-31 октября.

Более того, 30 октября в 13.00 автор исследования выступит на конференции, поясняя главные моменты. Приходите!

Участники конференции могут получить бесплатный экспресс-аудит своих сайтов от Лаборатории поисковой аналитики. Для этого нужно подать заявку до 18 октября. Специалист Лаборатории подробно расскажет о состоянии страниц на мастер-классе, 31 октября, а после конференции отправит аудит на электронную почту.


Материал создан на основе исследования Михаила Воловича.

Вам будет интересно

Хотите обсудить ваш проект?
Напишите нам о своих бизнес-задачах, и мы предложим проверенные решения.
Следите за нашими новостями
Подпишитесь на рассылку, и мы будем приглашать вас на наши мероприятия и делиться советами экспертов компании. Рассылка «Практика интернет-маркетинга» выходит дважды в месяц, в ней мы публикуем статьи о продвижении брендов в Интернете, делимся репортажами с крупных отраслевых событий и отвечаем на вопросы читателей.

Нажимая на кнопку «Подписаться», я даю согласие на обработку персональных данных и соглашаюсь c политикой конфиденциальности

Спасибо

Вы успешно подписались на рассылку. Теперь вы дважды в месяц будете получать интересные статьи и приглашения на наши мероприятия.

Произошла ошибка

Пожалуйста, попробуйте еще раз