19 лет — опыт продвижения сайтов в интернете

Как работают текстовые факторы ранжирования в алгоритмах поиска Яндекс и Google?

Пользовательский текст не всегда воспринимается поиском как релевантный. Понимание того, как работают современные текстовые факторы, — важный шаг к успешной оптимизации. Разберемся, как новые поисковые алгоритмы ранжируют тексты и как текстовые факторы заставят поиск полюбить ваш текст. 

20 августа 2020 года
1230
Независимый SEO-эксперт Алексей Чекушин, создатель just-magic.org, рассмотрел данную тему на нашей конференции Оptimization 2019. Об изменениях, которые произошли с тех пор, вы сможете узнать на конференции Оptimization 2020.

Время прочтения: 8 минут 

Тэги: OptimizationSEOфакторы ранжирования 

О чем статья?

  • Нейросети развиваются и приближаются к Natural Language Processing (NLP, «обработка естественного языка»). Но пока мы еще только двигаемся к пониманию текста поиском.  

  • Чтобы написать хороший seo-текст, нужно понимать, в каком направлении развиваются текстовые факторы и насколько быстро, а также в чем различие классических текстовых факторов и их нового поколения.  

  • Алгоритм Яндекса Палех/Королев и модель Google BERT меняют требования к работе с ключевыми и релевантными словам.

Классические и new-gen факторы ранжирования

Рекомендации представителей поисковых систем можно свести к двум утверждениям: пишите тексты для пользователя и не делайте SЕО-тексты. Это было бы на 100% верно, если бы мы с вами жили в гипотетическом мире, где уже развита NLP. Пока такие заявления опережают время лет на 5-10.

Как поиск оценивает текстовые факторы ранжированияСегодня мы рассмотрим классические и new-gen текстовые факторы. Это независимые друг от друга величины. Хорошие классические текстовые факторы никак не влияют на new-gen и наоборот. Для понимания, какой информацией оперирует поиск, можно использовать распространенные в сети формулы TF-IDF, ВМ25, вариации на тему ВМ25 с машиноподобранными весами и так далее. Мы сегодня обойдемся без них. Статистику по факторам ранжирования можно посмотреть в нашем исследовании. 

Классические текстовые факторы — модель «мешок слов»

Представьте: мы взяли текст, вытряхнули из него все слова, сложили в мешок, встряхнули и пересчитали. То есть на этапе сбора информации модель уничтожает всю информацию о самом тексте, его связность, и получает просто набор слов. При этом теряется:

  • информация о взаимном расположении слов

  • информация о словах, не содержащихся в запросе

Рассмотрим правило "мешка слов" на примере предложения: "Это щенок и он очень мил".

классические текстовые факторы ранжирования - алгоритм мешок слов Конечно, можно использовать синонимы, но это очень маленькое расширение, к тому криво работающее. Попробуйте задать в поиске Яндекса запросы «мобильный телефон» и «сотовый телефон». Вы увидите, что даже такие примитивные синонимы могут оказаться не взаимными. 

Как работать с классическими текстовыми факторами при новых алгоритмах?

Раньше принцип работы был очень прост: спамь ключевыми словами как можно больше, число ограничивалось только антиспамом. Затем появилось машинное обучение, и возникла необходимость укладываться в некие диапазоны вхождений. Сделаем больше слов — потеряем в ранжировании, сделаем совсем много – попадем под антиспам. 


«В высококонкурентной тематике без классических текстовых факторов не обойтись. С появлением алгоритма Палех/Королев стало больше работы, так как уровней информации для учета стало больше»



Размер диапазона непонятен SEO-специалисту, если он раньше с этим запросом не работал. Попытки технического угадывания приводят к большой дисперсии (разнообразию) результатов в выдаче. Плюс на результат влияют и другие факторы, большинство которых мы отсечь не можем. Не стоит уповать на операторы типа intext — они давно перестали работать.

Поэтому мы используем старый добрый текстовый анализ, адаптируя его под новые условия.
  • Менее важно точно затачивать страницы по вхождениям. Задача «примерно туда попасть», а сколько это «примерно» — определяется по текстовому анализатору. Даже самые опытные SEOшники на «глаз» угадывают хуже, чем текстовые анализаторы, с точки зрения последующего ранжирования.
  • Важен отбор запросов для анализа из группы. В Палех/Королев немного изменились правила группировок, а это очень важная часть ранжирования в Яндексе.
  • Оптимизироваться может не только текст. Раньше везде, в том числе в интернет-магазинах, мы были вынуждены делать тексты. Теперь мы можем оперировать не только текстам

New-gen текстовые факторы: модель DSSM

Здесь рассмотрим алгоритм Яндекса Палех/Королев, который действует с зимы 2018/2019 года. Это один и тот же алгоритм, который работает с разными зонами. Для него использовалась предложенная Microsoft модель DSSM (deep structured semantic model). Эта модель оперирует следующими параметрами: буквенные триграммы, слова и биграммы (пары слов). В итоге:

  • В оценку идут все слова, а не только содержащиеся в запросе. Если модель «мешок слов» 97% слов просто выбрасывала, теперь оценивается все. Несмотря на то, что потеряна основная структура текста, немного остается в биграммах. Таким образом, используется значительно больше данных.

  • Модель натренирована на вхождения НЕ слов и биграмм запроса. Нейросеть специально обучали для того, чтобы она не искала классические текстовые факторы, а дополняла их.

  • Анализируется «важный» контент страницы (алгоритм Королев). Правда, какая часть контента считается важной, пока известно только Яндексу, точнее, его нейросетям.

В любом случае, мы теперь теряем не два уровня информации, а только один — о расположении слов. Это шаг на пути к NLP.

Влияние DSSM на СЕО


Сейчас уже до 40% всех запросов уникальны, то есть не повторяются хотя бы дважды в течение всего периода наблюдений. В итоге, если ввести в поиск какой-либо рандомный невысокочастотный запрос, мы можем увидеть некие паттерны в title и текстах. Их можно выделять визуально либо автоматически и использовать для дополнительной технической текстовой оптимизации.

как dssm влияет на поискБыли случаи, когда добавление одного слова в title, причем слова не из запроса и не являющегося синонимом, вытаскивало текст из топ 15 в топ 3. Можно предположить, что при очередном переобучении достоверность фактора возросла, соответственно, возросла его значимость в общей формуле. Вот тут можно посмотреть успешный кейс по поднятию поискового трафика и конверсии за счет текстовой оптимизации.


«Использование биграмм и паттернов формирует положительное ранжирование. Статистически значимым оказывается добавление этих слов в title, тексты и другой контент страницы»


Существуют разные методики автоматического выделения. Из выдачи по соответствующему запросу выделяются определенные текстовые паттерны, используя алгоритмы, определяющие тематическую близость. Поиск оценивает не только текст. Оценивается и дополняющий его контент.


как поиск оценивает контент - дополнительные факторы ранжирования
Например, в интернет-магазинах есть представление, буквально созданное для размещения всяких биграмм Королева. Нельзя гарантировать, что оно работает, так как никто не знает, какие конкретно зоны выделятся Королевым. Однако в реальности добавление слов, не содержащихся в запросе, но соответствующих ему по тематике, улучшает ранжирование.

Новая работа с группировками

Кто работал с продвижением под Яндексом, знает, что группировка запросов — самый важный этап. Если сделана ошибка в группировке, то дальше можно не оптимизировать — ничего не поможет. 
Группировка запросов
Теперь предпочтительно делать так:

  • Меньше одинаковых слов в запросах. Посмотрите на пример на картинке. Только слово «зимняя» эти запросы и объединяет. Раньше такого большого разброса в конкурентных тематиках не было.

  • Большие кластеры, больше низкочастотных запросов на страницы.

  • Гораздо сложнее деоптимизировать страницу. Раньше, если запрос вел «не туда», вы убирали ключевые слова с оптимизированной страницы. Теперь, поскольку ранжируются не только ключевые слова, убрать страницу из поиска по запросу стало трудно. Иногда проще смириться и оставить ее Яндексу так, как он считает нужным.

Модель BERT от Google — следующий шаг к NLP

BERT (Bidirectional Encoder Representations from Transformers) — алгоритм Google, который был анонсирован в 2018 году и запущен в октябре 2019. На тот момент он работал только с английским языком и обрабатывал 10% запросов. БЕРТ является следующим этапом развития нейросетей по сравнению с Палехом/Королевым.

В чем его основные отличия и применение?

  • Bidirectional означает, что алгоритм «читает» текст как слева направо, так и справа налево. То есть он использует даже больше информации, чем человек.

  • Обучение его строится на простом принципе маскирования. Берут текст, закрывают одно слово, и модель пытается по контексту «угадать» слово, которое там заложено.

  • За счет этого BERT имеет большое число применений. Если Палех/Королев просто ищут соответствие запросу, то BERT может искать ответ на вопрос (Q/A). То есть, если задать вопрос, то алгоритм из куска текста, в котором содержится этот вопрос, вытащит ответ. Также он способен проверять гипотезу: мы можем сформулировать гипотезу, задать ответ, а BERT скажет, да или нет. 

Мнение эксперта

Алексей Губерман, руководитель отдела поисковой оптимизации «Ашманов и партнеры»:

Guberman1.jpg
«Не сказать, что BERT существенно изменил работу наших SEO-специалистов с текстом: мы и раньше советовали писать человекопонятные тексты для пользователей, и дальше планируем придерживаться этого подхода. Ни о каких накрутках и перенасыщении ключами уже давно речи не идет (во всяком случае, наши специалисты давно к этому пришли. И, как подтверждают результаты – не зря). Определяйте интенты согласно группировке запросов, работайте со смыслом и структурой текста, пользуйтесь данными поисковых подсказок и синонимами». 



BERT использует еще больше данных, чем Палех/Королев. Он учитывает не только все слова, не содержащиеся в запросе, он учитывает и информацию о расположении слов. Тем не менее, говорить о понимании поиском текста пока рано. Так, для решения задачи Q/A мы даем алгоритму кусок текста, в котором этот ответ содержится. Тогда он, с высокой вероятностью, может выделить запрос. Но сам найти ответ в интернете пока не может. 

Блиц-интервью с Алексеем Чекушиным

— Как быстро поисковики обсчитывают все текстовые фичи?

Всё считается довольно быстро. Обучение нейросети происходит заранее, так что прогон текста — достаточно быстрое вычисление. В отношении Яндекса, когда вы видите, что ваш результат обновился в поиске, значит, все значимые факторы, кроме тех, что требуют накопления во времени, по нему уже посчитаны. Другой вопрос, учтены ли они, тут может быть небольшая разница между предварительным ранжированием и основным. Что касается Google, возможно, есть небольшая задержка в 15-30 минут. В любом случае, счет не идет на дни или месяцы.

— Какие кластеризаторы можно порекомендовать SEO-специалисту?

Практически все они работают по одной схеме. Их работа сводится к анализу того, что есть в топе, без глубокого анализа, насколько оно связано с самим запросом. Можно выбрать тот, с которым вам удобнее работать.

— Как оптимизировать под BERT?

На момент создания доклада это было неизвестно. Скорее всего, какой-то опыт уже будет озвучен на Оptimization 2020.

Выводы:

  • Говорить о понимании текста поиском пока рано. Модель BERT — еще один шаг в этом направлении, в ближайшее время увидим, насколько он успешный.

  • Работая над оптимизацией, следует использовать больше слов, не входящих в запрос, но соответствующих тематике. Биграммы и поисковые паттерны могут быть успешны как в title, так и на других уровнях текста.

  • Особое значение приобретает группировка запросов. Оптимизировать следует не только контент, но и другие ниши для вхождения.

  • Если раньше текст оценивался по одному параметру, то новые модели учитывают все больше уровней информации, в том числе – поведенческие факторы.

Минина Татьяна, копирайтерСтатью подготовила Татьяна Минина. Профессиональный журналист, копирайтер. Увлечения: журналистика, текст, SEO, спорт.





Вам будет интересно

Хотите обсудить ваш проект?
Напишите нам о своих бизнес-задачах, и мы предложим проверенные решения.
Следите за нашими новостями
Подпишитесь на рассылку, и мы будем приглашать вас на наши мероприятия и делиться советами экспертов компании. Рассылка «Практика интернет-маркетинга» выходит дважды в месяц, в ней мы публикуем статьи о продвижении брендов в Интернете, делимся репортажами с крупных отраслевых событий и отвечаем на вопросы читателей.

Нажимая на кнопку «Подписаться», я даю согласие на обработку персональных данных и соглашаюсь c политикой конфиденциальности

Спасибо

Вы успешно подписались на рассылку. Теперь Вы раз в неделю будете получать интересные статьи и приглашения на наши мероприятия.

Произошла ошибка

Пожалуйста, попробуйте еще раз