Как работают текстовые факторы ранжирования в алгоритмах поиска Яндекс и Google?

Опубликовано: 20.08.2020

15 053

10 мин

Пользовательский текст не всегда воспринимается поиском как релевантный. Понимание того, как работают современные текстовые факторы, — важный шаг к успешной оптимизации. Разберемся, как новые поисковые алгоритмы ранжируют тексты и как текстовые факторы заставят поиск полюбить ваш текст.

Рекомендации представителей поисковых систем можно свести к двум утверждениям: пишите тексты для пользователя и не делайте SЕО-тексты. Это было бы на 100% верно, если бы мы с вами жили в гипотетическом мире, где уже развита NLP. Пока такие заявления опережают время лет на 5-10.

Как поиск оценивает текстовые факторы ранжирования Сегодня мы рассмотрим классические и new-gen текстовые факторы. Это независимые друг от друга величины. Хорошие классические текстовые факторы никак не влияют на new-gen и наоборот. Для понимания, какой информацией оперирует поиск, можно использовать распространенные в сети формулы TF-IDF, ВМ25, вариации на тему ВМ25 с машиноподобранными весами и так далее. Мы сегодня обойдемся без них.

Классические текстовые факторы — модель «мешок слов»

Представьте: мы взяли текст, вытряхнули из него все слова, сложили в мешок, встряхнули и пересчитали. То есть на этапе сбора информации модель уничтожает всю информацию о самом тексте, его связность, и получает просто набор слов. При этом теряется:

информация о взаимном расположении слов
информация о словах, не содержащихся в запросе

Рассмотрим правило "мешка слов" на примере предложения: "Это щенок и он очень мил".

классические текстовые факторы ранжирования - алгоритм мешок слов

Конечно, можно использовать синонимы, но это очень маленькое расширение, к тому криво работающее. Попробуйте задать в поиске Яндекса запросы «мобильный телефон» и «сотовый телефон». Вы увидите, что даже такие примитивные синонимы могут оказаться не взаимными.

Как работать с классическими текстовыми факторами при новых алгоритмах?

Раньше принцип работы был очень прост: спамь ключевыми словами как можно больше, число ограничивалось только антиспамом. Затем появилось машинное обучение, и возникла необходимость укладываться в некие диапазоны вхождений. Сделаем больше слов — потеряем в ранжировании, сделаем совсем много – попадем под антиспам.

«В высококонкурентной тематике без классических текстовых факторов не обойтись. С появлением алгоритма Палех/Королев стало больше работы, так как уровней информации для учета стало больше»

Размер диапазона непонятен SEO-специалисту, если он раньше с этим запросом не работал. Попытки технического угадывания приводят к большой дисперсии (разнообразию) результатов в выдаче. Плюс на результат влияют и другие факторы, большинство которых мы отсечь не можем. Не стоит уповать на операторы типа intext — они давно перестали работать.

Поэтому мы используем старый добрый текстовый анализ, адаптируя его под новые условия.

Менее важно точно затачивать страницы по вхождениям. Задача «примерно туда попасть», а сколько это «примерно» — определяется по текстовому анализатору. Даже самые опытные SEOшники на «глаз» угадывают хуже, чем текстовые анализаторы, с точки зрения последующего ранжирования.

Важен отбор запросов для анализа из группы. В Палех/Королев немного изменились правила группировок, а это очень важная часть ранжирования в Яндексе.

Оптимизироваться может не только текст. Раньше везде, в том числе в интернет-магазинах, мы были вынуждены делать тексты. Теперь мы можем оперировать не только текстам

New-gen текстовые факторы: модель DSSM

Здесь рассмотрим алгоритм Яндекса Палех/Королев, который действует с зимы 2018/2019 года. Это один и тот же алгоритм, который работает с разными зонами. Для него использовалась предложенная Microsoft модель DSSM (deep structured semantic model). Эта модель оперирует следующими параметрами: буквенные триграммы, слова и биграммы (пары слов). В итоге:

В оценку идут все слова, а не только содержащиеся в запросе. Если модель «мешок слов» 97% слов просто выбрасывала, теперь оценивается все. Несмотря на то, что потеряна основная структура текста, немного остается в биграммах. Таким образом, используется значительно больше данных.
Модель натренирована на вхождения НЕ слов и биграмм запроса. Нейросеть специально обучали для того, чтобы она не искала классические текстовые факторы, а дополняла их.
Анализируется «важный» контент страницы (алгоритм Королев). Правда, какая часть контента считается важной, пока известно только Яндексу, точнее, его нейросетям.

В любом случае, мы теперь теряем не два уровня информации, а только один — о расположении слов. Это шаг на пути к NLP.

Влияние DSSM на СЕО

Сейчас уже до 40% всех запросов уникальны, то есть не повторяются хотя бы дважды в течение всего периода наблюдений. В итоге, если ввести в поиск какой-либо рандомный невысокочастотный запрос, мы можем увидеть некие паттерны в title и текстах. Их можно выделять визуально либо автоматически и использовать для дополнительной технической текстовой оптимизации.

как dssm влияет на поиск

Были случаи, когда добавление одного слова в title, причем слова не из запроса и не являющегося синонимом, вытаскивало текст из топ 15 в топ 3. Можно предположить, что при очередном переобучении достоверность фактора возросла, соответственно, возросла его значимость в общей формуле. Вот тут можно посмотреть успешный кейс по поднятию поискового трафика и конверсии за счет текстовой оптимизации.

«Использование биграмм и паттернов формирует положительное ранжирование. Статистически значимым оказывается добавление этих слов в title, тексты и другой контент страницы»

Существуют разные методики автоматического выделения. Из выдачи по соответствующему запросу выделяются определенные текстовые паттерны, используя алгоритмы, определяющие тематическую близость. Поиск оценивает не только текст. Оценивается и дополняющий его контент.

как поиск оценивает контент - дополнительные факторы ранжирования

Например, в интернет-магазинах есть представление, буквально созданное для размещения всяких биграмм Королева. Нельзя гарантировать, что оно работает, так как никто не знает, какие конкретно зоны выделятся Королевым. Однако в реальности добавление слов, не содержащихся в запросе, но соответствующих ему по тематике, улучшает ранжирование.

Новая работа с группировками

Кто работал с продвижением под Яндексом, знает, что группировка запросов — самый важный этап. Если сделана ошибка в группировке, то дальше можно не оптимизировать — ничего не поможет.

Теперь предпочтительно делать так:

Меньше одинаковых слов в запросах. Посмотрите на пример на картинке. Только слово «зимняя» эти запросы и объединяет. Раньше такого большого разброса в конкурентных тематиках не было.
Большие кластеры, больше низкочастотных запросов на страницы.
Гораздо сложнее деоптимизировать страницу. Раньше, если запрос вел «не туда», вы убирали ключевые слова с оптимизированной страницы. Теперь, поскольку ранжируются не только ключевые слова, убрать страницу из поиска по запросу стало трудно. Иногда проще смириться и оставить ее Яндексу так, как он считает нужным.

Модель BERT от Google — следующий шаг к NLP

BERT (Bidirectional Encoder Representations from Transformers) — алгоритм Google, который был анонсирован в 2018 году и запущен в октябре 2019. На тот момент он работал только с английским языком и обрабатывал 10% запросов. БЕРТ является следующим этапом развития нейросетей по сравнению с Палехом/Королевым.

В чем его основные отличия и применение?

Bidirectional означает, что алгоритм «читает» текст как слева направо, так и справа налево. То есть он использует даже больше информации, чем человек.
Обучение его строится на простом принципе маскирования. Берут текст, закрывают одно слово, и модель пытается по контексту «угадать» слово, которое там заложено.
За счет этого BERT имеет большое число применений. Если Палех/Королев просто ищут соответствие запросу, то BERT может искать ответ на вопрос (Q/A). То есть, если задать вопрос, то алгоритм из куска текста, в котором содержится этот вопрос, вытащит ответ. Также он способен проверять гипотезу: мы можем сформулировать гипотезу, задать ответ, а BERT скажет, да или нет.

Мнение эксперта

Алексей Губерман, руководитель отдела поисковой оптимизации «Ашманов и партнеры»:

«Не сказать, что BERT существенно изменил работу наших SEO-специалистов с текстом: мы и раньше советовали писать человекопонятные тексты для пользователей, и дальше планируем придерживаться этого подхода. Ни о каких накрутках и перенасыщении ключами уже давно речи не идет (во всяком случае, наши специалисты давно к этому пришли. И, как подтверждают результаты – не зря). Определяйте интенты согласно группировке запросов, работайте со смыслом и структурой текста, пользуйтесь данными поисковых подсказок и синонимами».

BERT использует еще больше данных, чем Палех/Королев. Он учитывает не только все слова, не содержащиеся в запросе, он учитывает и информацию о расположении слов. Тем не менее, говорить о понимании поиском текста пока рано. Так, для решения задачи Q/A мы даем алгоритму кусок текста, в котором этот ответ содержится. Тогда он, с высокой вероятностью, может выделить запрос. Но сам найти ответ в интернете пока не может.

Блиц-интервью с Алексеем Чекушиным

— Как быстро поисковики обсчитывают все текстовые фичи?

Всё считается довольно быстро. Обучение нейросети происходит заранее, так что прогон текста — достаточно быстрое вычисление. В отношении Яндекса, когда вы видите, что ваш результат обновился в поиске, значит, все значимые факторы, кроме тех, что требуют накопления во времени, по нему уже посчитаны. Другой вопрос, учтены ли они, тут может быть небольшая разница между предварительным ранжированием и основным. Что касается Google, возможно, есть небольшая задержка в 15-30 минут. В любом случае, счет не идет на дни или месяцы.

— Какие кластеризаторы можно порекомендовать SEO-специалисту?

Практически все они работают по одной схеме. Их работа сводится к анализу того, что есть в топе, без глубокого анализа, насколько оно связано с самим запросом. Можно выбрать тот, с которым вам удобнее работать.

— Как оптимизировать под BERT?

На момент создания доклада это было неизвестно. Скорее всего, какой-то опыт уже будет озвучен на Оptimization 2020.

Выводы:

Говорить о понимании текста поиском пока рано. Модель BERT — еще один шаг в этом направлении, в ближайшее время увидим, насколько он успешный.
Работая над оптимизацией, следует использовать больше слов, не входящих в запрос, но соответствующих тематике. Биграммы и поисковые паттерны могут быть успешны как в title, так и на других уровнях текста.
Особое значение приобретает группировка запросов. Оптимизировать следует не только контент, но и другие ниши для вхождения.
Если раньше текст оценивался по одному параметру, то новые модели учитывают все больше уровней информации, в том числе – поведенческие факторы.

Статью подготовила Татьяна Минина. Профессиональный журналист, копирайтер. Увлечения: журналистика, текст, SEO, спорт.

#SEO #Оптимизация/Optimization

Знания на вашу почту!

Получайте одно письмо в месяц с лучшими статьями от экспертов «Ашманов и партнеры».

Нажимая на кнопку «Подписаться», я даю согласие на обработку персональных данных и соглашаюсь с политикой конфиденциальности.

Контент в любом формате

Татьяна Минина

Редактор продуктового контента

Редактор блога

Что в статье:

Классические и new-gen факторы ранжирования Классические текстовые факторы — модель «мешок слов» Как работать с классическими текстовыми факторами при новых алгоритмах? New-gen текстовые факторы: модель DSSM Модель BERT от Google — следующий шаг к NLP Блиц-интервью с Алексеем Чекушиным Выводы:

Знания на вашу почту!

Получайте одно письмо в месяц с лучшими статьями от экспертов «Ашманов и партнеры».

Контент в любом формате

Татьяна Минина

Редактор продуктового контента • Редактор блога

Статей в блоге: 181

Профессиональный журналист, копирайтер, член Союза Журналистов России, автор более 6000 публикаций в СМИ и контентных проектах. Сфера профессиональных интересов: digital-маркетинг, журналистика, SEO, ЗОЖ. Образование: факультет журналистики МГУ им.Ломоносова, университет интернет-профессий "Нетология".

Последние статьи эксперта:

Динамические места на поиске: полный разбор нового формата Яндекс Директа

16.07.2026

727

14 мин

Как правильно выбрать подрядчика по GEO: 8 вопросов, которые отсеют дилетантов

25.05.2026

2 289

14 мин

Читайте по теме

Как получить максимальный эффект от SEO-продвижения? Совмещаем цели бизнеса и подрядчика

Мы рассказали о том, как настроить коммуникацию между клиентом и подрядчиком, объединить бизнес и SEO цели, чтобы максимизировать эффект от продвижения в поиске. Статья подготовлена на основе доклада директора по росту и экс-руководителя команды SEO IT-Agency Константина Солодянникова, который он представил на конференции Optimization-2020.

#SEO #Оптимизация/Optimization

02.03.2021

11 109

10 мин

Какой ИИ-контент хорошо ранжируется в поисковых системах

Что мешает AI-контенту хорошо ранжироваться и как эти проблемы решить — рассказал Олег Шестаков, основатель и CEO, Rush Agency.

#SEO #Оптимизация/Optimization

14.02.2025

14 917

12 мин

Круглый стол «Продуктовое SEO»

Обсудили, как SEO-специалисту обеспечить продуктовый подход и бизнес-ориентированное продвижение.

#SEO #Оптимизация/Optimization

17.01.2024

8 551

11 мин

Актуальные исследования

Поиск с Алисой по коммерческим запросам: логика, факторы ранжирования и рекомендации

Полный гид по продвижению в AI-поиске на 2026 год

Поиск 2026: роль маркетплейсов при выборе товаров ― потребительские тренды

Коммерческий поиск с «Алисой». Информационные ответы

Оставьте заявку

Вы можете проконсультироваться или оставить заявку на коммерческое предложение, связавшись с нами любым удобным способом.

Написать в Телеграм

@ashmanovandpartners

Позвонить

+7 495 292-73-58

Написать на эл. почту

info@ashmanov.com

Оставить заявку на сайте

Нажимая на кнопку «Отправить», я даю согласие на обработку персональных данных и соглашаюсь с политикой конфиденциальности

Продвижение сайта

ORM

Контекстная реклама

Контент-маркетинг

Аналитика

Мероприятия

Как работают текстовые факторы ранжирования в алгоритмах поиска Яндекс и Google?

Классические текстовые факторы — модель «мешок слов»

Как работать с классическими текстовыми факторами при новых алгоритмах?

New-gen текстовые факторы: модель DSSM

Влияние DSSM на СЕО

Новая работа с группировками

Модель BERT от Google — следующий шаг к NLP

Алексей Губерман, руководитель отдела поисковой оптимизации «Ашманов и партнеры»:

Блиц-интервью с Алексеем Чекушиным

— Как быстро поисковики обсчитывают все текстовые фичи?

— Какие кластеризаторы можно порекомендовать SEO-специалисту?

— Как оптимизировать под BERT?

Выводы:

Знания на вашу почту!

Что в статье:

Знания на вашу почту!

Татьяна Минина

Читайте по теме

Актуальные исследования

Оставьте заявку