Как работают текстовые факторы ранжирования в алгоритмах поиска Яндекс и Google?
Опубликовано: 20.08.2020
14 763
10 мин
Пользовательский текст не всегда воспринимается поиском как релевантный. Понимание того, как работают современные текстовые факторы, — важный шаг к успешной оптимизации. Разберемся, как новые поисковые алгоритмы ранжируют тексты и как текстовые факторы заставят поиск полюбить ваш текст.
Время прочтения: 8 минут
Тэги: Optimization, SEO, факторы ранжирования
О чем статья?
-
Нейросети развиваются и приближаются к Natural Language Processing (NLP, «обработка естественного языка»). Но пока мы еще только двигаемся к пониманию текста поиском.
-
Чтобы написать хороший seo-текст, нужно понимать, в каком направлении развиваются текстовые факторы и насколько быстро, а также в чем различие классических текстовых факторов и их нового поколения.
- Алгоритм Яндекса Палех/Королев и модель Google BERT меняют требования к работе с ключевыми и релевантными словам.
Классические и new-gen факторы ранжирования
Рекомендации представителей поисковых систем можно свести к двум утверждениям: пишите тексты для пользователя и не делайте SЕО-тексты. Это было бы на 100% верно, если бы мы с вами жили в гипотетическом мире, где уже развита NLP. Пока такие заявления опережают время лет на 5-10.
Сегодня мы рассмотрим классические и new-gen текстовые факторы. Это независимые друг от друга величины. Хорошие классические текстовые факторы никак не влияют на new-gen и наоборот. Для понимания, какой информацией оперирует поиск, можно использовать распространенные в сети формулы TF-IDF, ВМ25, вариации на тему ВМ25 с машиноподобранными весами и так далее. Мы сегодня обойдемся без них.
Классические текстовые факторы — модель «мешок слов»
Представьте: мы взяли текст, вытряхнули из него все слова, сложили в мешок, встряхнули и пересчитали. То есть на этапе сбора информации модель уничтожает всю информацию о самом тексте, его связность, и получает просто набор слов. При этом теряется:
-
информация о взаимном расположении слов
-
информация о словах, не содержащихся в запросе
Конечно, можно использовать синонимы, но это очень маленькое расширение, к тому криво работающее. Попробуйте задать в поиске Яндекса запросы «мобильный телефон» и «сотовый телефон». Вы увидите, что даже такие примитивные синонимы могут оказаться не взаимными.
Как работать с классическими текстовыми факторами при новых алгоритмах?
Раньше принцип работы был очень прост: спамь ключевыми словами как можно больше, число ограничивалось только антиспамом. Затем появилось машинное обучение, и возникла необходимость укладываться в некие диапазоны вхождений. Сделаем больше слов — потеряем в ранжировании, сделаем совсем много – попадем под антиспам.«В высококонкурентной тематике без классических текстовых факторов не обойтись. С появлением алгоритма Палех/Королев стало больше работы, так как уровней информации для учета стало больше»
Размер диапазона непонятен SEO-специалисту, если он раньше с этим запросом не работал. Попытки технического угадывания приводят к большой дисперсии (разнообразию) результатов в выдаче. Плюс на результат влияют и другие факторы, большинство которых мы отсечь не можем. Не стоит уповать на операторы типа intext — они давно перестали работать.
Поэтому мы используем старый добрый текстовый анализ, адаптируя его под новые условия.- Менее важно точно затачивать страницы по вхождениям. Задача «примерно туда попасть», а сколько это «примерно» — определяется по текстовому анализатору. Даже самые опытные SEOшники на «глаз» угадывают хуже, чем текстовые анализаторы, с точки зрения последующего ранжирования.
- Важен отбор запросов для анализа из группы. В Палех/Королев немного изменились правила группировок, а это очень важная часть ранжирования в Яндексе.
- Оптимизироваться может не только текст. Раньше везде, в том числе в интернет-магазинах, мы были вынуждены делать тексты. Теперь мы можем оперировать не только текстам
New-gen текстовые факторы: модель DSSM
Здесь рассмотрим алгоритм Яндекса Палех/Королев, который действует с зимы 2018/2019 года. Это один и тот же алгоритм, который работает с разными зонами. Для него использовалась предложенная Microsoft модель DSSM (deep structured semantic model). Эта модель оперирует следующими параметрами: буквенные триграммы, слова и биграммы (пары слов). В итоге:
-
В оценку идут все слова, а не только содержащиеся в запросе. Если модель «мешок слов» 97% слов просто выбрасывала, теперь оценивается все. Несмотря на то, что потеряна основная структура текста, немного остается в биграммах. Таким образом, используется значительно больше данных.
-
Модель натренирована на вхождения НЕ слов и биграмм запроса. Нейросеть специально обучали для того, чтобы она не искала классические текстовые факторы, а дополняла их.
-
Анализируется «важный» контент страницы (алгоритм Королев). Правда, какая часть контента считается важной, пока известно только Яндексу, точнее, его нейросетям.
В любом случае, мы теперь теряем не два уровня информации, а только один — о расположении слов. Это шаг на пути к NLP.
Влияние DSSM на СЕО
Сейчас уже до 40% всех запросов уникальны, то есть не повторяются хотя бы дважды в течение всего периода наблюдений. В итоге, если ввести в поиск какой-либо рандомный невысокочастотный запрос, мы можем увидеть некие паттерны в title и текстах. Их можно выделять визуально либо автоматически и использовать для дополнительной технической текстовой оптимизации.
Были случаи, когда добавление одного слова в title, причем слова не из запроса и не являющегося синонимом, вытаскивало текст из топ 15 в топ 3. Можно предположить, что при очередном переобучении достоверность фактора возросла, соответственно, возросла его значимость в общей формуле. Вот тут можно посмотреть успешный кейс по поднятию поискового трафика и конверсии за счет текстовой оптимизации.«Использование биграмм и паттернов формирует положительное ранжирование. Статистически значимым оказывается добавление этих слов в title, тексты и другой контент страницы»
Существуют разные методики автоматического выделения. Из выдачи по соответствующему запросу выделяются определенные текстовые паттерны, используя алгоритмы, определяющие тематическую близость. Поиск оценивает не только текст. Оценивается и дополняющий его контент.

Например, в интернет-магазинах есть представление, буквально созданное для размещения всяких биграмм Королева. Нельзя гарантировать, что оно работает, так как никто не знает, какие конкретно зоны выделятся Королевым. Однако в реальности добавление слов, не содержащихся в запросе, но соответствующих ему по тематике, улучшает ранжирование.
Новая работа с группировками

Теперь предпочтительно делать так:
-
Меньше одинаковых слов в запросах. Посмотрите на пример на картинке. Только слово «зимняя» эти запросы и объединяет. Раньше такого большого разброса в конкурентных тематиках не было.
-
Большие кластеры, больше низкочастотных запросов на страницы.
-
Гораздо сложнее деоптимизировать страницу. Раньше, если запрос вел «не туда», вы убирали ключевые слова с оптимизированной страницы. Теперь, поскольку ранжируются не только ключевые слова, убрать страницу из поиска по запросу стало трудно. Иногда проще смириться и оставить ее Яндексу так, как он считает нужным.
Модель BERT от Google — следующий шаг к NLP
BERT (Bidirectional Encoder Representations from Transformers) — алгоритм Google, который был анонсирован в 2018 году и запущен в октябре 2019. На тот момент он работал только с английским языком и обрабатывал 10% запросов. БЕРТ является следующим этапом развития нейросетей по сравнению с Палехом/Королевым.
В чем его основные отличия и применение?
-
Bidirectional означает, что алгоритм «читает» текст как слева направо, так и справа налево. То есть он использует даже больше информации, чем человек.
-
Обучение его строится на простом принципе маскирования. Берут текст, закрывают одно слово, и модель пытается по контексту «угадать» слово, которое там заложено.
- За счет этого BERT имеет большое число применений. Если Палех/Королев просто ищут соответствие запросу, то BERT может искать ответ на вопрос (Q/A). То есть, если задать вопрос, то алгоритм из куска текста, в котором содержится этот вопрос, вытащит ответ. Также он способен проверять гипотезу: мы можем сформулировать гипотезу, задать ответ, а BERT скажет, да или нет.
Алексей Губерман, руководитель отдела поисковой оптимизации «Ашманов и партнеры»:

«Не сказать, что BERT существенно изменил работу наших SEO-специалистов с текстом: мы и раньше советовали писать человекопонятные тексты для пользователей, и дальше планируем придерживаться этого подхода. Ни о каких накрутках и перенасыщении ключами уже давно речи не идет (во всяком случае, наши специалисты давно к этому пришли. И, как подтверждают результаты – не зря). Определяйте интенты согласно группировке запросов, работайте со смыслом и структурой текста, пользуйтесь данными поисковых подсказок и синонимами».
BERT использует еще больше данных, чем Палех/Королев. Он учитывает не только все слова, не содержащиеся в запросе, он учитывает и информацию о расположении слов. Тем не менее, говорить о понимании поиском текста пока рано. Так, для решения задачи Q/A мы даем алгоритму кусок текста, в котором этот ответ содержится. Тогда он, с высокой вероятностью, может выделить запрос. Но сам найти ответ в интернете пока не может.
Блиц-интервью с Алексеем Чекушиным
— Как быстро поисковики обсчитывают все текстовые фичи?
Всё считается довольно быстро. Обучение нейросети происходит заранее, так что прогон текста — достаточно быстрое вычисление. В отношении Яндекса, когда вы видите, что ваш результат обновился в поиске, значит, все значимые факторы, кроме тех, что требуют накопления во времени, по нему уже посчитаны. Другой вопрос, учтены ли они, тут может быть небольшая разница между предварительным ранжированием и основным. Что касается Google, возможно, есть небольшая задержка в 15-30 минут. В любом случае, счет не идет на дни или месяцы.
— Какие кластеризаторы можно порекомендовать SEO-специалисту?
Практически все они работают по одной схеме. Их работа сводится к анализу того, что есть в топе, без глубокого анализа, насколько оно связано с самим запросом. Можно выбрать тот, с которым вам удобнее работать.
— Как оптимизировать под BERT?
На момент создания доклада это было неизвестно. Скорее всего, какой-то опыт уже будет озвучен на Оptimization 2020.
Выводы:
-
Говорить о понимании текста поиском пока рано. Модель BERT — еще один шаг в этом направлении, в ближайшее время увидим, насколько он успешный.
-
Работая над оптимизацией, следует использовать больше слов, не входящих в запрос, но соответствующих тематике. Биграммы и поисковые паттерны могут быть успешны как в title, так и на других уровнях текста.
-
Особое значение приобретает группировка запросов. Оптимизировать следует не только контент, но и другие ниши для вхождения.
-
Если раньше текст оценивался по одному параметру, то новые модели учитывают все больше уровней информации, в том числе – поведенческие факторы.
Статью подготовила Татьяна Минина. Профессиональный журналист, копирайтер. Увлечения: журналистика, текст, SEO, спорт.
Знания на вашу почту!
Получайте одно письмо в месяц с лучшими статьями от экспертов «Ашманов и партнеры».
Нажимая на кнопку «Подписаться», я даю согласие на обработку персональных данных и соглашаюсь с политикой конфиденциальности.
Профессиональный журналист, копирайтер, член Союза Журналистов России, автор более 6000 публикаций в СМИ и контентных проектах. Сфера профессиональных интересов: digital-маркетинг, журналистика, SEO, ЗОЖ. Образование: факультет журналистики МГУ им.Ломоносова, университет интернет-профессий "Нетология".
Последние статьи эксперта:
Как правильно выбрать подрядчика по GEO: 8 вопросов, которые отсеют дилетантов
25.05.2026
684
14 мин
Читайте по теме
На конференции Оптимизация/Optimization-2025 эксперты обсудили, как развиваются маркетинговые каналы с внедрением нейросетей в поиск.
18.03.2026
2 095
16 мин
В рамках конференции Optimization-2024 Анастасия Курдюкова, руководитель отдела поисковой оптимизации «Ашманов и партнеры», рассказала, как построить команду под SEO-аутсорс, каким компаниям подойдет такой формат сотрудничества и в чем выгода услуги для бизнеса и агентства.
23.11.2024
6 193
9 мин
Какие навыки менеджмента позволят сделать in-house SEO эффективным для бизнеса? Рассказал руководитель отдела SEO-оптимизации СТД «Петрович» Сергей Вирясов на конференции Optimization.
30.11.2021
11 051
12 мин