Текстовый анализ в эпоху нейросетей

Продолжая использование веб-сайта, вы даете согласие на обработку файлов cookie

Время прочтения: 5 минут

О чем статья:

Как работают текстовые факторы ранжирования в 2024-2025 гг.
Как нейросети анализируют тексты
Как работают трансформеры в поиске
Как использовать LLM-модели для улучшения релевантности текстов: исследования
Выводы

Нередко у маркетологов возникает вопрос: работают ли текстовые факторы ранжирования в принципе сейчас, в эпоху накрутки поведенческих? Как они на самом деле учитываются нейросетями и как это использовать оптимизатору, рассказал Владислав Папернюк, кандидат технических наук, ведущий телеграм-канала SEO Python 2 Нейрона, owner в sait-activator и разработчик нейронных сетей.

Как работают текстовые факторы ранжирования в 2024-2025 гг.

Обновленный алгоритм ранжирования Яндекса — YATI (Yet Another Transformer with Improvements) — основан на архитектуре нейросетей-трансформеров. Он анализирует смысловые связи в тексте, улучшая качество поисковой выдачи. Обучение YATI проводилось на текстовых документах методом маскирования. Таким образом, тексты остаются основой семантического поиска, это по-прежнему базовый фактор ранжирования.

Любой текстовый анализ проводится по следующей схеме:

текст;
его оцифровка;
обработка цифр в формулах;
результат.

Рассмотрим пошагово, где взять данные для анализа.

1. Тексты. Их можно брать с сайтов из топа, из сниппетов поисковых систем, из коллекций текстов. Для экспериментов ниже использовалась база Национальный корпус русского языка (ruscorpora.ru).

2. Цифры. Здесь можно использовать значения показателей, которыми оперируют нейросети, например:

векторы One-Hot Encoding — метод представления текстов, где каждое слово преобразуется в бинарный вектор, например, 0,0,1 или 0,1,0;
матрицы, которые трансформеры используют для обработки последовательностей, в том числе текстов;
эмбеддинги — числовые векторы слов или фраз, которые позволяют нейросетям распознавать их смысл и взаимосвязи;
TF — частотность термина, показывает, насколько часто слово встречается в тексте;
IDF — обратная документная частота, то есть уникальность слова в документе относительно всей коллекции.

3. Формулы. Здесь можно использовать разные количественные, векторные соотношения, а также TF/IDF — статистический метод, который оценивает значимость слова в тексте относительно всего массива документов.

4. Результат: таблицы с ключевыми фразами и словами, ТЗ на копирайтинг, рекомендации по внедрению текстовых факторов на сайт или его страницы.

Мнение эксперта

Владислав Папернюк, owner в sait-activator:

«Раньше большинство SEO оптимизаторов практиковали следующий метод: взять сайты из топа, посчитать ключи и воспроизвести на своем ресурсе их медианное количество или чуть больше. Но сейчас на позициях ощутимо отражается авторитет домена (так называемые «жирные хосты»), накрутка поведенческих факторов плюс регулярная перетасовка выдачи, которую делает «Многорукий бандит» Яндекса. Другой вариант — посчитать TF/IDF и применить его с помощью вероятностного алгоритма ранжирования BM25. Правда, непонятно, насколько этот алгоритм актуален сейчас в Яндексе, ведь с 2016 года он применяется только для некоторых метатегов. Второй вопрос: где взять данные для TF/IDF. Также непонятно, как проверить актуальность базы документов, корректность подсчетов. И как быть с порядком слов, который тоже учитывается поисковиками? С появлением нейросетей можно сделать весь этот анализ более быстро и точно».

Как нейросети анализируют тексты

На слайде ниже показан механизм маскирования для обучения LLM (языковых моделей). CLS — токен начала предложения, SEP — токен его окончания.

Текстовый анализ1.png

В нейросеть подается предложение, где по очереди закрываются (маскируются) отдельные слова. Если нейросеть угадывает, какое слово скрыто, ее поощряют, в противном случае штрафуют. Так нейросеть выучивает связки слов и то, как они расположены.

При этом нейросеть генерирует набор цифр, превращая слово в вектор, эмбеддинг, матрицу. На картинке показали, как выглядит оцифрованный текст.

Текстовый анализ2.png

Если представить эту матрицу в виде векторов на осях координат X и Y, то по мере обучения векторы близких фраз оказываются направлены примерно в одну сторону. Например, векторы понятий «кот» и «Барсик» близки, а вектор «инжектора» смотрит в совсем другую сторону.

Текстовый анализ3.png

Далее вычисляется такой параметр, как «косинусная близость» (CS), который отражает семантическое сходство ключей. Значение CS можно определять, например, через сервис RusVectors.

Доставляем экспертный контент

Отправляем полезные статьи, советы наших специалистов, приглашаем
на отраслевые мероприятия.
Подпишитесь, чтобы первыми узнавать об эффективных методах продвижения
вашего бизнеса!

Нажимая на кнопку «Подписаться», я даю согласие на обработку персональных данных
и соглашаюсь c политикой конфиденциальности

Как работают трансформеры в поиске

Архитектура нейросетей-трансформеров построена на трех ключевых моментах:

Эмбеддинги/векторы.
Позиционное кодирование/Positional encoding.
Механизм Attention.

Про эмбеддинги и векторы как технологию кодировки слов в последовательности цифр мы рассказали в начале.

Позиционное кодирование — метод, при котором уже в код слова интегрирована его позиция в конкретном предложении. Например, сравним две фразы с ключом «пластиковые окна».

Покупайте пластиковые окна в компании Оконика со скидкой в Москве недорого с установкой и бесплатной гарантией.

CS = 0,8

В компании Оконика покупайте недорого со скидкой и установкой с бесплатной гарантией пластиковые окна в Москве.

CS = 0,73

Перетасовка слов в предложении ощутимо отразилась на косинусной близости.

Механизм Attention учитывает устойчивые связки слов. На картинке ниже зеленым выделили наиболее сильные связи между словосочетаниями.

Текстовый анализ4.png

Связь между «Ферстаппен» (гонщик Формулы-1) и «быстро едет в автомобиле» сильнее, чем между другими словами. В соседнем примере доминирует связка «Макрон» (президент Франции) — «Елисейский дворец» (президентская резиденция).

Именно таким образом Google и Яндекс понимают смысл текстов.

Как использовать LLM-модели для улучшения релевантности текстов: исследования

Мы определили, что положение слов интегрировано в эмбеддинги на уровне кода, а механизм Attention четко определяет, какие слова с чем соотносятся. Очевидно, есть некие семантически релевантные слова (SRW) для ключей, добавление которых влияет на связь текста с ключами. Может быть, имеет смысл поискать эти связки и тем самым улучшить текстовую релевантность? Владислав Папернюк провел исследование по поиску SRW-фраз (не путайте с LSI, которые связаны с тематикой в общем).

Эксперимент №1: как находить связки слов, которые улучшат релевантность текста ключу

Поиск семантически релевантных n-грамм (фраз из n слов) можно провести несколькими способами, например:

по базе текстов (правда, так мы получим много мусорных запросов);
по текстам и сниппетам в топах выдачи.

Использование выдачи позволяет отсеять мусорные фразы. После чего собранные n-граммы надо сравнить по косинусной близости с ключом. Владислав Папернюк сделал это в языковой модели LLM textEmbedding от Яндекса через бот собственной разработки, который доступен бесплатно всем желающим.

Текстовый анализ5.png

В примере основной ключ «пластиковые окна». SRW-фразы по косинусной близости распределились так, как показано на диаграмме.

Текстовый анализ6.png Близкая по смыслу семантика имеет CS 0,7 в ту или иную сторону по горизонтальной оси — это меньше, чем 0,1%. Нейтральные слова находятся на уровне примерно 0,5. Порог релевантности (например, что нужно отсекать все фразы с CS меньше 0,6) в исследовании не выявлен — очевидно, значение будет индивидуально для разных ниш. При этом добавление ключа в нейтральную фразу повышает ее CS с 0,4 до 0,7 с лишним.

Также на основании CS исследователь выделил мусорные слова, которые не имеют отношения к ключу. Обратите внимание на максимальное значение косинусной близости 0,62: о нем пойдет речь ниже.

Текстовый анализ7.png

Далее исследователь предположил, что предложения, которые находятся дальше всех от ключа по релевантности, могут искажать данные. Он убрал их и посчитал заново. Получилась более отчетливая картина с максимальной CS 0,84.

Текстовый анализ8.png

При этом вроде бы релевантная фраза «стеклопакет» влияла на CS не так сильно, как более нейтральное слово «интерьер». То есть без расчета угадать, какой конкретно ключ улучшает текстовую релевантность, нереально.

Перезагрузка SEO-продвижения

Как улучшить продажи с вашего сайта и повысить его видимость в интернете? Начните с SEO-аудита!

Эксперимент №2: какая LLM лучше находит SRW

Логично предположить, что языковые модели не одинаково эффективно способны подсчитать семантическую близость. Владислав Папернюк в своих исследованиях использовал четыре модели:

textEmbedding от Яндекс;
Gecko-001 от Google;
Ada от ChatGPT;
GigaChatEmbeddings от SberAI.

Далее он провел анонимную асессорскую оценку результатов через опрос SEO-специалистов. Были использованы три ключа, к ним подобраны 253 пары.

Мнение эксперта

Владислав Папернюк, owner в sait-activator:

«Я бы здесь не расставлял на первое и второе места, а разделил бы первое место между Сбером и Яндексом.

Дело в том, что Сбер лидировал примерно до середины эксперимента, и только под конец Яндекс его немного обошел».

Выводы

Текстовые факторы учитываются при ранжировании.
SRW-семантику можно взять напрямую из языковых моделей.
Добавление SRW, как правило, увеличивает косинусную близость пары «ключ»/«текст». При этом нет четкой зависимости между значением CS пар «ключ»/«SRW» и «ключ»/«текст».
Не замечена зависимость косинусной близости от расстояния между ключом и SRW в рамках одного предложения.
Сильное влияние оказывает окружающий текст. Добавление слева и справа нерелевантного текста сильно уменьшает CS.
Абсолютных пороговых значений для SRW не существует.
SEO-специалисты посчитали, что SRW лучше всего находит модель textEmbedding от Яндекса. Самые близкие результаты показали Яндекс и Gigachat от Сбера, худший — LLM Google.

Статья

SEO-аналитика с помощью BI: “волшебная палочка” для отчетности бизнеса

#SEO, #аналитика

Статья

Исследования «Ашманов и партнеры» – актуальные данные и аналитика рынка

#SEO, #аналитика

Статья

Проверка внешних ссылок на сайт

#SEO, #аналитика

Татьяна Минина

Копирайтер • Редактор блога

Профессиональный журналист, копирайтер, член Союза Журналистов России, автор более 6000 публикаций в СМИ и контентных проектах. Сфера профессиональных интересов: digital-маркетинг, журналистика, SEO, ЗОЖ. Образование: факультет журналистики МГУ им.Ломоносова, университет интернет-профессий "Нетология".

Владислав Папернюк

Owner, sait-activator • Приглашенный эксперт

Кандидат технических наук, ведущий телеграм-канала SEO Python 2 Нейрона, owner в sait-activator и разработчик нейронных сетей.

Теги: SEO, аналитика

Оставьте заявку на консультацию

Если вы хотите проконсультироваться или получить коммерческое предложение, то заполните данную форму. Чем больше подробностей вы укажите, тем лучше наш эксперт подготовиться к разговору с вами, а значит общение пройдет продуктивно для всех. Конфиденциальность информации гарантируем!

Представьтесь, пожалуйста

Компания

Сайт

Электронная почта

Телефон

Текст сообщения

Нажимая на кнопку «Отправить», я даю согласие на обработку персональных данных и соглашаюсь c политикой конфиденциальности