Машинное обучение на службе SEO-специалиста

Машинное обучение стало более доступным, теперь его могут использовать не только крупные компании и лаборатории. О том, как оно может помочь в решении бизнес-задач, Черникова Дарья (Rookee) рассказала на конференции Optimization 2017 в докладе «Машинное обучение на службе SEO-специалиста».

Предпосылки

Поисковые системы совершенствуются с помощью искусственного интеллекта. Началось это в 2009 году: Яндекс вместо традиционной формулы ранжирования внедряет собственный метод машинного обучения Матрикснет. После этого он начинает использовать нейронные сети в алгоритме «Палех». А алгоритм «Королев» помогает ориентироваться на смысл текста практически так же, как делает это человек. Все это сильно усложняет работу SEO-специалиста.

Что делать с этой информацией? Можно не верить и продолжать работать по-прежнему. Можно паниковать, а можно пытаться «раскусить» алгоритм ранжирования.

Факт в том, что с каждым годом алгоритмы будут только сложнее, и этого не стоит бояться. Машинное обучение может не только создавать проблемы SEOшникам, но и помогать им в ежедневной работе.

Машинное обучение позволяет автоматизировать некоторые рутинные операции и решать новые сложные задачи, которые требуют анализа большого количества данных.

Основные термины

Для того, чтобы понимать, о чем пойдет речь, нам нужно познакомиться с несколькими терминами, которые часто используют как синонимы.

Искусственный интеллект — широкий термин, основная идея которого в том, что машина моделирует разумное поведение. Вокруг нас много реальных примеров:

  • компьютерные программы для игры в шахматы;
  • голосовые помощники;
  • беспилотные транспортные средства.

Машинное обучение — одно из направлений искусственного интеллекта, характерной чертой которого является не прямое решение задачи, а процесс обучения. Машине на вход подаются некоторые данные, в которых она самостоятельно ищет закономерности. Задачи могут быть совершенно разными: классификация, регрессия, кластеризация. Примеры использования машинного обучения:

  • спам-фильтры;
  • рекомендации фильмов и сериалов;
  • прогноз курса валют.

На выходе получается некоторый черный ящик (модель): на вход подаются данные, на выходе получаются какие-то результаты. Получить такую модель можно, используя разные методы машинного обучения: линейную регрессию, решающее дерево, метод опорных векторов, градиентный бустинг, нейронные сети.

Нейронная сеть — некоторая машинная интерпретация мозга человека, в которой находятся миллионы нейронов и которые некоторым образом взаимодействуют между собой. Есть большое количество архитектур нейронных сетей, которые описывают взаимодействие между нейронами. Например, в задачах компьютерного зрения и распознавания речи.

Процесс обучения

Основная проблема в том, что вы говорите новому клиенту о пользе услуги SEO без конкретных цифр. В лучшем случае, вы обещаете ему увеличение продаж или трафика на какую-то цифру, прописанную в скрипте. Это плохо для обеих сторон, потому что клиент, не получив обещанного результата, откажется от ваших услуг, но это можно исправить, если на старте показать клиенту более точный прогноз.

Самое простое, что можно сделать: найти отношение SEO-трафика к среднему трафику в контексте. На момент захода клиента смотреть его трафик по контексту и рассчитывать трафик для SEO. Но сайты могут быть совершенно разные по тематике, по специфике спроса, по развитости. Можно попробовать решить эту проблему логически — проанализировать данные и создать простые правила. 

А можно позволить сделать это машине, которая найдет более сложные зависимости. Для этого потребуется выделить и разметить признаки, которые характеризуют сайт и взять текущий трафик из разных каналов.

После подготовки данных необходимо обучить модель прогнозировать процент или количество конверсий при заданных параметрах. При этом можно использовать любые методы обучения, в том числе нейронные сети. Универсального метода для всех случаев нет, аналитик использует разные методы, а затем выбирает те, которые дали лучшее качество.

После продажи услуги клиенту, требуется создать для него семантическое ядро. Есть много сервисов, которые решают эту задачу. Они обычно подбирают большое количество запросов, схожих по тематике. Затем специалист просматривает полученный список запросов, удаляя плохие. Что может быть плохим запросом? Например, он содержит товар, который соответствует тематике, но его нет на сайте.

Можно автоматизировать шаг фильтрации — разметить примеры хороших и плохих запросов. Нужно попросить своего самого лучшего сотрудника это сделать — при успешном обучении вы получите модель, которая стабильно выдает результаты, похожие на идеальный вариант.

Затем потребуется для каждого запроса придумать и разметить некоторые параметры:

  • частотность;
  • геозависимость;
  • коммерческий/информационный сайт;
  • точное вхождение запроса на сайте;
  • не менее 3 результатов поиска по сайту в Яндексе;
  • процент слов запроса в title или заголовках страницы.

Далее обучаем и используем модель. В процессе обучения могут возникнуть проблемы, и модель может работать хуже, чем специалист. Часто это можно решить, придумав большее количество параметров для обучения.

Помимо релевантности сайту, у запроса можно определить некоторые метрики качества:

  • конверсионность;
  • трафик при нахождении в топе;
  • сложность продвижения;
  • скорость продвижения.

Эти метрики специалист не может оценить при составлении семантического ядра. И если вы попросите ваших лучших специалистов выбрать конверсионные запросы, а затем сравните их ответ с фактом, то вы увидите, что они не совпадают. На этот показатель влияет огромное число факторов, которые человек не в состоянии проанализировать.

Можно создать модель, которая будет с некоторой вероятностью определять, конверсионный запрос или нет.

Для прогнозирования конверсии потребуется придумать и разметить параметры для обучения. Чем лучше параметры описывают метрику, тем больше вероятность успеха. Методы обучения уже вторичны.

Возможные признаки:

  • текущая позиция;
  • частотность;
  • наличие популярных доменов в выдаче;
  • цена запроса в контексте;
  • поведенческие факторы из органики.

Следующий этап — подбор страниц под запросы. На этом этапе либо выделяются существующие страницы, либо будут создаваться новые. Есть два подхода, каждый из которых имеет свои недостатки:

  • поиск по сайту (ручной или автоматический) + оценка специалиста;
  • кластеризация запросов + подбор страниц под каждый кластер.

В первом случае, если сайт не проиндексирован, поиск по сайту не найдет подходящих страниц. Во втором кластеризацию обычно проводят по результатам выдачи по запросу, при этом структура сайта клиента никак не учитывается. Оба подхода требуют активного участия специалиста и отнимают много времени. Можно поступить следующим образом:

  • Собираем к запросу страницы, которые потенциально могут подойти. 
  • Отдаем размечать эти пары человеку. Размечаем признаки, основанные, в первую очередь, на релевантности. 
  • Получаем модель, которая определяет, подходит ли страница под запрос. Но модель сама по себе бесполезна, нужно реализовать поиск страниц-кандидатов (например, поиском по сайту в Яндексе) и разметить их. 
  • Проводим дополнительную кластеризацию для запросов, для которых ни одна страница сайта не является подходящей. Это нужно, чтобы специалист видел, сколько страниц ему нужно создать. При этом синонимы должны определяться в один кластер — для этого тоже есть инструмент, оценивающий схожесть двух слов методами машинного обучения.
  • Следующий этап работы специалиста — непосредственно оптимизация страницы. Идеальный вариант — рекомендации, понятные человеку, но с текущим алгоритмом поисковых систем это невозможно.

Проблема процесса оптимизации — его длительность. Страница дорабатывается, после этого необходимо дождаться индексации, и только через несколько недель можно оценить эффект от доработок. Но можно спрогнозировать, даст доработка эффект или нет. Для обучения можно использовать статистику изменений.

Можно попробовать обучить модель для того, чтобы она выявила закономерности в значимости доработок, например:

  • увеличить число вхождений ключевиков с 1% до 2%, это не дало эффекта,
  • с 1% до 5% — сказалось негативно,
  • добавление еще 200 тематичных слов дало прирост по позициям.

Правила будут не настолько простыми, поэтому интерпретировать их не получится. После доработок специалист может получить прогноз эффекта от его работы: тогда можно будет не отправлять доработки на сайт, если прогнозируется ухудшение позиций.

Вместо заключения

Требуется сказать, что качество всех моделей обычно значительно хуже 100%. Часто такое происходит из-за неполноты информации, которой мы владеем. Но плохое, на первый взгляд, качество не всегда означает отказ от модели. Всегда нужно сравнивать текущее состояние по проблеме с качеством модели. Например, сейчас только 20% первичных доработок приводят к улучшению позиций, а модель показывает качество 60%. В этом случае, пусть качество далеко от идеала, использование модели значительно улучшит отработку.

22.12.2017

Следите за нашими новостями

Подпишитесь на рассылку, и мы будем приглашать вас на наши мероприятия и делиться советами экспертов компании. Рассылка «Практика интернет-маркетинга» выходит дважды в месяц, в ней мы публикуем статьи о продвижении брендов в Интернете, делимся репортажами с крупных отраслевых событий и отвечаем на вопросы читателей.
Спасибо

Для завершения подписки вам необходимо перейти по ссылке,
присланной по указанному адресу email.

Произошла ошибка

Пожалуйста, попробуйте еще раз