Продвигаем бизнес в Интернете с 2001 года

8 фактов про АБ-тестирование, которые сделают вашу контекстную рекламу эффективнее

Сработает объявление или нет? Увеличивать бюджет на рекламную кампанию или перераспределить его? АБ-тестирование даст точный ответ, но только если вы проведете его правильно! Как настроить АБ-тестирование и избежать распространенных ошибок, рассказал Алексей Авдеев, Performance Group Head в «Ашманов и партнеры».

Последнее обновление: 21 февраля 2023 года
7677

Время прочтения: 12 минут

Тэги: контекстная реклама


О чем статья:
  • Какие проблемы контекстной рекламы можно решить при помощи АБ-теста;
  • Инструменты тестирования и их настройка;
  • Как генерировать гипотезы;
  • Выбор метрик для анализа и интерпретация результатов 
  • 9 самых распространенных ошибок АБ-тестирования.

 
Кому полезна статья?
  • Контекстологам;
  • Маркетологам и аналитикам;
  • Руководителям бизнеса, планирующим закупку контекстной рекламы;
  • Руководителям отдела маркетинга.

Внедрять или не внедрять в контекст то или иное изменение? Эту традиционную проблему специалиста по контекстной рекламе успешно решает такой инструмент маркетингового исследования, как АБ-тестирование. Однако при неправильном использовании он не даст достоверный результат. Расскажем, как правильно проводить эксперименты с АБ-тестами и увеличить эффективность контекстной рекламы.

Что может АБ-тестирование?

АБ-тестирование — метод проверки гипотез, когда двум равным аудиториям показывается два разных варианта рекламы, посадочных страниц и т.п. Он широко применяется не только в контекстной рекламе, но даже за рамками digital-маркетинга.

210420 1.png

Кейс с АБ-тестированием: крупный e-commerсe (название не раскрывается согласно NDA)

С января по май нами было получено почти 6 млн визитов, закупленных в Яндекс.Директе. На графиках – динамика конверсии по транзакциям в разбивке по рекламным каналам. Мы видим уверенный рост и позитивную линию тренда. Однако именно заметные переломы на графике отражают результаты тестирования и их внедрение в основные рекламные каналы.

сайт-NDA.jpgРезультат был получен благодаря тому, что мы не просто перераспределяли бюджет. Сначала мы генерировали гипотезы, что можно улучшить в рекламных кампаниях и какой потенциальный результат от этого получить. Затем гипотезы были сегментированы, среди них выделены приоритетные и они были подвергнуты тестированию. После чего становилось понятно, оправдано ли их внедрение в кампании или нет.

Когда и где:
10 октября – онлайн-день
17-18 октября – офлайн-дни в Сколково

Optimization-2024 – крупнейшее практическое мероприятие, которое целиком и полностью посвящено продвижению бизнеса в интернете.

Каждый год собираем самых интересных спикеров и самые горячие темы и обсуждаем, как нам жить в онлайн-пространстве, когда правила игры и потребности пользователей постоянно меняются.

На конференции вас ждёт 20 секций и более 70 докладов от ведущих экспертов отрасли!

Что можно протестировать через АБ-тестирование?

Все, что используется в рамках рекламных систем Google Ads и Яндекс.Директ, может быть протестировано. Причем в этих системах есть сами инструменты тестирования.

210420 2.png

Можно тестировать как сами объявления, так и их составные части: заголовки, вторые заголовки, тексты, быстрые или обычные ссылки. Например, если мы закупаем трафик по брендовым запросам и у нас есть возможность лить трафик на главную страницу или страницу акции, необходимо проверить, какая из посадочных страниц дает более позитивный результат.


Мнение эксперта

Алексей Авдеев, Performance Group Head в «Ашманов и партнеры»:

avdeev45.jpg
Тестирование стратегий — одно из самых популярных у нас в компании. Например, когда мы переводим рекламные кампании с ручных стратегий на автоматические. Чтобы убедиться в корректности такого перевода, мы сперва проводим тестирование. Это закрепляет уверенность в благополучии перевода. В одном из наших кейсов благодаря тестированию мы оптимизировали бюджет на 10%, сохранив при этом объемы целевого трафика. Конечно, мы тестируем ставки. Например, если мы видим, что мобильные устройства конвертируют лучше, вариант «срочно поднять ставки» далеко не лучший — ведь мы не знаем, что на самом деле произошло. Возможно, просто были майские праздники, люди уехали на дачи, на отдых на открытом воздухе и в принципе больше выходили в сеть с мобильных устройств. Тестирование позволяет убедиться, что это не случайное временное совпадение, а закономерность.


Расписание показов — еще один популярный вид теста. Например, мы закупаем трафик круглосуточно и хотим понять: утром, днем или вечером он лучше окупается. Можно сделать АБ-тест на эти три сегмента и оценить эффективность закупки трафика в каждом из них.

Через тестирование лучше проводить и аудиторные корректировки. Например, когда у нас есть визиты на сайт, которые закончились отказами, мы вносим гипотезу, что не хотим закупать трафик у таких пользователей. Допустим, социально-демографический срез показывает, что мужчины 35-45 лет покупают лучше, чем женщины 55-60. Стоит ли на самом деле корректировать аудиторию, или это случайный фактор, проверяем через эксперимент.



Эксперименты в Яндекс.Директ: разбираем пошагово

  1. Заходим в сервис Яндекс Аудитории на вкладку «Эксперименты».
  2. Выбираем «Новый эксперимент», даем ему название.
  3. Выбираем номер счетчика, по которому будем делить аудиторию.
  4. Даем названия сегментам аудитории и присваиваем им значение доли. Нужно понимать, что деление аудитории в эксперименте отличается от той, что мы обычно получаем в сегментах. Здесь важна гомогенность аудитории в сегментах, чтобы кампании тестировались на абсолютно одинаковой выборке. Правда, проверить мы это практически не можем, остается доверять Яндексу.
  5. Выбираем «Создать эксперимент».
  6. Создаем как минимум две копии рекламной кампании, которую хотим проверить. Две, а не одну, потому что старая рекламная кампания, уже работает и набрала статистику, и сравнение ее с совершенно новой копией не даст достоверности. Нужно приостановить текущую рекламную кампанию и запустить два новых дубликата с разделенной аудиторией.
  7. После создания копий в одну из них вносим те корректировки, которые собираемся проверять.
  8. Указываем дату запуска. Соответственно, в старой рекламной кампании нужно выставить дату окончания накануне запуска новых. Старая и новые не должны крутиться одновременно и конкурировать.
  9. Выбираем «Параметры рекламной кампании» —> «Дополнительно» и указываем, по каким настройкам кампания должна показываться.

Осталось дождаться, когда наберется достаточное количество данных, чтобы сделать статистически значимые выводы.

Проекты и эксперименты в Google Ads

Здесь все происходит примерно так же, как в Яндекс Директ. В личном кабинете Google Ads заходим в раздел «Проекты и эксперименты». Создаем тестовую кампанию, копии, вносим тестируемые корректировки, Переходим в раздел «Эксперименты в кампаниях» и создаем эксперимент. Определяем дату начала и окончания (на забываем приостановить старую!). Распределяем бюджет: логично сделать это поровну, по 50% на копию кампании. Запускаем, и через некоторое время получим данные для интерпретации.

Где брать гипотезы для тестирования?

Гипотезы определяют, что именно мы тестируем, как будем оценивать влияние на результат. Полезным будет знание трендов контекстной рекламы 2021. Так же важно определить, по каким метрикам будем оценивать эффективность, но об этом чуть ниже.

210420 3.png

Самое очевидное — протестировать различные варианты объявлений. Например, какой второй заголовок лучше конвертируется: «Консультация эксперта 0 рублей» или «Бесплатная консультация эксперта». Можно строить гипотезы, исходя из результатов статистики рекламной кампании за прошлый период. Например, в Директе мы анализируем распределение трафика по регионам. Видим, что трафика из Москвы больше, но он дороже. Создаем гипотезу: закупить больше трафика в регионах в надежде, что он там дешевле и лучше окупится. Другой вариант: обнаруживаем, что трафик с Android-устройств окупается хуже, чем с iOS. Гипотеза — переориентировать часть трафика с Android на iOS.

И еще один вариант — метод мозгового штурма (брейншторминг): сесть командой и придумывать гипотезы. Но, как правило, сгенерированные таким образом идеи все равно идут из описанных выше источников.

Так же можно протестировать рекомендации рекламных систем. Если, например, Google Ads рекомендует тратить больше денег на такую-то кампанию, мы можем провести эксперимент, чтобы убедиться, что действительно это стоит сделать.


Мнение эксперта

Алексей Авдеев, Performance Group Head в «Ашманов и партнеры»:

avdeev45.jpg
В поиске гипотез помогут коллеги и конкуренты. Например, можно провести аудит конкурентов и посмотреть, какое УТП использует конкурент. Или видим, что конкурент использует отличное от нашего расписание показов, например, не рекламируется по выходным или вечером. Можем проверить, стоит ли нам так же изменить свой режим показа. Или замечаем, что в обеденное время конкурент всегда на первых позициях, а у нас позиция ниже. Можно провести эксперимент, чтобы проверить эффективность повышенных трат на более высокую позицию в рамках данного временного промежутка. Затем читайте, слушайте чужие кейсы. Они зачастую дают гипотезы, которые можно применить в рамках своих рекламных кампаний. И, конечно, мощный инструмент поиска гипотез — просмотр вебвизора, прослушивание записей звонков, общение с коллегами из отдела продаж. Может быть такой инсайт от отдела продаж, например, что в понедельник утром люди чаще звонят, но реже покупают. Все это подскажет, что спрашивают покупатели, что для них важно, что стоит отразить в кампании. 


Как выбирать метрики для анализа эффективности рекламной кампании?

Это один из ключевых моментов для понимания, к чему приведет изменение рекламных кампаний и за какими параметрами следить.

Представьте себе ситуацию: продвигаем юридические услуги, которые продаются через бесплатную консультацию, при этом минимальный чек 30 000 рублей. Запускаем АБ-тест двух объявлений, в одном пишем «Бесплатная консультация», во втором «Юридические услуги от 30 000 рублей». Если ориентироваться на количество конверсий, то первое объявление работает лучше: на бесплатную консультацию кликают чаще. Но если сделать ключевой метрикой количество заказов и стоимость заказа, то вариант «Бесплатная консультация» будет показывать себя хуже.  Пришедшие на нее пользователи удивляются, что составление договора стоит, допустим, от 50 000 рублей, и выручка падает.

Другой пример: продажа сантехники через e-commerce. Создаем одно объявление «Бесплатная доставка», а другое «Скидка 20% при первой покупке», не очень понимая, какое УТП будет работать лучше. Проводим эксперимент и видим, что количество заказов или ROI со второго варианта выше, чем с бесплатной доставки. Но впоследствии (после подсчета маржи) может оказаться, что, несмотря на выручку и количество заказов со второго варианта, из-за скидки маржа падает, и мы можем даже уйти в убыток.

выбор-метрик.jpgВот пример тестирования автоматической и ручной стратегий. Несмотря на сходные цифры по визитам и посетителям, мы видим увеличение выручки почти в 3 раза в автоматической стратегии. Правда, тут мы не знаем стоимость трафика, возвратность инвестиций, где выше маржинальность и т.п. Но по крайней мере на первый взгляд, автоматическая стратегия показывает себя лучше в рамках данных метрик. 

ААБ тесты: проверка на достоверность и однородность аудитории

Когда мы создаем две копии рекламных кампаний, полезно убедиться, что аудитория, которую мы тестируем, сохраняет однородность. В ААБ-тесте мы делим аудиторию на 3 части и в двух запускаем одинаковые рекламные кампании со старыми настройками. По двум одинаковым версиям данные должны не отличаться, если отличаются — тест недостоверен.

При желании можно сделать даже ААББ-тест, поделить трафик на равные доли и убедиться, что данные по одинаковым вариантам не отличаются. Стало быть, мы проводим корректный тест и можем доверять полученным результатам. Но учтите, что чем меньшая доля трафика приходится на тестируемую часть, тем дольше ждать статистически значимого результата.

Как проверить и оценить полученные результаты?

Здесь опять-таки важна статистическая достоверность. В Яндексе и Google есть калькуляторы проверки статистической значимости эксперимента, также можно использовать калькулятор достоверности Mindbox.

В простом варианте калькулятор выполняет две задачи: оценивает размер выборки, необходимый для получения статистически значимого результата,  и проверяет итоги тестирования. Для более глубокой проверки необходимо привлекать аналитиков, знакомых с математической статистикой.

абтест-майндбокс.jpgНа рисунке показан короткий АВ-тест с размером выборки для обоих вариантов по 100 посетителей. Количество конверсий, соответственно, 14 и 20, т. е. результат отличается примерно на треть.

Подвох в том, что говорить о конверсии как о величине, вычисляемой методом деления, некорректно. Так как в варианте А при выборке 101 могло бы быть уже 15 конверсий! То есть одна заветная конверсия дает порядка 10% погрешности. Поэтому следует ввести два понятия. Первое — доверительный интервал, некий промежуток, в который с вероятностью в данном случае 95% должна уложиться конверсия. Второе — достоверность теста, то есть параметр, определяющий, что мы проводим тестирование с достоверностью 95%.

И тут мы видим, что, несмотря на то, что конверсии отличаются на треть, доверительные интервалы пересекаются очень сильно, тоже примерно на треть. А это означает, что статистически вариант А значимо не хуже Б.


Мнение эксперта

Алексей Авдеев, Performance Group Head в «Ашманов и партнеры»:

avdeev45.jpg
Что в ситуации, когда, как в данном примере, достоверного различия между вариантами не выявлено? Продолжить эксперимент и увеличить размер выборки, чтобы сократить доверительный интервал. Но возникает вопрос о размере выборки, результатам которой можно доверять и иметь непересекающиеся доверительные интервалы с высокой долей вероятности. Тут следует учитывать, что, чем лучше у вас настроена рекламная кампания, тем сложнее ее оптимизировать. И тем меньшую значимость будут иметь результаты вашего теста. Обращайте внимание на разброс результатов. В один день конверсия может быть 25, а потом 12, завися от погоды, от дня недели, других закономерностей. Поэтому мы должны растянуть наш эксперимент во времени, и это даст достаточный размер выборки. 


9 самых распространенных ошибок при АБ-тестировании

210420 4.png

1. Отсутствие плана тестирования — самая распространенная ошибка. Потратьте время на документ, в котором описана гипотеза (например, перераспределить трафик на Поволжье), основания для нее (потому что Поволжье на 20% лучше окупается), рекомендации (хотим повысить бюджет на 20%). И предполагаемый результат: сейчас трафик 100 000 человек из Поволжья, значит, при повышении бюджета на 20%, мы должны получить трафик 120 000 человек. При этом планируем сохранить конверсию и среднюю стоимость чека, т.е. рост выручки на 20%.

Здесь же следует указать, по каким метрикам будем оценивать эксперимент: стоимость заказа, выручка, маржинальность и т.п. При создании прогноза по влиянию корректировок надо учитывать, что в большинстве случаев гипотезы не приводят к значимым изменениям. Создать такую гипотезу – большая удача. Но можно научиться прогнозировать такие гипотезы математическими методами.


2. Тестирование более одной гипотезы одновременно например, когда при тестировании нового объявления меняют сразу и текст, и изображение. При успехе мы не сможем понять, что сработало — картинка или текст. Изменения должны вноситься по одному, не надо в рамках одного эксперимента тестировать и смену изображения, и перераспределение трафика по регионам.

3. Внесение изменений в эксперимент во время его проведения — допустим, запущен эксперимент с корректировкой бюджета на 20% выше. Появились первые обнадеживающие результаты, и маркетолог стреимтельно решает корректировать бюджет до 30% — ведь по идее так будет еще лучше! Но это неправильно. Дождитесь статистически значимых результатов по первой гипотезе, проанализируйте данные, убедитесь, что они достоверны и тогда тестируйте другую корректировку.

4. Недостаточная выборка для тестирования — ошибка, возникающая из-за желания product-менеджера получить результат быстрее. Однако чем лучше и крупнее продукт, тем сложнее найти гипотезу, которая привела бы к существенным изменениям. Поэтому нужно ждать большее количество пользователей для проверки гипотез, а ждать очень не хочется. Между тем количество пользователей – некоторая функция от времени либо от бюджета. И надо либо потратить больше денег, либо дольше проводить эксперимент, чтобы получить статистически значимый результат. Потому что, если мы на середине тестирования видим какие-то результаты, это не значит, что они сохранятся до конца тестирования.

5. Игнорирование статистической достоверности — относится к описанным выше доверительным интервалам и т.п. Например, мы запускаем АБ-тест на сравнение по регионам и в рамках конверсии видим, что в Санкт-Петербурге конверсия 20, а в Москве 15. Делаем вывод, что в Санкт-Петербурге конверсия лучше, не проверяя ни достоверность, ни значение доверительных интервалов, ни их пересечения. Результаты такого эксперимента бесполезно использовать.

6. Тестирование на маленьком трафике — сильно удлиняет получение статистически значимых данных. Вообще при маленьком трафике АБ-тестирование не очень подходит как инструмент. Надо либо находить гипотезу, которая на порядок увеличит конверсию или выручку (но это редкость), либо использовать другие методы маркетингового исследования.

7. Анализ влияния теста только на одну метрику — приводит к тому, что не учитывается, что, например, если мы делаем скидку покупателям, то растет выручка, но падает маржа. Поэтому так важно тщательно определять метрики и считать их правильно. И проверять, что эти метрики действительно зависят от проводимых изменений. Помимо основных метрик следует выбрать второстепенные, предшествующие им по воронке. Тогда в случае, когда невозможно сделать статистически значимые выводы по основным метрикам, их можно сделать по второстепенным. Но такие метрики должны иметь корреляцию с основной.

8. АБ-тестирование в два этапа — еще одна частая ошибка. Допустим, сделан анализ статистики закупленного трафика и видно, что сегмент А лучше работает. Не дожидаясь конца эксперимента, мы перераспределяем на него бюджет и неделю наблюдаем позитивный результат. А потом выясняется, во время эксперимента коллеги из отдела медийной рекламы закупили пул брендового трафика! И доверять результату тестирования нельзя, потому что шел общий рост конверсии с performance-каналов, а в другие дни данные не будут отличаться.

9. Сдаваться на полпути — когда мы делаем тестирование на постоянной основе, например, ежемесячно, то в большинстве случаев мы не получаем ожидаемых результатов. Это нормально и это не повод прекращать делать тестирование. Если грамотно подойти к генерации и приоретизации гипотезы, правильно настраивать АБ-тесты и разумно анализировать их результаты, то график конверсии будет иметь позитивный вид и от месяца к месяцу результат будет улучшаться.

Выводы:

  • АБ-тестирование позволяет проверить все элементы рекламного объявления по отдельности. Вы можете точно узнать, что не работает, и найти точки роста.
  • Удобные инструменты для тестирования — Эксперименты — есть в обеих крупнейших рекламных системах Яндекс Директ и Google Ads. Настраивая их, следует помнить о гомогенности аудитории и о том, что нельзя сравнивать уже запущенную кампанию с новой.
  • Генерировать гипотезы для теста можно на основании статистики, сторонних кейсов, конкурентного анализа и общения с коллегами. Не следует тестировать несколько гипотез в одном эксперименте.
  • Важно не заканчивать эксперимент после первых успешных результатов, а дождаться данных по большой выборке. Так же большое значение имеет выбор нескольких основных и второстепенных метрик для анализа итогов.
  • Самые распространенные ошибок АБ-тестирования связаны со спешкой, отсутствием плана эксперимента и его изменений по ходу эксперимента.

Алексей Авдеев
Лого АиП
Алексей Авдеев
еx-Руководитель департамента платного трафикаЭксперт
Управляет контекстной, медийной и таргетированной рекламой. Занимается аккаунт-руководством, следит за производством, осуществляет экспертную поддержку каналов продаж и работает над развитием продукта. Вместе с отделом рекламы ежегодно подтверждает статус сертифицированного агентства Яндекс Директ.
Татьяна Минина
Лого АиП
Татьяна Минина
Редактор блога
Профессиональный журналист, копирайтер, член Союза Журналистов России, автор более 6000 публикаций в СМИ и контентных проектах. Сфера профессиональных интересов: digital-маркетинг, журналистика, SEO, ЗОЖ.

Вам будет интересно

Хотите обсудить ваш проект?
Напишите нам о своих бизнес-задачах, и мы предложим проверенные решения.

Доставляем экспертный контент

Мы делимся с подписчиками экспертным контентом: отправляем полезные статьи, советы от специалистов, приглашаем на вебинары. Подпишитесь, чтобы узнать больше о продвижении бизнеса в Интернете, наших мероприятиях и репортажах с крупных отраслевых событий. Выберите наиболее удобную платформу для вас и наслаждайтесь контентом!

Нажимая на кнопку «Подписаться», я даю согласие на обработку персональных данных и соглашаюсь c политикой конфиденциальности

Спасибо за подписку!

Мы отправили вам проверочое письмо — пожалуйста, подтвердите адрес электронной почты, перейдя по ссылке внутри письма.

Произошла ошибка

Пожалуйста, попробуйте еще раз