Как запустить A/B тест и получить достоверный результат: кейс Adventum и Hoff

В современном мире цифрового маркетинга A/B тестирование стало одним из наиболее эффективных инструментов для оптимизации пользовательского опыта и повышения конверсии. […] Запись Как запустить A/B тест и получить достоверный результат: кейс Adventum и Hoff впервые появилась БЛОГ ADVENTUM.

Фев 19, 2025 - 11:25
 0
Как запустить A/B тест и получить достоверный результат: кейс Adventum и Hoff

В современном мире цифрового маркетинга A/B тестирование стало одним из наиболее эффективных инструментов для оптимизации пользовательского опыта и повышения конверсии. Однако, несмотря на популярность метода, многие компании сталкиваются с трудностями в его реализации и интерпретации результатов. 

Для проведения А/В тестирования есть свой набор инструментов и сервисов: Varioqub, Trisigma, Ux Rocket, Amplitude. И несмотря на то, что Amplitude больше не доступна на территории РФ, вы еще можете воспользоваться его бесплатным функционалом в рамках решения аналитических задач. 

Что же такое А/В тестирование ?

Это метод сравнения двух версий продукта, позволяет определить, какая из них лучше соответствует конкретной цели Эксперимента. 

Эксперимент может включать в себя все что угодно: от тестов на разных конверсионных воронках до необходимости контролировать основные метрики. Например, вы изменили дизайн главной страницы, и вам нужно понять, какой вариант принесет больше продаж старый или новый, и не уронит метрики.

В этой статье мы приводим «вредные советы для A/B тестирования» от Hoff, сети гипермаркетов по продаже мебели и товаров для дома, и специалистов Adventum. Как команда интернет-магазина научилась на своих ошибках, и как специалисты Adventum помогали их исправить, на примере работы с системой аналитики Amplitude. 

Частые ошибки при проведение А/В тестов

1 ошибка — проверять несколько гипотез в одном A/B тесте

На сайте Hoff запустили блок с хитами распродаж, в котором были счетчик остатков, плашка «раскупили», раздел с важными свойствами. Решили тестировать сразу все инструменты: вырастили продажи, а за счет чего это получилось — проанализировать невозможно. 

Как исправить:

  • отдельно проверить каждую гипотезу;
  • для нескольких гипотез проводить A/B/C тесты.

Любое изменение нужно тестировать отдельно, так как высока вероятность ошибиться.

2 ошибка — по тесту на одной платформе судить обо всех пользователях 

У Hoff есть сайт и приложение, которое делится на iOS и Android. Также есть разделение по устройствам. Часто продакт менеджеры не анализируют, где именно конкретное изменение увеличило метрики, и раскатывают его на все платформы. В результате на одной платформе изменение позволило вырастить метрики, а на другой — получить нулевые результаты.

Как исправить: при дизайне эксперимента закладывать тестирование на всех ключевых платформах, и отслеживать результаты на каждой из них.

Менеджеры по продукту частенько строят процесс сплитования, анализируют результаты эксперимента в разных системах, и часто забывают пролить параметр A/B теста в систему аналитики. 

Как исправить:

  • завести инструкцию, где должны быть заложены все шаги A/B теста, в том числе заведение параметра;
  • проверить на тестовой сборке, что разработчики корректно завели параметр в Amplitude;
  • в первые дни эксперимента проверять, что сплитование прошло корректно.

3 ошибка — запускать параметр раньше начала теста 

Во многих системах для A/B тестирования, кроме Amplitude Experiment, есть особенность: если вы завели A/B тест, но не включили его, система все равно начнет назначать пользователей в контрольную группу. 

Обычно, когда появляется тестовая группа, данные начинают выравниваться, но всегда остается небольшой зазор между контрольной и тестовой группами. 

Как решить:

  • с помощью инструмента Cohorts создать когорту пользователей, которые заходили с даты заведения параметра до даты старта теста, и исключите ее;
  • при анализе результатов ограничивать воронку датами проведения эксперимента.

4 ошибка — продлевать тест 

Часто бывает так, что проводят тестирование, которое не показывает статистически значимого результата. Но вместо того, чтобы закрыть тест и запускать новые гипотезы, его продляют, чтобы получить статистически значимые результаты. 

Почему так нельзя делать: в тестировании гипотез даже при идентичных группах разница в конверсиях может выходить за пределы зоны неразличимости. Это может создавать ложные сигналы, так как с каждым новым тестом повышается вероятность получить случайные различия.

Как решить: 

  • заранее определить количество пользователей, на основе которых будет оцениваться результат;
  • собрать наблюдения, подсчитать результаты и сделать вывод.

5 ошибка — радоваться ложноположительному результату

В Hoff немного обновили онбординг и получили практически двукратный рост покупок у новых пользователей — это слишком высокий результат. Чтобы найти причину такого роста, стали анализировать A/B тест по дням и нашли аномалию: фродовый трафик распределился только в одной из групп.

Поэтому если вы видите подозрительные результаты, это повод копнуть поглубже и понять, почему так произошло. 

Еще 10 способов, которые могут сломать эксперимент:

  1. Настраивать A/B тест для тестовой среды, но забыть настроить для боя;
  2. Не выпиливать старые A/B тесты из кода;
  3. Держать A/B тест меньше, чем длятся ваши периодические циклы (месячная подписка, выходные);
  4. Передавать параметр A/B теста не при открытии приложения, а позже (при загрузке главной);
  5. Запускать тестовую и контрольную группы на разные города/соц. страты;
  6. Запускать множественные сравнения (ABC/ABCD тесты) без коррекции уровня значимости;
  7. Раскатывать A/B тесты сразу на всех без проверки на малой группе;
  8. Запускать тест раньше, чем раскатать релиз;
  9. Некорректно выбирать целевую метрику;
  10. Не проверить, что 100% аудитории участвует в тесте;

У всех разный опыт, и даже самые крутые специалисты могут ошибаться. 

Когда не нужен A/B тест:

  1. На странице теста недостаточно трафика;
  2. Недостаточно времени, чтобы набрать выборку (срочный ивент, распродажа и т.д.);
  3. Мало времени на проработку дизайна A/B теста. Именно во время проработки дизайна чаще всего понимают, что A/B тест не нужен;
  4. Страница теста забита другими тестами, и новый можно провести только параллельно;
  5. Планируется протестировать много гипотез сразу; 
  6. Планируется протестировать обновление, которое напрямую не влияет на конверсию, например, NPS-опрос;

И так мы выяснили основные ошибки при проведение А/В тестирования, а также рассмотрели, когда не стоит его проводить. Теперь разберемся, как альтернативный Amplitude сервис Varioqub поможет решать аналитические задачи. 

Varioqub  — платформа для А/В тестирования, которая: 

  1. Помогает бизнесу оптимально расходовать ресурсы и зарабатывать;
  2. Агрегирует все данные в едином интерфейсе: метрики, эксперименты, запуски, информирование;
  3. Позволяет провести эксперимент за один день;
  4. Эффективно использует вычислительные ресурсы. 

Плюсы платформы : 

  • Возможность проводить эксперименты на сайтах любой сложности;
  • Сравнение различных вариантов дизайна, текста, функционала сайта или приложения;
  • Проведение экспериментов с рекламой;
  • Персонализация контента для разных групп пользователей. Контент адаптируют с учётом интересов аудитории;

Так Varioqub в Яндекс Метрике — это мощный инструмент для создания и анализа кастомизированных отчетов. Позволяет глубже понимать поведение пользователей и вносить обоснованные изменения на сайте. Помогает оптимизировать маркетинговые стратегии, улучшать пользовательский опыт, повышать эффективность сайта и прибыльность бизнеса.

Проводите А/В тесты и не совершайте распространенные ошибки вместе с командой Adventum. 

Подписывайтесь на наше аналитическое сообщество и будьте в курсе последних новостей в мире аналитики.

Запись Как запустить A/B тест и получить достоверный результат: кейс Adventum и Hoff впервые появилась БЛОГ ADVENTUM.