Планирование эксперимента:- выбираем и фиксируем метрики;
- формулируем гипотезу H0, альтернативную и выбираем MDE;
- выбираем способ подведения итогов;
- определяем alpha и beta, размер выборки и MDE;
- оптимизируем размер выборки.
Подготовка групп:- разбиваем клиентов на группы;
- проводим стратификацию, если она возможна;
- замораживаем клиентов, участвующих в кампании (контрольная и тестовая группы).
Запуск эксперимента:- проверяем статус факта воздействия;
- проверяем, что объекты из контрольной группы были без воздействия;
- контролируем заморозку клиентов;
- уточняем, как замораживается глобальная контрольная группа (если планируется ее учет в анализе).
Анализ результатов:- подготавливаем данные;
- анализируем результаты эксперимента.
Планирование эксперимента- Выбираем и фиксируем метрики
На начальном этапе важно определиться с метрикой, за которой будем наблюдать. Кажется, что это не так сложно — берем «деньги» и все. Ведь в конечном итоге цель бизнеса — растить прибыль. Но не все так однозначно. Начиная с того, что деньги бывают разные — средний чек, или сумма трат в неделю, или средняя маржа. Заканчивая тем, что на текущем этапе важнее могут быть другие метрики: CTR (click-through-rate), конверсия в покупку или удовлетворенность пользователей сервисом. К выбору метрики нельзя относиться снисходительно и необходимо определить, на какие параметры ваш эксперимент должен оказать влияние.
В целом, метрики можно разделить на три типа:
- целевая;
- прокси (опережающая);
- guardrail (барьерная).
На основе
целевой метрики принимается решение об успешности эксперимента. Это основная метрика, за которой наблюдаем.
Не всегда есть возможность ждать результатов по целевой метрике. Например, интересует результат в деньгах, но чтобы увидеть статистически значимый эффект необходимо собирать данные три месяца. Долго. Поэтому, как один из вариантов, можно рассмотреть
прокси-метрику «конверсия», для получения результатов по которой необходимо только две недели.
Прокси-метрика подбирается по историческим данным. Одна должна быть сонаправлена с целевой, т.е. меняться в ту же сторону при внешнем воздействии, что и целевая. Еще один принципиальный момент — бизнес должен быть согласен с прокси-метрикой в качестве целевой.
Guardrail-метрика — общая для всей компании барьерная метрика, которую нельзя «ронять». При запуске теста нужно удостовериться, что барьерных метрик нет или они есть, но изменение в тесте на них не влияет или влияет положительно. В качестве примера такой метрики может выступать маржа.
2.Формулируем гипотезу H0, альтернативную и выбираем MDE
Этот топик один из самых интересных и, в то же время, контринтуитивных.
При планировании эксперимента необходимо задать две гипотезы.
Гипотеза H0: при внесении каких-то изменений или запуске кампании ничего не поменяется. Это нежелательная ситуация, поэтому ее мы хотим отвергнуть. Сделать это можно только в пользу другой гипотезы, альтернативной.
Альтернативная гипотеза H1: после внесения изменений будет получен минимальный эффект (minimum detectable effect, MDE).
MDE — это граничное значение эффекта, ради которого имеет смысл вводить какие-то изменения. Если влияние изменений будет меньше заданного, то его невозможно зафиксировать в эксперименте, и практического смысла в столь маленьком эффекте нет. Если эффект будет больше — здорово, повезло, его тоже отметим.
Как задать MDE — вопрос хороший. Можно опираться на исторические запуски похожих изменений, учесть издержки на время/деньги/скидки, которыми придется пожертвовать.
Не стоит относиться к формальности гипотез снисходительно. Если отвергнуть гипотезу Н0 не получилось, то это не значит, что она верна. С точки зрения математической логики, суждения «Н0 не опровергнута» и «Н0 верна» не тождественны друг другу.
Кроме того, если вы отвергли гипотезу Н0 в пользу альтернативной, это значит, что полученный в эксперименте эффект может оказаться и больше, чем мы закладывали как MDE.
А еще существуют ошибки при принятии решения. О них чуть далее.
3.Выбираем метод тестирования
Тесты бывают непараметрические и параметрические.
В
непараметрических тестах анализируются распределения, которые не параметризуются при анализе — ни средним, ни стандартным отклонением, ни какими-либо другими параметрами. Эти методы в статье я не буду рассматривать, а обращу ваше внимание на два других вида тестов.
В
параметрических тестах необходимо оценивать среднее и стандартное отклонение. Если обратиться к формулам, то везде в них фигурирует разность средних. Такие тесты помогают оценить, произошел ли сдвиг в среднем значении определенной метрики — именно этот вопрос и интересен в большинстве случаев.
Примеры параметрических тестов:
- Ztest;
- Ttest Student;
- Ttest Welch;
- ANOVA /ANCOVA.
Распространенное заблуждение, что Ttest применим исключительно к нормальным распределениям. Информацию о Ttest можно найти
здесь и
здесь. Огромное преимущество Ttest — он быстрый. Очень.
Если вам надо сравнить не просто среднее двух распределений, а что-то более специфичное, например, моду или определенный персентиль, обратите внимание на метод Bootstrap. Принцип его работы:
- из выборок A и B собираем подвыборки с повторением;
- на каждой из подвыборок считаем интересующую нас метрику;
- рассчитываем разность полученных метрик.
Повторяем такую операцию много раз и в итоге получаем набор разностей метрик — распределение разностей.
Теперь необходимо оценить, где находится число 0 в этом распределении. Если тестировалась гипотеза, что «новое» распределение будет сдвинуто вправо (эффект положительный) относительно «старого» распределения, то распределение разностей метрик тоже должно быть сдвинуто вправо относительно 0.