Алгоритм выбора за 4 вопроса
Q1
Какая метрика? Если бинарная (купил/нет, кликнул/нет) — иди к
Z-test пропорций, χ², Fisher's exact. Если непрерывная (revenue, time-on-site) — Q2. Если ratio (CTR на сессию, ARPU) — сразу к delta-method или bootstrap.
Q2
Сколько наблюдений? Если в каждой группе ≥ 1000 — t-test почти всегда работает (CLT). Если < 50–100 на группу и распределение тяжёлое —
Mann–Whitney или permutation.
Q3
Распределение тяжёлое? Revenue, session duration, скачки покупок — почти всегда тяжёлое. На больших выборках это ОК для t-test, на маленьких — берём
Mann–Whitney или bootstrap.
Q4
Юнит наблюдения = юзер? Если в выборке несколько строк на юзера (события, сессии) — это уже не iid. Берём
delta-method на ratio или bootstrap по юзерам, иначе p-value соврёт.
Сводная матрица
| Тест | Тип метрики | Допущения | Размер выборки | Типичный кейс |
|---|---|---|---|---|
| Welch's t-test | Continuous | Приблизительно нормальные средние (CLT работает) | ≥ 30 на группу, лучше ≥ 1000 | ARPU, time-on-site по юзерам |
| Mann–Whitney U | Continuous | iid, не сравнивает средние, сравнивает распределения | Любая, особенно < 100 | Маленькая выборка, ассиметричное распределение |
| Z-test пропорций | Proportion | Бинарная метрика, np ≥ 10 и n(1−p) ≥ 10 | ≥ 100 на группу | CR в покупку, click rate |
| χ² (chi-square) | Proportion | Категориальные, ожидаемая частота ≥ 5 в каждой ячейке | ≥ 50 на ячейку | Сравнение нескольких групп / категорий |
| Fisher's exact | Proportion | Без допущений по размеру (точный) | Любая, особенно < 50 | Маленькая выборка с конверсиями |
| Delta-method | Ratio | Большая выборка, юзер-уровень | ≥ 1000 юзеров | CTR, ARPU, AOV — где числитель и знаменатель оба зависят от юзера |
| Bootstrap | Universal | Только iid (выборка репрезентативна) | Любая | Медианы, перцентили, любой нестандартный статистик |
| Permutation test | Universal | Только обмен меток (sharp null) | Любая, дорогой по CPU на больших | «Золотой стандарт» — когда хочется без допущений |
| CUPED-corrected t | Continuous | Есть pre-period, метрика автокоррелирует | ≥ 1000 на группу | Ускорить любой A/B в 1.5–2 раза |