new-lvl.pro · Карточки · Статистика
Карточки // 9 тестов

Когда какой
стат-тест

Матрица «когда что брать» по типу метрики, допущениям и размеру выборки. Сначала сводная таблица для быстрого скана, ниже — карточки с деталями и Python-кодом на каждый тест.

Нажми на карточку, чтобы увидеть подробности и пример
Алгоритм выбора за 4 вопроса
Q1 Какая метрика? Если бинарная (купил/нет, кликнул/нет) — иди к Z-test пропорций, χ², Fisher's exact. Если непрерывная (revenue, time-on-site) — Q2. Если ratio (CTR на сессию, ARPU) — сразу к delta-method или bootstrap.
Q2 Сколько наблюдений? Если в каждой группе ≥ 1000 — t-test почти всегда работает (CLT). Если < 50–100 на группу и распределение тяжёлое — Mann–Whitney или permutation.
Q3 Распределение тяжёлое? Revenue, session duration, скачки покупок — почти всегда тяжёлое. На больших выборках это ОК для t-test, на маленьких — берём Mann–Whitney или bootstrap.
Q4 Юнит наблюдения = юзер? Если в выборке несколько строк на юзера (события, сессии) — это уже не iid. Берём delta-method на ratio или bootstrap по юзерам, иначе p-value соврёт.
Сводная матрица
Тест Тип метрики Допущения Размер выборки Типичный кейс
Welch's t-test Continuous Приблизительно нормальные средние (CLT работает) ≥ 30 на группу, лучше ≥ 1000 ARPU, time-on-site по юзерам
Mann–Whitney U Continuous iid, не сравнивает средние, сравнивает распределения Любая, особенно < 100 Маленькая выборка, ассиметричное распределение
Z-test пропорций Proportion Бинарная метрика, np ≥ 10 и n(1−p) ≥ 10 ≥ 100 на группу CR в покупку, click rate
χ² (chi-square) Proportion Категориальные, ожидаемая частота ≥ 5 в каждой ячейке ≥ 50 на ячейку Сравнение нескольких групп / категорий
Fisher's exact Proportion Без допущений по размеру (точный) Любая, особенно < 50 Маленькая выборка с конверсиями
Delta-method Ratio Большая выборка, юзер-уровень ≥ 1000 юзеров CTR, ARPU, AOV — где числитель и знаменатель оба зависят от юзера
Bootstrap Universal Только iid (выборка репрезентативна) Любая Медианы, перцентили, любой нестандартный статистик
Permutation test Universal Только обмен меток (sharp null) Любая, дорогой по CPU на больших «Золотой стандарт» — когда хочется без допущений
CUPED-corrected t Continuous Есть pre-period, метрика автокоррелирует ≥ 1000 на группу Ускорить любой A/B в 1.5–2 раза