Что такое p-value: объяснение без формул
Вы запустили A/B тест. Конверсия в тестовой группе — 5.3%, в контрольной — 5.0%. Разница 0.3 процентного пункта. Вопрос: это реальное улучшение или просто случайность?
p-value — это ответ на этот вопрос. Точнее, на его часть.
Аналогия: монетка
Вам дали монетку и сказали: «она честная». Вы подбросили 10 раз — выпало 7 орлов. Это подозрительно, но возможно. Подбросили 100 раз — выпало 70 орлов. Теперь вы почти уверены: монетка нечестная.
p-value — это как раз та самая «подозрительность»: насколько вероятно получить 70 из 100 орлов, если монетка честная? Ответ: p ≈ 0.00004 — крайне маловероятно. Значит, скорее всего, монетка нечестная.
Что значат конкретные значения p-value
| p-value | Интерпретация | Что делать |
|---|---|---|
| p < 0.01 | Очень сильные доказательства. Вероятность случайности менее 1%. | Можно уверенно принимать решение |
| p < 0.05 | Стандартный порог. Вероятность случайности менее 5%. Принято считать «статистически значимым». | Общепринятый порог для принятия решений |
| 0.05 < p < 0.10 | Слабые доказательства. Есть намёк на эффект, но данных недостаточно. | Продолжить тест или собрать больше данных |
| p > 0.10 | Нет доказательств. Разница вполне объяснима случайностью. | Нельзя утверждать, что эффект есть |
Как правильно интерпретировать p-value
Ошибки I и II рода: два типа промахов
При принятии решений на основе p-value можно ошибиться двумя способами. Понимание этих ошибок — ключевое на собесе.
Полезная аналогия: представьте детектор дыма. Ошибка I рода — ложная тревога (пригорел тост). Ошибка II рода — пропущенный пожар (детектор не сработал). Обе плохи, но по-разному.
α, β и мощность теста
| Параметр | Что это | Типичное значение |
|---|---|---|
| α (альфа) | Вероятность ошибки I рода. Порог p-value, при котором мы отвергаем нулевую гипотезу. | 0.05 (5%) |
| β (бета) | Вероятность ошибки II рода. Шанс не обнаружить реальный эффект. | 0.20 (20%) |
| Power (мощность) | 1 − β. Вероятность обнаружить эффект, если он есть. | 0.80 (80%) |
| MDE | Минимальный детектируемый эффект. Наименьшее изменение, которое тест способен обнаружить. | Зависит от задачи |
5 заблуждений про p-value
Нет. p-value — это вероятность данных при условии отсутствия эффекта, а не вероятность того, что эффекта нет. Это кажется одним и тем же, но математически — разные вещи. Вероятность ошибки зависит ещё и от базовой частоты реальных эффектов (Байес).
Нет. Отсутствие доказательств — не доказательство отсутствия. p = 0.15 может означать, что эффект есть, но выборка слишком мала, чтобы его обнаружить. Говорите: «мы не обнаружили статистически значимого эффекта», а не «эффекта нет».
Нет. p-value зависит от размера выборки. На миллионе пользователей даже разница в 0.01% может дать p < 0.001. p-value говорит о статистической значимости, а не о практической значимости. Всегда смотрите на размер эффекта (например, +0.3 пп к конверсии) рядом с p-value.
Нет. Это peeking problem. Если вы проверяете p-value каждый день и останавливаете при первом p < 0.05 — реальный уровень ложных тревог будет не 5%, а 20–30%. Размер выборки нужно зафиксировать заранее — и дождаться его набора.
Нет. Разница между p = 0.04 и p = 0.06 не является статистически значимой. Порог 0.05 — не обрыв, а условная граница. Тесты с p = 0.04 и p = 0.06 говорят примерно одно и то же: есть слабые доказательства эффекта.
p-value в контексте A/B тестов
В продуктовой аналитике p-value чаще всего встречается в A/B тестах. Вот как все понятия связываются в одну картину:
Доверительный интервал: что смотреть вместе с p-value
p-value говорит «есть ли эффект?», а доверительный интервал говорит «какого размера эффект и с какой неопределённостью?». Пример: конверсия тестовой группы выше на 0.3 пп, 95% доверительный интервал: [0.05 пп; 0.55 пп]. Это значит: эффект, скорее всего, от 0.05 до 0.55 пп. Если нижняя граница > 0 — эффект статистически значим (и p < 0.05).
Множественное тестирование: проблема множественных сравнений
Если вы тестируете 20 метрик одновременно при α = 0.05, ожидайте, что одна из них покажет p < 0.05 чисто случайно (20 × 0.05 = 1). Это называется проблема множественных сравнений. Решения: коррекция Бонферрони (делите α на количество сравнений), FDR-коррекция, или определите заранее одну primary метрику.
Вопросы про p-value на собесе в BigTech
- Что такое p-value? Объясните простыми словами, как будто я — PM без статистического бэкграунда.
- В чём разница между статистической значимостью и практической значимостью?
- Что такое ошибки I и II рода? Приведите пример из продуктовой аналитики.
- Тест запустили, через 3 дня видим p = 0.03. Можно ли останавливать? Почему?
- Мы тестировали 15 метрик. Одна показала p = 0.02. Это значимый результат?
- p-value = 0.06. Ваши действия? Можно ли раскатывать?
- Как связаны p-value, доверительный интервал и размер выборки?
- Что такое мощность теста (power)? Почему 80% — стандарт?
- Как бы вы объяснили руководителю, что тест не показал значимого результата, но это не значит, что фича бесполезна?
Связанные материалы
Главное про p-value
p-value — это не вероятность того, что ваша гипотеза верна. Это вероятность увидеть такие данные, если эффекта нет. Маленький p-value — повод думать, что эффект реален. Но одного p-value недостаточно: смотрите на размер эффекта, доверительный интервал, guardrail-метрики и контекст.
На собеседовании от вас ждут: умение объяснить p-value без формул, знание ошибок I и II рода, понимание peeking problem и множественных сравнений — и способность перевести это на язык бизнес-решений.
Следующий шаг: попробуйте объяснить p-value коллеге или другу за 2 минуты. Если вам удалось обойтись без слов «нулевая гипотеза» — вы поняли тему.