new-lvl.pro · Статьи · Статистика
Статья // 11 мин чтения

p-value
простыми словами:
что это на самом деле

Без формул и «нулевых гипотез». Интуитивное объяснение p-value, как его правильно интерпретировать, 5 частых заблуждений и связь с A/B тестами — для продуктового аналитика.

Что такое p-value: объяснение без формул

Вы запустили A/B тест. Конверсия в тестовой группе — 5.3%, в контрольной — 5.0%. Разница 0.3 процентного пункта. Вопрос: это реальное улучшение или просто случайность?

p-value — это ответ на этот вопрос. Точнее, на его часть.

// Определение простыми словами
p-value — это вероятность получить такую же или ещё большую разницу между группами, если на самом деле разницы нет (то есть изменение не работает).
Другими словами: если бы ваша фича ничего не меняла, какова вероятность увидеть ту разницу, которую вы увидели? Если эта вероятность очень маленькая (p < 0.05), мы говорим: «скорее всего, разница реальная».

Аналогия: монетка

Вам дали монетку и сказали: «она честная». Вы подбросили 10 раз — выпало 7 орлов. Это подозрительно, но возможно. Подбросили 100 раз — выпало 70 орлов. Теперь вы почти уверены: монетка нечестная.

p-value — это как раз та самая «подозрительность»: насколько вероятно получить 70 из 100 орлов, если монетка честная? Ответ: p ≈ 0.00004 — крайне маловероятно. Значит, скорее всего, монетка нечестная.

Что значат конкретные значения p-value

Шкала p-value
0.01
0.05
0.10
0.50+
00.010.050.100.501.0
p-valueИнтерпретацияЧто делать
p < 0.01Очень сильные доказательства. Вероятность случайности менее 1%.Можно уверенно принимать решение
p < 0.05Стандартный порог. Вероятность случайности менее 5%. Принято считать «статистически значимым».Общепринятый порог для принятия решений
0.05 < p < 0.10Слабые доказательства. Есть намёк на эффект, но данных недостаточно.Продолжить тест или собрать больше данных
p > 0.10Нет доказательств. Разница вполне объяснима случайностью.Нельзя утверждать, что эффект есть
// Важно: 0.05 — не магическое число
Порог 0.05 (5%) — это конвенция, не закон природы. В некоторых компаниях используют 0.10 (для быстрых решений), в других — 0.01 (для высокорисковых изменений). На собесе спрашивают: «Почему именно 0.05?» Правильный ответ: это стандарт, но порог зависит от контекста и цены ошибки.

Как правильно интерпретировать p-value

Правильно Так говорите
«p-value = 0.03 означает, что если бы разницы между группами на самом деле не было, вероятность наблюдать такую или бо́льшую разницу — всего 3%. Это меньше нашего порога 5%, поэтому мы считаем результат статистически значимым.»
Неправильно Так не говорите
«p-value = 0.03 означает, что вероятность того, что наша гипотеза верна — 97%.» Это ошибка. p-value не говорит о вероятности гипотезы. Это вероятность данных при условии, что нулевая гипотеза верна — не наоборот.
// Как объяснить менеджеру
«Мы провели тест. Если бы новая кнопка ничего не меняла, шанс увидеть такой рост конверсии — всего 3%. Это значит, что скорее всего кнопка действительно работает, и мы можем раскатывать.»

Ошибки I и II рода: два типа промахов

При принятии решений на основе p-value можно ошибиться двумя способами. Понимание этих ошибок — ключевое на собесе.

Ошибка I рода (α)
Ложноположительный результат
Вы решили, что эффект есть, а на самом деле его нет. «Раскатили» фичу, которая ничего не меняет. При α = 0.05 это случится в 5% тестов, где эффекта нет.
Ошибка II рода (β)
Ложноотрицательный результат
Вы решили, что эффекта нет, а он на самом деле есть. «Зарезали» фичу, которая работает. Зависит от мощности теста (power = 1 − β). При power = 80% — случится в 20%.

Полезная аналогия: представьте детектор дыма. Ошибка I рода — ложная тревога (пригорел тост). Ошибка II рода — пропущенный пожар (детектор не сработал). Обе плохи, но по-разному.

α, β и мощность теста

ПараметрЧто этоТипичное значение
α (альфа)Вероятность ошибки I рода. Порог p-value, при котором мы отвергаем нулевую гипотезу.0.05 (5%)
β (бета)Вероятность ошибки II рода. Шанс не обнаружить реальный эффект.0.20 (20%)
Power (мощность)1 − β. Вероятность обнаружить эффект, если он есть.0.80 (80%)
MDEМинимальный детектируемый эффект. Наименьшее изменение, которое тест способен обнаружить.Зависит от задачи
// Связь между параметрами
Чем строже порог α (меньше ложных тревог), тем больше нужна выборка. Чем меньше MDE хотите обнаружить, тем больше нужна выборка. Чем выше power хотите, тем больше нужна выборка. Всё упирается в размер выборки — и именно поэтому его рассчитывают до запуска теста.

5 заблуждений про p-value

Заблуждение 1 Самое частое
«p = 0.03 означает, что вероятность ошибки — 3%.»
Нет. p-value — это вероятность данных при условии отсутствия эффекта, а не вероятность того, что эффекта нет. Это кажется одним и тем же, но математически — разные вещи. Вероятность ошибки зависит ещё и от базовой частоты реальных эффектов (Байес).
Заблуждение 2 Опасное
«p > 0.05 значит, что эффекта нет.»
Нет. Отсутствие доказательств — не доказательство отсутствия. p = 0.15 может означать, что эффект есть, но выборка слишком мала, чтобы его обнаружить. Говорите: «мы не обнаружили статистически значимого эффекта», а не «эффекта нет».
Заблуждение 3 Практическое
«Маленький p-value = большой эффект.»
Нет. p-value зависит от размера выборки. На миллионе пользователей даже разница в 0.01% может дать p < 0.001. p-value говорит о статистической значимости, а не о практической значимости. Всегда смотрите на размер эффекта (например, +0.3 пп к конверсии) рядом с p-value.
Заблуждение 4 Методологическое
«Можно подглядывать в результаты и остановить тест, как только p < 0.05.»
Нет. Это peeking problem. Если вы проверяете p-value каждый день и останавливаете при первом p < 0.05 — реальный уровень ложных тревог будет не 5%, а 20–30%. Размер выборки нужно зафиксировать заранее — и дождаться его набора.
Заблуждение 5 На собесе
«Если два теста дали p = 0.04 и p = 0.06, первый работает, а второй — нет.»
Нет. Разница между p = 0.04 и p = 0.06 не является статистически значимой. Порог 0.05 — не обрыв, а условная граница. Тесты с p = 0.04 и p = 0.06 говорят примерно одно и то же: есть слабые доказательства эффекта.

p-value в контексте A/B тестов

В продуктовой аналитике p-value чаще всего встречается в A/B тестах. Вот как все понятия связываются в одну картину:

До запуска
Дизайн теста
Определяете α (обычно 0.05), power (обычно 0.80), MDE (минимальный эффект, который хотите обнаружить). На основе этого рассчитываете необходимый размер выборки.
Во время теста
Набор выборки
Не подглядываете в результаты (или используете sequential testing). Ждёте, пока наберётся расчётная выборка. Тест длится минимум 1 бизнес-цикл (обычно 7–14 дней).
После теста
Анализ результатов
Смотрите на p-value: если < α — эффект статистически значим. Но этого мало: проверяете размер эффекта, доверительный интервал, guardrail-метрики.
Решение
Раскатывать или нет
p < 0.05 + размер эффекта значимый для бизнеса + guardrail-метрики не просели = раскатываем. Одного p-value для решения недостаточно.

Доверительный интервал: что смотреть вместе с p-value

p-value говорит «есть ли эффект?», а доверительный интервал говорит «какого размера эффект и с какой неопределённостью?». Пример: конверсия тестовой группы выше на 0.3 пп, 95% доверительный интервал: [0.05 пп; 0.55 пп]. Это значит: эффект, скорее всего, от 0.05 до 0.55 пп. Если нижняя граница > 0 — эффект статистически значим (и p < 0.05).

// Для менеджера
Доверительный интервал полезнее p-value для принятия решений. Вместо «p < 0.05, значимо» скажите: «Рост конверсии от 0.05 до 0.55 процентных пункта с 95% уверенностью. В нижнем сценарии — минимальный эффект, в верхнем — заметный. Решайте, стоит ли раскатывать.»

Множественное тестирование: проблема множественных сравнений

Если вы тестируете 20 метрик одновременно при α = 0.05, ожидайте, что одна из них покажет p < 0.05 чисто случайно (20 × 0.05 = 1). Это называется проблема множественных сравнений. Решения: коррекция Бонферрони (делите α на количество сравнений), FDR-коррекция, или определите заранее одну primary метрику.

// На собесе
«Мы тестировали 10 метрик и нашли одну значимую с p = 0.03. Это реальный эффект?» — правильный ответ: скорее всего нет, это может быть артефакт множественного тестирования. Нужно либо корректировать α, либо подтверждать результат на новых данных.

Вопросы про p-value на собесе в BigTech

🎤 Типичные вопросы

Связанные материалы

Главное про p-value

p-value — это не вероятность того, что ваша гипотеза верна. Это вероятность увидеть такие данные, если эффекта нет. Маленький p-value — повод думать, что эффект реален. Но одного p-value недостаточно: смотрите на размер эффекта, доверительный интервал, guardrail-метрики и контекст.

На собеседовании от вас ждут: умение объяснить p-value без формул, знание ошибок I и II рода, понимание peeking problem и множественных сравнений — и способность перевести это на язык бизнес-решений.

Следующий шаг: попробуйте объяснить p-value коллеге или другу за 2 минуты. Если вам удалось обойтись без слов «нулевая гипотеза» — вы поняли тему.

АТ
Андрей Тарасенко
// Продуктовый аналитик · Авито · Ментор

p-value — тема, которая звучит страшно, пока не разберёшься. Я сам долго путался, пока не начал работать с A/B тестами в Авито ежедневно. Статья написана так, как я хотел бы, чтобы мне объяснили в самом начале.

Написать в Telegram