p-value простыми словами: что это, как интерпретировать и частые ошибки

Основы

Что такое p-value: объяснение без формул

Вы запустили A/B тест. Конверсия в тестовой группе — 5.3%, в контрольной — 5.0%. Разница 0.3 процентного пункта. Вопрос: это реальное улучшение или просто случайность?

p-value — это ответ на этот вопрос. Точнее, на его часть.

// Определение простыми словами

p-value — это вероятность получить такую же или ещё большую разницу между группами, если на самом деле разницы нет (то есть изменение не работает).

Другими словами: если бы ваша фича ничего не меняла, какова вероятность увидеть ту разницу, которую вы увидели? Если эта вероятность очень маленькая (p < 0.05), мы говорим: «скорее всего, разница реальная».

Аналогия: монетка

Вам дали монетку и сказали: «она честная». Вы подбросили 10 раз — выпало 7 орлов. Это подозрительно, но возможно. Подбросили 100 раз — выпало 70 орлов. Теперь вы почти уверены: монетка нечестная.

p-value — это как раз та самая «подозрительность»: насколько вероятно получить 70 из 100 орлов, если монетка честная? Ответ: p ≈ 0.00004 — крайне маловероятно. Значит, скорее всего, монетка нечестная.

Что значат конкретные значения p-value

Шкала p-value

0.01

0.05

0.10

0.50+

00.010.050.100.501.0

p-value	Интерпретация	Что делать
p < 0.01	Очень сильные доказательства. Вероятность случайности менее 1%.	Можно уверенно принимать решение
p < 0.05	Стандартный порог. Вероятность случайности менее 5%. Принято считать «статистически значимым».	Общепринятый порог для принятия решений
0.05 < p < 0.10	Слабые доказательства. Есть намёк на эффект, но данных недостаточно.	Продолжить тест или собрать больше данных
p > 0.10	Нет доказательств. Разница вполне объяснима случайностью.	Нельзя утверждать, что эффект есть

// Важно: 0.05 — не магическое число

Порог 0.05 (5%) — это конвенция, не закон природы. В некоторых компаниях используют 0.10 (для быстрых решений), в других — 0.01 (для высокорисковых изменений). На собесе спрашивают: «Почему именно 0.05?» Правильный ответ: это стандарт, но порог зависит от контекста и цены ошибки.

Интерпретация

Как правильно интерпретировать p-value

Правильно Так говорите

«p-value = 0.03 означает, что если бы разницы между группами на самом деле не было, вероятность наблюдать такую или бо́льшую разницу — всего 3%. Это меньше нашего порога 5%, поэтому мы считаем результат статистически значимым.»

Неправильно Так не говорите

«p-value = 0.03 означает, что вероятность того, что наша гипотеза верна — 97%.» Это ошибка. p-value не говорит о вероятности гипотезы. Это вероятность данных при условии, что нулевая гипотеза верна — не наоборот.

// Как объяснить менеджеру

«Мы провели тест. Если бы новая кнопка ничего не меняла, шанс увидеть такой рост конверсии — всего 3%. Это значит, что скорее всего кнопка действительно работает, и мы можем раскатывать.»

Статистика

Ошибки I и II рода: два типа промахов

При принятии решений на основе p-value можно ошибиться двумя способами. Понимание этих ошибок — ключевое на собесе.

Ошибка I рода (α)

Ложноположительный результат

Вы решили, что эффект есть, а на самом деле его нет. «Раскатили» фичу, которая ничего не меняет. При α = 0.05 это случится в 5% тестов, где эффекта нет.

Ошибка II рода (β)

Ложноотрицательный результат

Вы решили, что эффекта нет, а он на самом деле есть. «Зарезали» фичу, которая работает. Зависит от мощности теста (power = 1 − β). При power = 80% — случится в 20%.

Полезная аналогия: представьте детектор дыма. Ошибка I рода — ложная тревога (пригорел тост). Ошибка II рода — пропущенный пожар (детектор не сработал). Обе плохи, но по-разному.

α, β и мощность теста

Параметр	Что это	Типичное значение
α (альфа)	Вероятность ошибки I рода. Порог p-value, при котором мы отвергаем нулевую гипотезу.	0.05 (5%)
β (бета)	Вероятность ошибки II рода. Шанс не обнаружить реальный эффект.	0.20 (20%)
Power (мощность)	1 − β. Вероятность обнаружить эффект, если он есть.	0.80 (80%)
MDE	Минимальный детектируемый эффект. Наименьшее изменение, которое тест способен обнаружить.	Зависит от задачи

// Связь между параметрами

Чем строже порог α (меньше ложных тревог), тем больше нужна выборка. Чем меньше MDE хотите обнаружить, тем больше нужна выборка. Чем выше power хотите, тем больше нужна выборка. Всё упирается в размер выборки — и именно поэтому его рассчитывают до запуска теста.

Ловушки

5 заблуждений про p-value

Заблуждение 1 Самое частое

«p = 0.03 означает, что вероятность ошибки — 3%.»
Нет. p-value — это вероятность данных при условии отсутствия эффекта, а не вероятность того, что эффекта нет. Это кажется одним и тем же, но математически — разные вещи. Вероятность ошибки зависит ещё и от базовой частоты реальных эффектов (Байес).

Заблуждение 2 Опасное

«p > 0.05 значит, что эффекта нет.»
Нет. Отсутствие доказательств — не доказательство отсутствия. p = 0.15 может означать, что эффект есть, но выборка слишком мала, чтобы его обнаружить. Говорите: «мы не обнаружили статистически значимого эффекта», а не «эффекта нет».

Заблуждение 3 Практическое

«Маленький p-value = большой эффект.»
Нет. p-value зависит от размера выборки. На миллионе пользователей даже разница в 0.01% может дать p < 0.001. p-value говорит о статистической значимости, а не о практической значимости. Всегда смотрите на размер эффекта (например, +0.3 пп к конверсии) рядом с p-value.

Заблуждение 4 Методологическое

«Можно подглядывать в результаты и остановить тест, как только p < 0.05.»
Нет. Это peeking problem. Если вы проверяете p-value каждый день и останавливаете при первом p < 0.05 — реальный уровень ложных тревог будет не 5%, а 20–30%. Размер выборки нужно зафиксировать заранее — и дождаться его набора.

Заблуждение 5 На собесе

«Если два теста дали p = 0.04 и p = 0.06, первый работает, а второй — нет.»
Нет. Разница между p = 0.04 и p = 0.06 не является статистически значимой. Порог 0.05 — не обрыв, а условная граница. Тесты с p = 0.04 и p = 0.06 говорят примерно одно и то же: есть слабые доказательства эффекта.

A/B тесты

p-value в контексте A/B тестов

В продуктовой аналитике p-value чаще всего встречается в A/B тестах. Вот как все понятия связываются в одну картину:

До запуска

Дизайн теста

Определяете α (обычно 0.05), power (обычно 0.80), MDE (минимальный эффект, который хотите обнаружить). На основе этого рассчитываете необходимый размер выборки.

Во время теста

Набор выборки

Не подглядываете в результаты (или используете sequential testing). Ждёте, пока наберётся расчётная выборка. Тест длится минимум 1 бизнес-цикл (обычно 7–14 дней).

После теста

Анализ результатов

Смотрите на p-value: если < α — эффект статистически значим. Но этого мало: проверяете размер эффекта, доверительный интервал, guardrail-метрики.

Решение

Раскатывать или нет

p < 0.05 + размер эффекта значимый для бизнеса + guardrail-метрики не просели = раскатываем. Одного p-value для решения недостаточно.

Доверительный интервал: что смотреть вместе с p-value

p-value говорит «есть ли эффект?», а доверительный интервал говорит «какого размера эффект и с какой неопределённостью?». Пример: конверсия тестовой группы выше на 0.3 пп, 95% доверительный интервал: [0.05 пп; 0.55 пп]. Это значит: эффект, скорее всего, от 0.05 до 0.55 пп. Если нижняя граница > 0 — эффект статистически значим (и p < 0.05).

// Для менеджера

Доверительный интервал полезнее p-value для принятия решений. Вместо «p < 0.05, значимо» скажите: «Рост конверсии от 0.05 до 0.55 процентных пункта с 95% уверенностью. В нижнем сценарии — минимальный эффект, в верхнем — заметный. Решайте, стоит ли раскатывать.»

Множественное тестирование: проблема множественных сравнений

Если вы тестируете 20 метрик одновременно при α = 0.05, ожидайте, что одна из них покажет p < 0.05 чисто случайно (20 × 0.05 = 1). Это называется проблема множественных сравнений. Решения: коррекция Бонферрони (делите α на количество сравнений), FDR-коррекция, или определите заранее одну primary метрику.

// На собесе

«Мы тестировали 10 метрик и нашли одну значимую с p = 0.03. Это реальный эффект?» — правильный ответ: скорее всего нет, это может быть артефакт множественного тестирования. Нужно либо корректировать α, либо подтверждать результат на новых данных.

Собеседование

Вопросы про p-value на собесе в BigTech

🎤 Типичные вопросы

Что такое p-value? Объясните простыми словами, как будто я — PM без статистического бэкграунда.
В чём разница между статистической значимостью и практической значимостью?
Что такое ошибки I и II рода? Приведите пример из продуктовой аналитики.
Тест запустили, через 3 дня видим p = 0.03. Можно ли останавливать? Почему?
Мы тестировали 15 метрик. Одна показала p = 0.02. Это значимый результат?
p-value = 0.06. Ваши действия? Можно ли раскатывать?
Как связаны p-value, доверительный интервал и размер выборки?
Что такое мощность теста (power)? Почему 80% — стандарт?
Как бы вы объяснили руководителю, что тест не показал значимого результата, но это не значит, что фича бесполезна?

Что дальше

Связанные материалы

Главное про p-value

p-value — это не вероятность того, что ваша гипотеза верна. Это вероятность увидеть такие данные, если эффекта нет. Маленький p-value — повод думать, что эффект реален. Но одного p-value недостаточно: смотрите на размер эффекта, доверительный интервал, guardrail-метрики и контекст.

На собеседовании от вас ждут: умение объяснить p-value без формул, знание ошибок I и II рода, понимание peeking problem и множественных сравнений — и способность перевести это на язык бизнес-решений.

Следующий шаг: попробуйте объяснить p-value коллеге или другу за 2 минуты. Если вам удалось обойтись без слов «нулевая гипотеза» — вы поняли тему.

АТ

Андрей Тарасенко

// Продуктовый аналитик · Авито · Ментор

p-value — тема, которая звучит страшно, пока не разберёшься. Я сам долго путался, пока не начал работать с A/B тестами в Авито ежедневно. Статья написана так, как я хотел бы, чтобы мне объяснили в самом начале.

Написать в Telegram

p-value
простыми словами:
что это на самом деле

Что такое p-value: объяснение без формул

Аналогия: монетка

Что значат конкретные значения p-value

Как правильно интерпретировать p-value

Ошибки I и II рода: два типа промахов

α, β и мощность теста

5 заблуждений про p-value

p-value в контексте A/B тестов

Доверительный интервал: что смотреть вместе с p-value

Множественное тестирование: проблема множественных сравнений

Вопросы про p-value на собесе в BigTech

Связанные материалы

Главное про p-value

Разобрался? Проверь на квизе

p-valueпростыми словами:что это на самом деле

Что такое p-value: объяснение без формул

Аналогия: монетка

Что значат конкретные значения p-value

Как правильно интерпретировать p-value

Ошибки I и II рода: два типа промахов

α, β и мощность теста

5 заблуждений про p-value

p-value в контексте A/B тестов

Доверительный интервал: что смотреть вместе с p-value

Множественное тестирование: проблема множественных сравнений

Вопросы про p-value на собесе в BigTech

Связанные материалы

Главное про p-value

Разобрался? Проверь на квизе

p-value
простыми словами:
что это на самом деле