Надо ли обсуждать guard-метрики с продактом до запуска A/B-теста?

Обязательно. Guard-метрики согласовывают в дизайне теста: какие смотрим, что считается красным флагом. Тогда разговор после теста проходит без споров — продакт сам подписался на правила.

Как объяснить продакту, что A/B не сработал: 6 шаблонов разговора

Q: Продакт всё равно раскатывает незначимый тест. Что делать аналитику?

Зафиксировать позицию письменно: принимаю решение продакта, фиксирую условия (p=0.09, без достаточной мощности), предлагаю holdout 5% и контрольный замер через 4 недели. Взрослая позиция — не блокировать, но не молчать.

Q: Как объяснить p-value нетехническому продакту?

P-value 0.05 означает: если фича реально не работала бы, мы увидели бы такой же или лучший результат только в 1 случае из 20. То есть достаточно уверены, что это не случайность. Не упоминать нулевую гипотезу — только вероятность случайности.

Q: Когда аналитику стоит рекомендовать раскатку без полной значимости?

Когда эффект позитивный и стабильный по дням, CI узкий и нижняя граница даёт бизнес-смысл, продолжать тест дорого или невозможно. В этом случае: рекомендовать раскатку с holdout 5% и контрольным замером через 30 дней.

Контекст

Первый раз я сказал «нет эффекта» и ушёл

Это было на одном из первых тестов. Мы проверяли изменение в карточке товара. Через три недели собрал данные, написал в чат: «Тест незначим, p-value 0.18, нет эффекта» — и закрыл ноутбук. Продакт раскатил фичу на всех через два дня. Без меня.

Когда я спросил почему — он сказал: «Ну, раз ты не объяснил, что не надо, я решил, что она как минимум не вредит». Технически он был прав. Но именно этот момент научил меня: «нет эффекта» — это не ответ, это начало разговора.

Коммуникация результатов A/B — отдельный навык. Не ораторство, а точное структурирование ситуации: что мы знаем, что не знаем, какой следующий шаг. После этого разговора продакт принимает решение осознанно, а не по умолчанию. Ниже — шесть ситуаций, в которые ты будешь попадать, и шаблоны того, что говорить.

// Ориентир для чтения

Каждый сценарий — это «плохой вариант» (что обычно говорят аналитики) и «хороший вариант» (что работает лучше). Фразы адаптируй под свой продукт и команду — сам шаблон важнее точных слов.

Сценарий 01

Эффект незначим, но выборка была достаточной

Ситуация: тест прошёл полный срок, MDE и размер выборки были рассчитаны заранее. p-value = 0.23. Вы собрали достаточно данных — статистической мощи хватало на обнаружение целевого эффекта. Фича просто не дала его.

// Плохой вариант — что обычно говорят

«Результат незначимый. Нет статистической значимости, тест не показал эффекта. Наверное, надо продолжить тест.»

// Лучше говорить так

«Мы проверили гипотезу с достаточной мощностью — дали тесту собрать данные на целевой эффект +3%. Результат: фича не даёт этого эффекта. Это хорошая информация. Мы не сливаем деньги в фичу, которая не работает, и освобождаем слот в бэклоге. Предлагаю закрыть и разобрать, почему гипотеза не подтвердилась — это даст идеи для следующей итерации.»

Почему работает: «хороший ноль» — это не провал, это ответ на вопрос. Продакт должен услышать, что ты сделал работу честно и что отсутствие эффекта — ценное знание. Предложение «разобрать почему» — это мост к следующему шагу, не тупик.

Сценарий 02

Эффект статистически значим, но отрицательный

Ситуация: тест дал статистически значимый результат, но в минус. Конверсия упала на 1.8%, p-value = 0.02. Продакт вложил время в разработку и ждал позитивного результата.

// Плохой вариант

«Тест показал минус 1.8%, это значимо. Фича плохая, надо откатывать.»

// Лучше

«Тест значим, и результат в минус — −1.8% конверсии с доверительным интервалом от −0.4% до −3.2%. Откатываем, это не вопрос. Но прежде чем закрыть — я хочу понять, почему. Посмотрел на сегменты: у новых юзеров минус 4%, у возвращающихся — почти ноль. Гипотеза: изменение сбивает онбординг у новичков. Если так, возможно, фича сработает на когорте 30+ дней. Стоит проверить?»

Почему работает: ты сразу принимаешь решение (откат — не обсуждается при минусе), но добавляешь ценность — сегментацию и гипотезу. Продакт видит не «фича плохая», а «вот что пошло не так и что попробовать дальше». Это разница между тем, кто закрывает тикет, и тем, кто думает о продукте.

Сценарий 03

Эффект значим, но противоположен ожиданиям

Ситуация: гипотеза была «упрощение формы увеличит конверсию». Тест значим, но конверсия выросла у контроля, а не у эксперимента. Что-то работает наоборот.

// Плохой вариант

«Что-то странное. Тест значим, но конверсия выросла у контрольной группы. Наверное, баг или аномалия, надо перепроверить данные.»

// Лучше

«Результат неожиданный — контроль показывает плюс, эксперимент нейтральный. Я проверил данные: разбивки корректные, нет SRM. Это не баг — это реальный сигнал. Скорее всего, «упрощённая форма» убрала какой-то элемент, который на самом деле помогал пользователю. Возможно, поле подсказки или шаг верификации. Предлагаю откатить и сделать пользовательское исследование — разобраться, что именно ценит юзер в старом флоу, до следующей итерации.»

Почему работает: ты не паникуешь и не прячешься за «баг». Ты даёшь интерпретацию и конкретный следующий шаг. Аномальный результат A/B — часто самый ценный инсайт: значит, продукт работает не так, как вы думали.

◈

Проверить расчёт выборки перед следующим тестом

Калькулятор размера выборки и A/B-калькулятор на new-lvl.pro — чтобы говорить с продактом: «мы рассчитали, нам хватило мощности».

Открыть калькулятор

Сценарий 04

Главная метрика значимо растёт, guard-метрики падают

Ситуация: конверсия в оплату +2.1%, значимо. Продакт доволен. Но ты видишь: retention 7-day −3.5%, время в сессии −8%. Guard-метрики в минусе — значимо.

// Плохой вариант

«Тест значимый, главная метрика плюс 2.1%. Можно раскатывать. Но там ещё retention чуть просел, если что.»

// Лучше

«Стоп, прежде чем праздновать. Конверсия плюс 2.1% — это хорошо. Но retention 7-day −3.5% и время в сессии −8%, оба значимы. Это классический trade-off: фича давит на быструю конверсию, но часть пользователей уходит раньше или не возвращается. Если считать LTV за 30 дней, а не конверсию здесь и сейчас — нам нужно понять, что перевешивает. Я сделаю прогноз через когортную модель до конца недели. Раскатывать пока не рекомендую — нам нужен этот расчёт.»

Почему работает: ты не блокируешь раскатку эмоционально, ты предлагаешь конкретную дату и расчёт. Продакт слышит: «аналитик за меня, а не против». Тебе важно — не «убить фичу», а сделать правильное решение. Это разница в доверии.

Сценарий 05

Ratio значима, но direction шумный и нестабильный

Ситуация: метрика — средний чек (revenue / orders). p-value = 0.04, значима. Но при посмотре по дням — направление прыгает: в первую неделю плюс, во вторую ноль, в третью снова плюс. 95% CI очень широкий: [+0.3% ; +7.8%].

// Плохой вариант

«Значимо! p-value 0.04, средний чек плюс 4%. Раскатываем?»

// Лучше

«Формально тест значим, p-value 0.04. Но я бы не спешил. Смотри на доверительный интервал: [+0.3% ; +7.8%] — это очень широко. Эффект может быть и почти нулевым, и почти восьмью процентами. При такой неопределённости решение о раскатке — это ставка, а не факт. Плюс по дням эффект нестабилен. Я рекомендую продлить тест ещё на две недели — собрать данные до более узкого CI, хотя бы ±2%. Если нет времени — раскатываем с пониманием риска.»

Почему работает: ты не прячешься за «значимо». Ты объясняешь, что p-value — это не всё, что важен размер эффекта и его стабильность. Продакт принимает взрослое решение, зная риски. Если что-то пойдёт не так после раскатки — ты его предупреждал.

Сценарий 06

Незначимо, но позитивный тренд — продакт давит на раскатку

Ситуация: p-value = 0.09, MDE не достигнут. Продакт говорит: «Ну, 9% — это почти значимо. Тренд позитивный. Давай раскатим, зачем ждать?»

// Плохой вариант

«Ну, технически незначимо, но если ты считаешь, что нормально... Ладно, раскатывай.»

// Лучше

«Давай посмотрим на это вместе. P-value 0.09 означает: при такой выборке вероятность увидеть такой же или больший эффект случайно — 9%. Это в 4.5 раза выше, чем наш порог риска. 'Почти значимо' — это как 'почти беременна': или есть, или нет. Если раскатим сейчас — у нас есть реальный шанс, что мы масштабировали шум, а не сигнал. Предлагаю: или ещё две недели теста, или честно зафиксируем — 'мы раскатили без достаточных данных' и закладываем holdout 5%, чтобы потом проверить.»

Почему работает: ты не «держишь данные в заложниках» и не капитулируешь. Ты предлагаешь выбор: подождать или раскатить с явным acknowledgement риска + holdout. Продакт чувствует уважение к его решению, но видит, что ты не уходишь от ответственности за качество данных.

Чего избегать

4 антипаттерна аналитика в разговоре

Шаблоны выше — это «что говорить». Есть ещё четыре вещи, которые лучше не говорить, независимо от ситуации.

// 01

«Нет эффекта» как финал

Пустая фраза без контекста. Продакт слышит: «зря потратили три недели». Говори «нет целевого эффекта, вот что это значит для решения».

// 02

Сваливать всё в слайды

10 графиков без выводов — это не коммуникация. У продакта 30 секунд. Один главный вывод, один рекомендованный следующий шаг. Всё остальное — в appendix.

// 03

«Нужна ещё выборка» без объяснения

Если ты хочешь продлить тест — скажи конкретно: сколько ещё дней, почему, и что получишь. «Ещё подождём» — это потеря доверия.

// 04

Уходить после отчёта

Написал в чат «незначимо» и закрыл ноутбук — именно это привело к истории из начала статьи. Заканчивай каждое сообщение с явным вопросом или следующим шагом.

Принцип

Один фреймворк для всех шести ситуаций

Под каждым шаблоном выше — одна и та же структура. Запомни её, и придумывать текст каждый раз не придётся:

Элемент	Что говоришь	Зачем
Факт	Конкретный результат в числах + статистическая характеристика	Убираешь неопределённость, даёшь точку отсчёта
Интерпретация	Что это означает для продукта — не «p-value», а «для пользователя / бизнеса»	Продакт мыслит продуктом, не статистикой
Риск или подвох	Что можно неправильно понять или что скрыто за числом	Защищаешь от плохого решения
Следующий шаг	Конкретное предложение: дата, действие, вопрос	Разговор не заканчивается тупиком

Это не скрипт на зубрёжку. Это контрольный список: перед тем, как отправить сообщение или открыть рот на встрече — пробеги по четырём пунктам. Все ли есть? Если нет «следующего шага» — добавь.

// Мерило хорошей коммуникации результатов A/B

После твоего сообщения продакт должен уметь ответить на три вопроса без тебя: что произошло, что это значит, что делаем дальше. Если хотя бы одно — непонятно, переформулируй.

FAQ

Частые вопросы

Продакт всё равно раскатывает незначимый тест. Что делать?

Зафиксировать позицию письменно — не чтобы «прикрыть себя», а чтобы создать точку обучения. Напиши: «Принимаю решение продакта, фиксирую: раскатываем при p=0.09 без достаточной мощности. Предлагаю оставить holdout 5% и через 4 недели сравним». Это взрослая позиция — ты не блокируешь, но не молчишь.

Как объяснить p-value нетехническому продакту без лекции?

Лучшая аналогия, которую я использую: «Представь, что бросаешь монету. P-value 0.05 означает: если бы фича реально не работала, мы бы увидели такой же или лучший результат только в 1 случае из 20 попыток. То есть мы достаточно уверены, что это не случайность». Не упоминай нулевую гипотезу — это сразу в сон. Говори о вероятности случайности.

В каком формате лучше отчитываться — текст, таблица или слайды?

Зависит от команды, но универсальная формула: сначала Slack/письмо с ключевым выводом в одном абзаце (факт + интерпретация + следующий шаг). К нему — ссылка на детальный документ или дашборд. Слайды — только если есть встреча с несколькими стейкхолдерами. Не клади слайды в чат без голосового объяснения — они живут без контекста и создают неверные выводы.

Что делать, если не понимаю почему результат такой?

Говори честно: «Результат неожиданный, у меня пока нет объяснения. Вот что я проверил и исключил: [список]. Нужно ещё [день/два] на глубокий анализ». Это намного лучше, чем придумать объяснение «на ходу» и потом защищать неправильную гипотезу. Неопределённость — нормально. Ложная уверенность — опасно.

Когда самому аналитику стоит рекомендовать раскатку без полной значимости?

Когда: (1) эффект позитивный и стабильный по дням, (2) CI узкий и нижняя граница всё ещё даёт бизнес-смысл, (3) продолжать тест дорого или невозможно (например, праздники, релиз). В этом случае говори: «Рекомендую раскатить, но с holdout 5% и контрольным замером через 30 дней». Это honest recommendation с явным acknowledgement неопределённости.

Надо ли рассказывать продакту про guard-метрики заранее, до теста?

Обязательно. Это часть дизайна теста: до запуска согласовываешь, какие guard-метрики смотришь и что считается «красным флагом». Тогда разговор про «guard упали» после теста проходит проще — продакт сам подписался на эти правила. Если согласовывать только в конце — всегда будут споры «а почему именно эта метрика».

Что дальше

Связанные материалы

Главное про разговор о результатах A/B

«Нет эффекта» — не конец разговора. Это начало. Твоя задача — не сообщить p-value, а помочь продакту принять решение с пониманием того, что стоит за числами.

Шесть сценариев выше покрывают большинство ситуаций. Но под ними одна структура: факт → интерпретация → риск → следующий шаг. Если всё четыре есть — разговор будет конструктивным, даже если результат плохой.

P. S. Первый раз это всегда неловко. Продакт привык слышать «значимо / незначимо». Когда ты начинаешь говорить «хороший ноль» и «давай поставим holdout» — это непривычно. Со второго-третьего раза это становится нормой команды. Стоит того.

АТ

Андрей Тарасенко

// Продуктовый аналитик · Авито · Ментор

Из практики: самые сложные разговоры про A/B — не когда результат плохой, а когда результат неоднозначный и продакт хочет определённости. Учишься говорить «я не знаю, но вот что нам нужно, чтобы узнать» — и это ценится больше, чем уверенный ответ наобум.

Написать в Telegram

Как объяснить продакту,что A/B не сработал

Первый раз я сказал «нет эффекта» и ушёл

4 антипаттерна аналитика в разговоре

Один фреймворк для всех шести ситуаций

// Мерило хорошей коммуникации результатов A/B

Частые вопросы

Связанные материалы

Главное про разговор о результатах A/B

Разобрался? Проверь на квизе

Как объяснить продакту,
что A/B не сработал