Контекст
Первый раз я сказал «нет эффекта» и ушёл
Это было на одном из первых тестов. Мы проверяли изменение в карточке товара. Через три недели собрал данные, написал в чат: «Тест незначим, p-value 0.18, нет эффекта» — и закрыл ноутбук. Продакт раскатил фичу на всех через два дня. Без меня.
Когда я спросил почему — он сказал: «Ну, раз ты не объяснил, что не надо, я решил, что она как минимум не вредит». Технически он был прав. Но именно этот момент научил меня: «нет эффекта» — это не ответ, это начало разговора.
Коммуникация результатов A/B — отдельный навык. Не ораторство, а точное структурирование ситуации: что мы знаем, что не знаем, какой следующий шаг. После этого разговора продакт принимает решение осознанно, а не по умолчанию. Ниже — шесть ситуаций, в которые ты будешь попадать, и шаблоны того, что говорить.
// Ориентир для чтения
Каждый сценарий — это «плохой вариант» (что обычно говорят аналитики) и «хороший вариант» (что работает лучше). Фразы адаптируй под свой продукт и команду — сам шаблон важнее точных слов.
Сценарий 01
Эффект незначим, но выборка была достаточной
Ситуация: тест прошёл полный срок, MDE и размер выборки были рассчитаны заранее. p-value = 0.23. Вы собрали достаточно данных — статистической мощи хватало на обнаружение целевого эффекта. Фича просто не дала его.
// Плохой вариант — что обычно говорят
«Результат незначимый. Нет статистической значимости, тест не показал эффекта. Наверное, надо продолжить тест.»
// Лучше говорить так
«Мы проверили гипотезу с достаточной мощностью — дали тесту собрать данные на целевой эффект +3%. Результат: фича не даёт этого эффекта. Это хорошая информация. Мы не сливаем деньги в фичу, которая не работает, и освобождаем слот в бэклоге. Предлагаю закрыть и разобрать, почему гипотеза не подтвердилась — это даст идеи для следующей итерации.»
Почему работает: «хороший ноль» — это не провал, это ответ на вопрос. Продакт должен услышать, что ты сделал работу честно и что отсутствие эффекта — ценное знание. Предложение «разобрать почему» — это мост к следующему шагу, не тупик.
Сценарий 02
Эффект статистически значим, но отрицательный
Ситуация: тест дал статистически значимый результат, но в минус. Конверсия упала на 1.8%, p-value = 0.02. Продакт вложил время в разработку и ждал позитивного результата.
// Плохой вариант
«Тест показал минус 1.8%, это значимо. Фича плохая, надо откатывать.»
// Лучше
«Тест значим, и результат в минус — −1.8% конверсии с доверительным интервалом от −0.4% до −3.2%. Откатываем, это не вопрос. Но прежде чем закрыть — я хочу понять, почему. Посмотрел на сегменты: у новых юзеров минус 4%, у возвращающихся — почти ноль. Гипотеза: изменение сбивает онбординг у новичков. Если так, возможно, фича сработает на когорте 30+ дней. Стоит проверить?»
Почему работает: ты сразу принимаешь решение (откат — не обсуждается при минусе), но добавляешь ценность — сегментацию и гипотезу. Продакт видит не «фича плохая», а «вот что пошло не так и что попробовать дальше». Это разница между тем, кто закрывает тикет, и тем, кто думает о продукте.
Сценарий 03
Эффект значим, но противоположен ожиданиям
Ситуация: гипотеза была «упрощение формы увеличит конверсию». Тест значим, но конверсия выросла у контроля, а не у эксперимента. Что-то работает наоборот.
// Плохой вариант
«Что-то странное. Тест значим, но конверсия выросла у контрольной группы. Наверное, баг или аномалия, надо перепроверить данные.»
// Лучше
«Результат неожиданный — контроль показывает плюс, эксперимент нейтральный. Я проверил данные: разбивки корректные, нет SRM. Это не баг — это реальный сигнал. Скорее всего, «упрощённая форма» убрала какой-то элемент, который на самом деле помогал пользователю. Возможно, поле подсказки или шаг верификации. Предлагаю откатить и сделать пользовательское исследование — разобраться, что именно ценит юзер в старом флоу, до следующей итерации.»
Почему работает: ты не паникуешь и не прячешься за «баг». Ты даёшь интерпретацию и конкретный следующий шаг. Аномальный результат A/B — часто самый ценный инсайт: значит, продукт работает не так, как вы думали.
◈
Проверить расчёт выборки перед следующим тестом
Калькулятор размера выборки и A/B-калькулятор на new-lvl.pro — чтобы говорить с продактом: «мы рассчитали, нам хватило мощности».
Открыть калькулятор
Сценарий 04
Главная метрика значимо растёт, guard-метрики падают
Ситуация: конверсия в оплату +2.1%, значимо. Продакт доволен. Но ты видишь: retention 7-day −3.5%, время в сессии −8%. Guard-метрики в минусе — значимо.
// Плохой вариант
«Тест значимый, главная метрика плюс 2.1%. Можно раскатывать. Но там ещё retention чуть просел, если что.»
// Лучше
«Стоп, прежде чем праздновать. Конверсия плюс 2.1% — это хорошо. Но retention 7-day −3.5% и время в сессии −8%, оба значимы. Это классический trade-off: фича давит на быструю конверсию, но часть пользователей уходит раньше или не возвращается. Если считать LTV за 30 дней, а не конверсию здесь и сейчас — нам нужно понять, что перевешивает. Я сделаю прогноз через когортную модель до конца недели. Раскатывать пока не рекомендую — нам нужен этот расчёт.»
Почему работает: ты не блокируешь раскатку эмоционально, ты предлагаешь конкретную дату и расчёт. Продакт слышит: «аналитик за меня, а не против». Тебе важно — не «убить фичу», а сделать правильное решение. Это разница в доверии.
Сценарий 05
Ratio значима, но direction шумный и нестабильный
Ситуация: метрика — средний чек (revenue / orders). p-value = 0.04, значима. Но при посмотре по дням — направление прыгает: в первую неделю плюс, во вторую ноль, в третью снова плюс. 95% CI очень широкий: [+0.3% ; +7.8%].
// Плохой вариант
«Значимо! p-value 0.04, средний чек плюс 4%. Раскатываем?»
// Лучше
«Формально тест значим, p-value 0.04. Но я бы не спешил. Смотри на доверительный интервал: [+0.3% ; +7.8%] — это очень широко. Эффект может быть и почти нулевым, и почти восьмью процентами. При такой неопределённости решение о раскатке — это ставка, а не факт. Плюс по дням эффект нестабилен. Я рекомендую продлить тест ещё на две недели — собрать данные до более узкого CI, хотя бы ±2%. Если нет времени — раскатываем с пониманием риска.»
Почему работает: ты не прячешься за «значимо». Ты объясняешь, что p-value — это не всё, что важен размер эффекта и его стабильность. Продакт принимает взрослое решение, зная риски. Если что-то пойдёт не так после раскатки — ты его предупреждал.
Сценарий 06
Незначимо, но позитивный тренд — продакт давит на раскатку
Ситуация: p-value = 0.09, MDE не достигнут. Продакт говорит: «Ну, 9% — это почти значимо. Тренд позитивный. Давай раскатим, зачем ждать?»
// Плохой вариант
«Ну, технически незначимо, но если ты считаешь, что нормально... Ладно, раскатывай.»
// Лучше
«Давай посмотрим на это вместе. P-value 0.09 означает: при такой выборке вероятность увидеть такой же или больший эффект случайно — 9%. Это в 4.5 раза выше, чем наш порог риска. 'Почти значимо' — это как 'почти беременна': или есть, или нет. Если раскатим сейчас — у нас есть реальный шанс, что мы масштабировали шум, а не сигнал. Предлагаю: или ещё две недели теста, или честно зафиксируем — 'мы раскатили без достаточных данных' и закладываем holdout 5%, чтобы потом проверить.»
Почему работает: ты не «держишь данные в заложниках» и не капитулируешь. Ты предлагаешь выбор: подождать или раскатить с явным acknowledgement риска + holdout. Продакт чувствует уважение к его решению, но видит, что ты не уходишь от ответственности за качество данных.
Чего избегать
4 антипаттерна аналитика в разговоре
Шаблоны выше — это «что говорить». Есть ещё четыре вещи, которые лучше не говорить, независимо от ситуации.
// 01
«Нет эффекта» как финал
Пустая фраза без контекста. Продакт слышит: «зря потратили три недели». Говори «нет целевого эффекта, вот что это значит для решения».
// 02
Сваливать всё в слайды
10 графиков без выводов — это не коммуникация. У продакта 30 секунд. Один главный вывод, один рекомендованный следующий шаг. Всё остальное — в appendix.
// 03
«Нужна ещё выборка» без объяснения
Если ты хочешь продлить тест — скажи конкретно: сколько ещё дней, почему, и что получишь. «Ещё подождём» — это потеря доверия.
// 04
Уходить после отчёта
Написал в чат «незначимо» и закрыл ноутбук — именно это привело к истории из начала статьи. Заканчивай каждое сообщение с явным вопросом или следующим шагом.
Принцип
Один фреймворк для всех шести ситуаций
Под каждым шаблоном выше — одна и та же структура. Запомни её, и придумывать текст каждый раз не придётся:
| Элемент |
Что говоришь |
Зачем |
| Факт |
Конкретный результат в числах + статистическая характеристика |
Убираешь неопределённость, даёшь точку отсчёта |
| Интерпретация |
Что это означает для продукта — не «p-value», а «для пользователя / бизнеса» |
Продакт мыслит продуктом, не статистикой |
| Риск или подвох |
Что можно неправильно понять или что скрыто за числом |
Защищаешь от плохого решения |
| Следующий шаг |
Конкретное предложение: дата, действие, вопрос |
Разговор не заканчивается тупиком |
Это не скрипт на зубрёжку. Это контрольный список: перед тем, как отправить сообщение или открыть рот на встрече — пробеги по четырём пунктам. Все ли есть? Если нет «следующего шага» — добавь.
// Мерило хорошей коммуникации результатов A/B
После твоего сообщения продакт должен уметь ответить на три вопроса без тебя: что произошло, что это значит, что делаем дальше. Если хотя бы одно — непонятно, переформулируй.
Продакт всё равно раскатывает незначимый тест. Что делать?
Зафиксировать позицию письменно — не чтобы «прикрыть себя», а чтобы создать точку обучения. Напиши: «Принимаю решение продакта, фиксирую: раскатываем при p=0.09 без достаточной мощности. Предлагаю оставить holdout 5% и через 4 недели сравним». Это взрослая позиция — ты не блокируешь, но не молчишь.
Как объяснить p-value нетехническому продакту без лекции?
Лучшая аналогия, которую я использую: «Представь, что бросаешь монету. P-value 0.05 означает: если бы фича реально не работала, мы бы увидели такой же или лучший результат только в 1 случае из 20 попыток. То есть мы достаточно уверены, что это не случайность». Не упоминай нулевую гипотезу — это сразу в сон. Говори о вероятности случайности.
В каком формате лучше отчитываться — текст, таблица или слайды?
Зависит от команды, но универсальная формула: сначала Slack/письмо с ключевым выводом в одном абзаце (факт + интерпретация + следующий шаг). К нему — ссылка на детальный документ или дашборд. Слайды — только если есть встреча с несколькими стейкхолдерами. Не клади слайды в чат без голосового объяснения — они живут без контекста и создают неверные выводы.
Что делать, если не понимаю почему результат такой?
Говори честно: «Результат неожиданный, у меня пока нет объяснения. Вот что я проверил и исключил: [список]. Нужно ещё [день/два] на глубокий анализ». Это намного лучше, чем придумать объяснение «на ходу» и потом защищать неправильную гипотезу. Неопределённость — нормально. Ложная уверенность — опасно.
Когда самому аналитику стоит рекомендовать раскатку без полной значимости?
Когда: (1) эффект позитивный и стабильный по дням, (2) CI узкий и нижняя граница всё ещё даёт бизнес-смысл, (3) продолжать тест дорого или невозможно (например, праздники, релиз). В этом случае говори: «Рекомендую раскатить, но с holdout 5% и контрольным замером через 30 дней». Это honest recommendation с явным acknowledgement неопределённости.
Надо ли рассказывать продакту про guard-метрики заранее, до теста?
Обязательно. Это часть дизайна теста: до запуска согласовываешь, какие guard-метрики смотришь и что считается «красным флагом». Тогда разговор про «guard упали» после теста проходит проще — продакт сам подписался на эти правила. Если согласовывать только в конце — всегда будут споры «а почему именно эта метрика».
Что дальше
Связанные материалы
Главное про разговор о результатах A/B
«Нет эффекта» — не конец разговора. Это начало. Твоя задача — не сообщить p-value, а помочь продакту принять решение с пониманием того, что стоит за числами.
Шесть сценариев выше покрывают большинство ситуаций. Но под ними одна структура: факт → интерпретация → риск → следующий шаг. Если всё четыре есть — разговор будет конструктивным, даже если результат плохой.
P. S. Первый раз это всегда неловко. Продакт привык слышать «значимо / незначимо». Когда ты начинаешь говорить «хороший ноль» и «давай поставим holdout» — это непривычно. Со второго-третьего раза это становится нормой команды. Стоит того.
АТ
Андрей Тарасенко
// Продуктовый аналитик · Авито · Ментор
Из практики: самые сложные разговоры про A/B — не когда результат плохой, а когда результат неоднозначный и продакт хочет определённости. Учишься говорить «я не знаю, но вот что нам нужно, чтобы узнать» — и это ценится больше, чем уверенный ответ наобум.
Написать в Telegram