Как распределить время
Ориентировочные фазы для человека, который учится параллельно с работой или другими занятиями (~2–3 часа в день).
- SQL: от базового до оконных функций
- Python: основы + pandas
- Описательная статистика
- Теория вероятностей
- Инференциальная статистика
- A/B тесты: теория и расчёты
- Продуктовые метрики
- Продуктовое мышление
- BI: Tableau / Superset
- Первый pet-проект
- Разбор кейсов
- Подготовка к интервью
SQL
Фундамент №1. Без уверенного SQL нельзя пройти даже скрининг в любой IT-компании. На практике 80% работы аналитика — это SQL.
SQL — декларативный язык: вы описываете что хотите получить, а не как это вычислить. Вся работа строится вокруг таблиц. Начните с одной таблицы, потом переходите к связям между ними.
Что изучить
- Напишите запрос: найдите топ-5 категорий товаров по сумме выручки за последние 30 дней.
- В чём разница между WHERE и HAVING? Приведите пример, когда нужен именно HAVING.
- Как посчитать долю пользователей, совершивших более одной покупки, от всех пользователей?
- Найдите дни, в которые количество заказов было выше среднего по всему периоду.
В реальных задачах данные всегда распределены по нескольким таблицам: пользователи, заказы, события, товары. JOIN — инструмент, который их связывает. Без глубокого понимания JOIN'ов вы не сможете решать практические аналитические задачи.
Что изучить
- Найдите пользователей, которые зарегистрировались, но ни разу не совершили покупку.
- В чём разница между INNER JOIN и LEFT JOIN? Когда какой использовать?
- Посчитайте конверсию из просмотра карточки товара в покупку по каждой категории. Данные в разных таблицах.
- Когда лучше использовать CTE вместо подзапроса? Есть ли разница в производительности?
- Найдите пары пользователей, которые купили одинаковые товары (SELF JOIN).
Оконные функции выполняют вычисления по набору строк, связанных с текущей строкой, без схлопывания таблицы. В отличие от GROUP BY, строки в результате сохраняются. Это главный инструмент для когортного анализа, расчёта накопительных метрик, ранжирования.
Что изучить
- Для каждого пользователя найдите время между первой и второй покупкой.
- Посчитайте скользящее среднее выручки за предыдущие 7 дней для каждого дня.
- Пронумеруйте заказы каждого пользователя в хронологическом порядке. Найдите всех, у кого более 3 заказов.
- Разбейте пользователей по децилям по сумме их покупок. Какой процент выручки даёт топ-10%?
- В чём разница между PARTITION BY и GROUP BY?
В реальных задачах постоянно работаешь с датами (когортный анализ, retention), пропущенными значениями и нужно уметь строить сложные аналитические паттерны: воронки, когорты, сессии.
Что изучить
- Постройте когортный анализ: для каждой когорты (месяц регистрации) посчитайте retention на 1-й, 2-й, 3-й месяц после регистрации.
- Ваш запрос работает 10 минут на 100 млн строк. Что вы будете делать?
- Как определить сессию пользователя, если сессия — это последовательность событий с перерывами менее 30 минут?
- Чем ClickHouse отличается от PostgreSQL и в каких задачах лучше использовать каждый?
Python для анализа данных
Второй ключевой инструмент. Python нужен для анализа, статистических тестов, автоматизации и работы с большими объёмами данных, которые не уместить в SQL.
Pandas — Excel на стероидах. DataFrame позволяет делать всё то же, что и SQL, но с большей гибкостью и возможностью автоматизации. Главное: не учить pandas в отрыве от реальных задач — сразу практикуйте на датасетах.
Основы языка
pandas: ключевые операции
- В чём разница между .loc и .iloc? Когда каждый использовать?
- Как посчитать retention в pandas без SQL? Опишите подход через groupby и merge.
- У вас DataFrame с 10 млн строк. groupby работает медленно. Как ускорить?
- Как объединить два DataFrame: один с покупками, другой с пользователями? Что делать с дубликатами?
Визуализация — не просто «красивые графики». Это инструмент понимания данных и коммуникации результатов. Первый шаг любого анализа — смотреть на данные, а не сразу считать цифры.
Что изучить
Теория вероятностей и статистика
Математическая основа A/B-тестирования и любого вывода по данным. Без этого невозможно корректно интерпретировать результаты экспериментов.
Теория вероятностей — язык неопределённости. Понимание распределений и ЦПТ критически важно для понимания того, почему статистические тесты работают именно так.
Что изучить
- Что такое ЦПТ и почему она важна для A/B-тестирования?
- Монету подбросили 100 раз, выпал орёл 60 раз. Можно ли утверждать, что монета нечестная?
- Чем отличаются дисперсия и стандартное отклонение? Почему нас чаще интересует СКО?
- Что такое распределение Пуассона и где оно применяется в продуктовой аналитике?
Это раздел статистики о том, как делать выводы о генеральной совокупности на основе выборки. Именно здесь живут все ключевые концепции A/B-тестирования: p-value, доверительные интервалы, ошибки.
Что изучить
- Что такое p-value? Что означает p=0.03 для вашего A/B-теста?
- Объясните ошибки I и II рода на бизнесовом примере. Какая из них хуже?
- Что такое доверительный интервал? Как интерпретировать 95% ДИ [0.02, 0.08]?
- Когда использовать t-тест, а когда Mann-Whitney?
- У вас 10 метрик в тесте. Как скорректировать порог значимости?
A/B тестирование
Центральная компетенция продуктового аналитика в IT. На собесах в BigTech этот блок занимает 40–60% технических вопросов.
80% ошибок в A/B-тестах — это ошибки дизайна, а не анализа. Плохо сформулированная гипотеза, неправильно выбранная метрика или неверно рассчитанная выборка — и весь тест бессмысленен.
Что изучить
- Как вы рассчитаете размер выборки для теста? Какие параметры нужны?
- Что такое MDE? Как выбрать его значение для конкретного теста?
- Что такое AA-тест? Зачем он нужен и когда его нужно проводить?
- Тест запустили, через 3 дня видим p=0.03. Можно ли останавливать? Почему?
- Как выбрать длительность теста? Почему нельзя останавливать в пятницу?
- Что такое SRM и что делать, если вы его обнаружили?
В крупных компаниях (Яндекс, Авито, Ozon) эти методы используются регулярно. Знание CUPED — сильный дифференциатор на собесе. Это показывает, что вы думаете об эффективности экспериментальной платформы.
Что изучить
- Что такое CUPED? Объясните идею своими словами и когда его стоит применять.
- Почему для метрики ARPU нельзя просто применить t-тест? Что такое delta-метод?
- Как бы вы провели A/B тест для фичи в маркетплейсе, где продавцы и покупатели влияют друг на друга?
- Что такое novelty effect? Как вы его обнаружите в данных?
- Тест показал рост конверсии +5%, но retention упал на 2%. Что делать?
Продуктовые метрики
Знание метрик — это то, что позволяет аналитику говорить на одном языке с продуктом и бизнесом. Без этого невозможно ставить правильные вопросы и интерпретировать результаты.
Это базовый словарь продуктового аналитика. Вас будут спрашивать «как посчитать retention» или «что такое DAU/MAU ratio» на каждом интервью. Знать формулы недостаточно — нужно понимать что они говорят о продукте.
Что изучить
- Как посчитать Day-7 Retention? Напишите SQL-запрос.
- В чём разница между Classic Retention и Rolling Retention? Когда что использовать?
- DAU упал на 15%. Как вы будете разбираться в причинах?
- Что такое DAU/MAU ratio и что значит значение 20%? А 60%?
- Постройте воронку регистрации → активация → первая покупка. Как найти узкое место?
Продуктовый аналитик должен понимать, как изменение метрики продукта влияет на деньги. Это требование BigTech — аналитик не просто считает, а понимает бизнес.
Что изучить
- Как рассчитать LTV? Какие данные нужны и какой горизонт брать?
- LTV/CAC = 1.5. Что это говорит о бизнесе? Хорошо это или плохо?
- Чем ARPU отличается от ARPPU? Когда важно смотреть именно на ARPPU?
- Мы улучшили retention на 5%. Как это влияет на LTV? Посчитайте.
Отдельные метрики — это детали. Система метрик — это понимание того, как продукт создаёт ценность. Аналитик должен уметь выстраивать иерархию метрик и объяснять связь между ними.
Что изучить
- Как бы вы выбрали North Star Metric для маркетплейса? Для стримингового сервиса?
- Что такое leading и lagging метрики? Приведите пример для e-commerce.
- Декомпозируйте выручку маркетплейса на драйверы. Как выглядит дерево метрик?
- Конверсия в покупку выросла, но NPS упал. Как это возможно и что делать?
Продуктовое мышление и бизнес-логика
Технические навыки — необходимое условие. Но BigTech нанимает аналитиков, которые думают о продукте, а не просто пишут запросы.
Продуктовый кейс — это задача вида «метрика упала, разберись почему» или «как бы ты оценил эффект этой фичи». Здесь проверяют структуру мышления, а не знание конкретных формул.
Что изучить
- Выручка упала на 20% вчера вечером. Ваши действия? Какие данные посмотрите в первую очередь?
- Конверсия из корзины в заказ упала с 60% до 45%. Как найти причину?
- Retention нового онбординга вырос на 3%, но GMV упал на 2%. Запускать или нет?
- Как вы оцените влияние нового поискового алгоритма на маркетплейс? Что и как меряете?
- Пользователей в приложении стало на 30% больше, но выручка не выросла. Почему?
Разные продукты — разная логика. Маркетплейс заботится о балансе спроса и предложения. Подписочный сервис живёт за счёт retention. Рекламная платформа оптимизирует relevance и монетизацию одновременно. Знание этой специфики критично на кейсах.
Что изучить
- Как устроена экономика маркетплейса? Что такое take rate и как его оптимизировать?
- Какие метрики наиболее важны для подписочного сервиса? Как связаны retention и MRR?
- Авито запускает платное размещение объявлений. Какие метрики нужно отслеживать и как оценить эффект?
BI-системы и визуализация данных
Аналитик должен уметь не только считать, но и доносить результаты. Дашборды и визуализации — основной инструмент коммуникации с командой и руководством.
Плохая визуализация — это когда данные есть, а вывода нет. Хорошая визуализация отвечает на конкретный вопрос и не требует объяснений. Изучите принципы до того, как начнёте строить дашборды.
Что изучить
Конкретный инструмент зависит от компании. В большинстве российских IT-компаний используют Apache Superset или собственные решения. Tableau популярен в западных компаниях. Power BI — в корпоративном секторе.
Что изучить
- Расскажите о дашборде, который вы создали. Для кого он был? Какие решения по нему принимались?
- Как вы проектируете дашборд мониторинга здоровья продукта? Какие метрики включите?
- Как выбираете между bar chart и line chart? Между heatmap и таблицей?
Soft skills и коммуникация
В BigTech проверяют не только техническую грамотность. Умение формулировать выводы, работать с командой и общаться с бизнесом — часть профиля продуктового аналитика.
Главная задача аналитика — не посчитать, а помочь принять решение. Это требует умения формулировать вывод понятно для нетехнической аудитории, задавать правильные вопросы и работать с неполными данными.
Что развивать
- Расскажите о случае, когда данные не дали однозначного ответа. Как вы приняли решение?
- Как вы объясняете сложные статистические концепции (например, p-value) нетехническому руководителю?
- PM настаивает на запуске фичи, но ваш анализ показывает риск. Как вы действуете?
- Расскажите об анализе, которым вы гордитесь. Какое решение он помог принять?
- Как вы расставляете приоритеты, когда к вам одновременно приходят три запроса от разных команд?
Практика и портфолио
Теория без практики — мёртвый груз. Работодатели хотят видеть, что вы умеете работать с реальными данными и решать реальные задачи.
Pet-проект — это ваш разговор с интервьюером: «вот как я думаю и решаю задачи». Он не должен быть сложным. Он должен быть продуктовым: взять реальный датасет, поставить бизнес-вопросы и ответить на них данными.
Идеи для проектов
Что должно быть в проекте
Интервью в BigTech состоит из нескольких этапов. Знать материал — необходимо, но не достаточно. Нужно уметь думать вслух, структурировать ответ и не теряться при сложных вопросах.
Типичная структура интервью (Яндекс, Авито, Ozon)
Как готовиться
- Как бы вы оценили здоровье нашего продукта? Какие 5 метрик вы посмотрите первым делом?
- Придумайте A/B тест для фичи [X]. Что тестируете, как считаете, как интерпретируете.
- Чем продуктовый аналитик отличается от data analyst или бизнес-аналитика?
- Расскажите о самом сложном анализе, который вы делали. Что было сложно и как решили?
- Если бы вы могли добавить одну метрику в мониторинг нашего продукта — что это было бы и почему?
Главное правило этого плана
Не пытайтесь пройти все блоки последовательно до конца, прежде чем начать практику. SQL + базовая статистика → первый pet-проект → A/B тест → метрики → практика кейсов. Итеративно, не линейно.
Блоки 1–5 — это минимум для прохождения скрининга. Блоки 6–9 — то, что поможет пройти финал и выглядеть сильным кандидатом. Soft skills и продуктовое мышление нельзя «выучить» — они развиваются через практику разбора кейсов.
Ресурсы: Stepik (SQL, статистика), Karpov.Courses SQL тренажёр, LeetCode SQL 50, Khan Academy (статистика), книга «Trustworthy Online Controlled Experiments» (A/B тесты), блог Lenny's Newsletter (продуктовые метрики), Kaggle (датасеты для практики).