Аналитик с ChatGPT теряет 40–60% времени на рутину: написать SQL под новую гипотезу, объяснить менеджеру что значит p-value, превратить таблицу 50 строк в график, вспомнить формулу VLOOKUP в Excel. Промпты ниже — не для замены аналитики, а для снятия именно этой рутины.
Внутри — 8 шаблонов: разбор датасета, Excel-формулы, SQL-запросы, выбор графика, A/B-тест анализ, поиск аномалий, объяснение результатов нетехнической аудитории, дашборд KPI.
Технический совет: **Claude лучше для больших датасетов** (контекст до 200K токенов — это датасет на 3–5 тысяч строк целиком). ChatGPT лучше для интерактивной работы с Code Interpreter (Advanced Data Analysis в Plus). Gemini лучше всех для интеграции с Google Sheets. Не загружайте датасеты с PII в публичные модели — корпоративный тариф или анонимизированный сэмпл.
📊 Первичный разбор датасета
Я получил датасет и хочу понять, что в нём. Описание данных: Источник: [где собрали — БД / выгрузка из CRM / опрос / парсинг]. Размер: [число строк × столбцов]. Период: [за какое время]. Что хочу узнать: [бизнес-вопрос, к которому иду]. Образец 5 строк: ``` [ВСТАВЬ_СЭМПЛ] ``` Помоги собрать структуру первичного разведочного анализа (EDA): 1) Что описать в каждой колонке (тип данных, пропуски, диапазон, выбросы). 2) Какие группировки имеет смысл сделать. 3) 5 главных вопросов, на которые этот датасет может ответить. 4) 3 возможные ловушки в данных (паттерны пропусков, выбросы как ошибки vs реальные, проблемы кодировки). 5) Какие визуализации проверить первыми (распределения, корреляции, динамика). Не предполагай, что данные чистые. Если видишь в сэмпле подозрительные паттерны — указывай. В конце — какой первый запрос/график я должен сделать, чтобы получить максимум инсайта за 5 минут.
Раздел «3 ловушки в данных» — самое ценное в первичном анализе. Аналитик-новичок хватает датасет и сразу строит графики. Опытный сначала проверяет: NULL'ы это «нет данных» или «не знаем»? Выбросы — ошибка ввода или реальный сигнал? Странные паттерны — баг в выгрузке или правда жизни? Без этого все последующие выводы могут быть мусором.
📐 Excel-формула под задачу
Опиши задачу: [конкретно — что нужно посчитать, из каких ячеек, что должно получиться]. У меня данные в листе: Колонка A: [что в ней]. Колонка B: [что в ней]. ... Сначала спроси у меня версию Excel (если важно — новые функции вроде XLOOKUP, FILTER, LET доступны только в 365 / 2021+). Потом дай: 1) Готовую формулу для конкретной ячейки. 2) Пояснение по частям, что каждый кусок делает. 3) Альтернативу, если первая формула слишком сложная (более простая, может медленнее). 4) Что делать если в данных будут пропуски / ошибки / неожиданные значения. 5) Если задача из часто встречающихся — упомяни, что для неё лучше использовать сводную таблицу вместо формулы. Не предлагай VBA — большинство аналитиков сейчас работают без него, и это лишнее усложнение.
Уточняющий вопрос про версию Excel — критичен, потому что XLOOKUP в Excel 2016 не работает, и формула выдаст ошибку. Альтернатива «попроще / помедленнее» — для пользователей, которые должны передать файл коллегам с разными версиями. Подсказка про сводные таблицы — потому что аналитики часто строят формулы на 5 строк, когда сводная решает задачу за 30 секунд.
🗂️ SQL-запрос под бизнес-вопрос
Бизнес-вопрос: [конкретный, в одной фразе — например: «найти клиентов, которые сделали ≥3 заказа за последние 30 дней, но не заказывали товары категории X»]. Структура БД: Таблица [name]: колонки [list with types и пометки PK/FK]. Таблица [name]: колонки [...]. Связи: [FK relations]. Диалект SQL: [PostgreSQL / MySQL / MS SQL / BigQuery / ClickHouse]. Помоги собрать запрос: 1) SQL-запрос с комментариями по разделам (что делает FROM-блок, что JOIN, что WHERE и т.д.). 2) Объяснение ключевых решений — почему именно INNER JOIN, а не LEFT, почему именно эта агрегация. 3) Возможные проблемы производительности — если таблицы большие, какие индексы важны. 4) Альтернативные интерпретации вопроса — если бизнес-вопрос двусмысленный (например, «за последние 30 дней» — от сегодня или от конца прошлого месяца). Не выдумывай несуществующие функции. Если не уверен — отметь это явно.
Альтернативные интерпретации — критичный пункт. Бизнес-вопрос «активные клиенты за последние 30 дней» можно понять минимум 4 способами: rolling 30 дней назад от сегодня, последние 30 календарных дней, последний месяц по календарю, последние 30 рабочих дней. Без уточнения интерпретации SQL может дать правильный результат на неправильный вопрос.
📈 Выбор графика под данные
Я хочу визуализировать [что — сравнение / распределение / динамика / связь / состав] для [датасет в одной фразе]. Данные: Тип: [числовые / категориальные / временные]. Размер: [сколько точек / категорий]. Сэмпл: [несколько строк]. Аудитория: [инженеры / менеджеры / руководство]. Где будут смотреть: [презентация / Tableau-дашборд / в почте / Telegram]. Помоги выбрать тип графика: 1) Главная рекомендация — какой график и почему именно он. 2) Альтернативы — 1–2 варианта на случай если не подойдёт. 3) Чего избегать — графики, которые часто выбирают на эту задачу, но они хуже работают (например, 3D pie chart для долей — это анти-паттерн всегда). 4) Принципы оформления для этого типа графика — что выделить, что убрать, какая легенда нужна. 5) Контекст аудитории — что нужно дополнить графиком (заголовок-вывод, источник данных, период). Запрет: pie charts на >5 категориях, 3D-эффекты, double Y axis на разных шкалах — это всё плохие практики, которые искажают восприятие.
Чёрный список плохих практик визуализации — критично, потому что эти ошибки массовые. Pie chart на 10 категориях нечитаем, 3D эффекты искажают пропорции, double Y axis позволяет обмануть читателя визуально (две метрики выглядят коррелирующими, хотя реально нет). Если не запретить явно — модель будет рекомендовать это, потому что часто видит в обучающих данных.
🧪 Анализ A/B-теста
У меня результаты A/B-теста. Помоги разобрать. Контекст: Что тестировали: [гипотеза в одной фразе]. Целевая метрика: [что измеряли — конверсия / средний чек / retention]. Группа A (контроль): N=[число], результат [значение]. Группа B (тест): N=[число], результат [значение]. Длительность теста: [сколько дней]. Уровень значимости: 95% (стандарт). Ответь по структуре: 1) Статистическая значимость — посчитай p-value (формула или метод), укажи, значимо/незначимо. 2) Эффект — насколько B лучше/хуже A в процентах и в абсолютных числах. Доверительный интервал. 3) Практическая значимость — оценка, стоит ли результат внедрения (бизнес-смысл, не только статистика). 4) Возможные искажения — Simpson's paradox (разные подгруппы дают разный результат), novelty effect (свежесть выпадает через время), seasonality. 5) Рекомендация — раскатывать / не раскатывать / продлить тест / переделать. Если данных недостаточно для статистических выводов — скажи прямо. Не натягивай выводы на слабую выборку.
Раздел «практическая значимость» отделяет хорошего аналитика от плохого. Тест может дать статистически значимый прирост 0.5%, но если стоимость разработки фичи — миллион, то даже значимый эффект не окупится. И наоборот — большой эффект 30% при p>0.05 может означать, что просто маленькая выборка, и продление теста разоблачит флуктуацию.
🚨 Поиск аномалий в данных
Я подозреваю, что в моих данных есть аномалии. Помоги их найти и оценить. Данные: Период наблюдения: [сколько]. Метрика: [что измеряем]. Типичный профиль (если есть представление): [например, среднее / медиана / диапазон]. Где подозрение: [конкретный период / сегмент]. Сэмпл данных: [строки или ссылка на агрегат]. Помоги пройти по чек-листу: 1) Какие типы аномалий искать: - Точечные (один день / одна транзакция) - Сдвиг тренда (новый baseline) - Сезонные (вне ожидаемого паттерна) - Контекстуальные (норма в одном сегменте, аномалия в другом) 2) Какие методы применить (просто) — пороговые правила, std deviations, IQR, MAD. 3) Какие методы применить (сложнее) — STL decomposition, isolation forest, autoencoders. 4) Возможные объяснения каждой найденной аномалии — баг трекинга / реальное событие / сезонность / outlier-клиент. 5) Что делать с аномалией — игнорировать, удалить из данных, исследовать отдельно. Не классифицируй как аномалию то, что просто редкое — редкое и аномальное это разное.
Различие «редкое vs аномальное» — главный источник ошибок. Самый крупный клиент с заказом в 100 раз больше остальных — это не аномалия, это особенность хвоста распределения. Удалив его из анализа, вы получите искажённую картину бизнеса. Аномалия — это то, что не объяснимо природой данных. Просьба «искать объяснение» — против слепого удаления outlier'ов.
🗣️ Объяснить результаты руководству
Я закончил анализ и хочу донести результаты до руководителя [НЕ-ТЕХ]. Что я нашёл (мои выводы): [ОПИШИ_ВЫВОДЫ — несколько ключевых фактов с цифрами]. Контекст бизнеса: [почему это важно]. Что я предлагаю сделать: [рекомендации]. Помоги переложить выводы в формат для руководителя: 1) Главный вывод одной фразой (TL;DR в самом начале — руководитель часто читает только первое предложение). 2) 3 ключевые цифры — те, что ему запомнятся. 3) Что это значит для бизнеса — конкретно, в деньгах или решениях, не в процентах конверсии. 4) Что я предлагаю сделать — 2–3 действия максимум, с приоритетом. 5) Риски и допущения моего анализа — что я мог упустить. Принципы: Без статистических терминов — никаких p-value, confidence interval, statistical significance. Заменяй на «уверены / недостаточно данных / сильный сигнал». Цифры в человеческом формате — «10 миллионов рублей в месяц», а не «10 000 000 рублей». Графики, не таблицы. Запрет: пассивный залог, «было выявлено что», «представляется целесообразным» — это всё научно-канцелярский тон.
Руководитель не аналитик. Если в первой фразе будет «p-value 0.03 при бутстрап-выборке n=10000», он закроет вкладку. Перевод на бизнес-язык («сильный сигнал», «уверены», «требует дополнительных данных») сохраняет честность и читабельность. Главное — первая фраза с TL;DR. Если она цепляет, руководитель прочитает дальше.
📊 Структура дашборда KPI
Помоги собрать структуру дашборда KPI для [АУДИТОРИЯ — продакт-менеджер / руководитель / финансовый отдел / маркетинг]. Бизнес-цель аудитории: [что они отслеживают и за что отвечают]. Частота просмотра: [ежедневно / еженедельно / ежемесячно]. Где будет: [Tableau / Power BI / Looker / Метабаза / Google Data Studio]. Структура дашборда сверху вниз: 1) Главные KPI (3–5 цифр) — то, что просит руководитель в 7 часов утра. Большие цифры с динамикой против прошлого периода. 2) Контекст KPI — мини-графики тренда за последние 30/90 дней рядом с цифрами. 3) Разрезы по сегментам — те, по которым принимаются решения (по продукту, региону, каналу). 4) Алерты / отклонения — что прямо сейчас выходит за норму. 5) Опциональные deep-dives — детали для интересующихся. Принципы: Не больше 5–7 виджетов на главном экране — иначе глаз не цепляется ни за один. Каждая метрика — с контекстом (good/bad, цвет, динамика). Дата обновления данных — отдельным элементом, видимым. Все графики на одной странице, без табов (пользователи не кликают). Запрет: pie charts, gauge charts (полуокружности со стрелкой), table with 50 rows.
Главный анти-паттерн дашборда — попытка впихнуть всё. Дашборд работает, когда пользователь за 10 секунд видит «всё ок» или «проблема здесь». Если на дашборде 30 виджетов, это не дашборд, это аналитический отчёт, и его никто не открывает. 5 главных KPI + алерты + опционально detail — формула рабочего дашборда.