8 промптов для анализа данных и Excel

Аналитик с ChatGPT теряет 40–60% времени на рутину: написать SQL под новую гипотезу, объяснить менеджеру что значит p-value, превратить таблицу 50 строк в график, вспомнить формулу VLOOKUP в Excel. Промпты ниже — не для замены аналитики, а для снятия именно этой рутины.

Внутри — 8 шаблонов: разбор датасета, Excel-формулы, SQL-запросы, выбор графика, A/B-тест анализ, поиск аномалий, объяснение результатов нетехнической аудитории, дашборд KPI.

Технический совет: **Claude лучше для больших датасетов** (контекст до 200K токенов — это датасет на 3–5 тысяч строк целиком). ChatGPT лучше для интерактивной работы с Code Interpreter (Advanced Data Analysis в Plus). Gemini лучше всех для интеграции с Google Sheets. Не загружайте датасеты с PII в публичные модели — корпоративный тариф или анонимизированный сэмпл.

📊 Первичный разбор датасета

Я получил датасет и хочу понять, что в нём.

Описание данных:
Источник: [где собрали — БД / выгрузка из CRM / опрос / парсинг].
Размер: [число строк × столбцов].
Период: [за какое время].
Что хочу узнать: [бизнес-вопрос, к которому иду].
Образец 5 строк:
```
[ВСТАВЬ_СЭМПЛ]
```

Помоги собрать структуру первичного разведочного анализа (EDA):
1) Что описать в каждой колонке (тип данных, пропуски, диапазон, выбросы).
2) Какие группировки имеет смысл сделать.
3) 5 главных вопросов, на которые этот датасет может ответить.
4) 3 возможные ловушки в данных (паттерны пропусков, выбросы как ошибки vs реальные, проблемы кодировки).
5) Какие визуализации проверить первыми (распределения, корреляции, динамика).

Не предполагай, что данные чистые. Если видишь в сэмпле подозрительные паттерны — указывай.
В конце — какой первый запрос/график я должен сделать, чтобы получить максимум инсайта за 5 минут.

💡 Примечание

Раздел «3 ловушки в данных» — самое ценное в первичном анализе. Аналитик-новичок хватает датасет и сразу строит графики. Опытный сначала проверяет: NULL'ы это «нет данных» или «не знаем»? Выбросы — ошибка ввода или реальный сигнал? Странные паттерны — баг в выгрузке или правда жизни? Без этого все последующие выводы могут быть мусором.

📐 Excel-формула под задачу

Опиши задачу: [конкретно — что нужно посчитать, из каких ячеек, что должно получиться].
У меня данные в листе:
Колонка A: [что в ней].
Колонка B: [что в ней].
...

Сначала спроси у меня версию Excel (если важно — новые функции вроде XLOOKUP, FILTER, LET доступны только в 365 / 2021+).

Потом дай:
1) Готовую формулу для конкретной ячейки.
2) Пояснение по частям, что каждый кусок делает.
3) Альтернативу, если первая формула слишком сложная (более простая, может медленнее).
4) Что делать если в данных будут пропуски / ошибки / неожиданные значения.
5) Если задача из часто встречающихся — упомяни, что для неё лучше использовать сводную таблицу вместо формулы.

Не предлагай VBA — большинство аналитиков сейчас работают без него, и это лишнее усложнение.

💡 Примечание

Уточняющий вопрос про версию Excel — критичен, потому что XLOOKUP в Excel 2016 не работает, и формула выдаст ошибку. Альтернатива «попроще / помедленнее» — для пользователей, которые должны передать файл коллегам с разными версиями. Подсказка про сводные таблицы — потому что аналитики часто строят формулы на 5 строк, когда сводная решает задачу за 30 секунд.

🗂️ SQL-запрос под бизнес-вопрос

Бизнес-вопрос: [конкретный, в одной фразе — например: «найти клиентов, которые сделали ≥3 заказа за последние 30 дней, но не заказывали товары категории X»].

Структура БД:
Таблица [name]: колонки [list with types и пометки PK/FK].
Таблица [name]: колонки [...].
Связи: [FK relations].

Диалект SQL: [PostgreSQL / MySQL / MS SQL / BigQuery / ClickHouse].

Помоги собрать запрос:
1) SQL-запрос с комментариями по разделам (что делает FROM-блок, что JOIN, что WHERE и т.д.).
2) Объяснение ключевых решений — почему именно INNER JOIN, а не LEFT, почему именно эта агрегация.
3) Возможные проблемы производительности — если таблицы большие, какие индексы важны.
4) Альтернативные интерпретации вопроса — если бизнес-вопрос двусмысленный (например, «за последние 30 дней» — от сегодня или от конца прошлого месяца).

Не выдумывай несуществующие функции. Если не уверен — отметь это явно.

💡 Примечание

Альтернативные интерпретации — критичный пункт. Бизнес-вопрос «активные клиенты за последние 30 дней» можно понять минимум 4 способами: rolling 30 дней назад от сегодня, последние 30 календарных дней, последний месяц по календарю, последние 30 рабочих дней. Без уточнения интерпретации SQL может дать правильный результат на неправильный вопрос.

📈 Выбор графика под данные

Я хочу визуализировать [что — сравнение / распределение / динамика / связь / состав] для [датасет в одной фразе].

Данные:
Тип: [числовые / категориальные / временные].
Размер: [сколько точек / категорий].
Сэмпл: [несколько строк].
Аудитория: [инженеры / менеджеры / руководство].
Где будут смотреть: [презентация / Tableau-дашборд / в почте / Telegram].

Помоги выбрать тип графика:
1) Главная рекомендация — какой график и почему именно он.
2) Альтернативы — 1–2 варианта на случай если не подойдёт.
3) Чего избегать — графики, которые часто выбирают на эту задачу, но они хуже работают (например, 3D pie chart для долей — это анти-паттерн всегда).
4) Принципы оформления для этого типа графика — что выделить, что убрать, какая легенда нужна.
5) Контекст аудитории — что нужно дополнить графиком (заголовок-вывод, источник данных, период).

Запрет: pie charts на >5 категориях, 3D-эффекты, double Y axis на разных шкалах — это всё плохие практики, которые искажают восприятие.

💡 Примечание

Чёрный список плохих практик визуализации — критично, потому что эти ошибки массовые. Pie chart на 10 категориях нечитаем, 3D эффекты искажают пропорции, double Y axis позволяет обмануть читателя визуально (две метрики выглядят коррелирующими, хотя реально нет). Если не запретить явно — модель будет рекомендовать это, потому что часто видит в обучающих данных.

🧪 Анализ A/B-теста

У меня результаты A/B-теста. Помоги разобрать.

Контекст:
Что тестировали: [гипотеза в одной фразе].
Целевая метрика: [что измеряли — конверсия / средний чек / retention].
Группа A (контроль): N=[число], результат [значение].
Группа B (тест): N=[число], результат [значение].
Длительность теста: [сколько дней].
Уровень значимости: 95% (стандарт).

Ответь по структуре:
1) Статистическая значимость — посчитай p-value (формула или метод), укажи, значимо/незначимо.
2) Эффект — насколько B лучше/хуже A в процентах и в абсолютных числах. Доверительный интервал.
3) Практическая значимость — оценка, стоит ли результат внедрения (бизнес-смысл, не только статистика).
4) Возможные искажения — Simpson's paradox (разные подгруппы дают разный результат), novelty effect (свежесть выпадает через время), seasonality.
5) Рекомендация — раскатывать / не раскатывать / продлить тест / переделать.

Если данных недостаточно для статистических выводов — скажи прямо. Не натягивай выводы на слабую выборку.

💡 Примечание

Раздел «практическая значимость» отделяет хорошего аналитика от плохого. Тест может дать статистически значимый прирост 0.5%, но если стоимость разработки фичи — миллион, то даже значимый эффект не окупится. И наоборот — большой эффект 30% при p>0.05 может означать, что просто маленькая выборка, и продление теста разоблачит флуктуацию.

🚨 Поиск аномалий в данных

Я подозреваю, что в моих данных есть аномалии. Помоги их найти и оценить.

Данные:
Период наблюдения: [сколько].
Метрика: [что измеряем].
Типичный профиль (если есть представление): [например, среднее / медиана / диапазон].
Где подозрение: [конкретный период / сегмент].
Сэмпл данных: [строки или ссылка на агрегат].

Помоги пройти по чек-листу:
1) Какие типы аномалий искать:
   - Точечные (один день / одна транзакция)
   - Сдвиг тренда (новый baseline)
   - Сезонные (вне ожидаемого паттерна)
   - Контекстуальные (норма в одном сегменте, аномалия в другом)
2) Какие методы применить (просто) — пороговые правила, std deviations, IQR, MAD.
3) Какие методы применить (сложнее) — STL decomposition, isolation forest, autoencoders.
4) Возможные объяснения каждой найденной аномалии — баг трекинга / реальное событие / сезонность / outlier-клиент.
5) Что делать с аномалией — игнорировать, удалить из данных, исследовать отдельно.

Не классифицируй как аномалию то, что просто редкое — редкое и аномальное это разное.

💡 Примечание

Различие «редкое vs аномальное» — главный источник ошибок. Самый крупный клиент с заказом в 100 раз больше остальных — это не аномалия, это особенность хвоста распределения. Удалив его из анализа, вы получите искажённую картину бизнеса. Аномалия — это то, что не объяснимо природой данных. Просьба «искать объяснение» — против слепого удаления outlier'ов.

🗣️ Объяснить результаты руководству

Я закончил анализ и хочу донести результаты до руководителя [НЕ-ТЕХ].

Что я нашёл (мои выводы):
[ОПИШИ_ВЫВОДЫ — несколько ключевых фактов с цифрами].

Контекст бизнеса: [почему это важно].
Что я предлагаю сделать: [рекомендации].

Помоги переложить выводы в формат для руководителя:
1) Главный вывод одной фразой (TL;DR в самом начале — руководитель часто читает только первое предложение).
2) 3 ключевые цифры — те, что ему запомнятся.
3) Что это значит для бизнеса — конкретно, в деньгах или решениях, не в процентах конверсии.
4) Что я предлагаю сделать — 2–3 действия максимум, с приоритетом.
5) Риски и допущения моего анализа — что я мог упустить.

Принципы:
Без статистических терминов — никаких p-value, confidence interval, statistical significance. Заменяй на «уверены / недостаточно данных / сильный сигнал».
Цифры в человеческом формате — «10 миллионов рублей в месяц», а не «10 000 000 рублей».
Графики, не таблицы.
Запрет: пассивный залог, «было выявлено что», «представляется целесообразным» — это всё научно-канцелярский тон.

💡 Примечание

Руководитель не аналитик. Если в первой фразе будет «p-value 0.03 при бутстрап-выборке n=10000», он закроет вкладку. Перевод на бизнес-язык («сильный сигнал», «уверены», «требует дополнительных данных») сохраняет честность и читабельность. Главное — первая фраза с TL;DR. Если она цепляет, руководитель прочитает дальше.

📊 Структура дашборда KPI

Помоги собрать структуру дашборда KPI для [АУДИТОРИЯ — продакт-менеджер / руководитель / финансовый отдел / маркетинг].

Бизнес-цель аудитории: [что они отслеживают и за что отвечают].
Частота просмотра: [ежедневно / еженедельно / ежемесячно].
Где будет: [Tableau / Power BI / Looker / Метабаза / Google Data Studio].

Структура дашборда сверху вниз:
1) Главные KPI (3–5 цифр) — то, что просит руководитель в 7 часов утра. Большие цифры с динамикой против прошлого периода.
2) Контекст KPI — мини-графики тренда за последние 30/90 дней рядом с цифрами.
3) Разрезы по сегментам — те, по которым принимаются решения (по продукту, региону, каналу).
4) Алерты / отклонения — что прямо сейчас выходит за норму.
5) Опциональные deep-dives — детали для интересующихся.

Принципы:
Не больше 5–7 виджетов на главном экране — иначе глаз не цепляется ни за один.
Каждая метрика — с контекстом (good/bad, цвет, динамика).
Дата обновления данных — отдельным элементом, видимым.
Все графики на одной странице, без табов (пользователи не кликают).
Запрет: pie charts, gauge charts (полуокружности со стрелкой), table with 50 rows.

💡 Примечание

Главный анти-паттерн дашборда — попытка впихнуть всё. Дашборд работает, когда пользователь за 10 секунд видит «всё ок» или «проблема здесь». Если на дашборде 30 виджетов, это не дашборд, это аналитический отчёт, и его никто не открывает. 5 главных KPI + алерты + опционально detail — формула рабочего дашборда.

8 промптов для анализа данных, Excel и SQL

📊 Первичный разбор датасета

📐 Excel-формула под задачу

🗂️ SQL-запрос под бизнес-вопрос

📈 Выбор графика под данные

🧪 Анализ A/B-теста

🚨 Поиск аномалий в данных

🗣️ Объяснить результаты руководству

📊 Структура дашборда KPI