Как мы автоматизировали SERM с Gemini 1.5 Pro и ChatGPT: 3× обращений

Работаю в агентстве, которое занимается SERM — управлением репутацией в поисковой выдаче. У нас типовая операционка: тысячи отзывов в день, на которые нужно отвечать; разбор тональности входящих текстов; сортировка сотен отзывов с выделением ключевых жалоб; поиск повторяющихся проблем в месячных выборках, чтобы выводить их клиенту как системные. Раньше всё это делали менеджеры руками — от монотонной работы быстро устают и выгорают. Идея простая: передать монотонную часть нейросетям и оставить людям стратегию.

Поделили модели по сильным сторонам. Gemini 1.5 Pro взял аналитику: за счёт большого контекстного окна в него можно загрузить месячный CSV и за минуту получить отчёт вида «15 человек пожаловались на грязные столы, 8 — на сломанный кондиционер». ChatGPT (GPT-4o) остался на потоке ответов: на пятизвёздочные отзывы без текста и на короткое «всё супер» — где важно держать инструкцию и не вылезать за рамки.

Если коротко по таблице. Структура: GPT-4o чётче держит инструкцию, Gemini иногда добавляет лишний текст. Большие данные: ChatGPT теряет суть в длинных файлах, Gemini отлично анализирует месячные логи. Креатив: GPT-4o часто использует шаблоны, Gemini пишет более живым языком. Скорость: GPT-4o зависит от нагрузки, Gemini стабильно быстрый.

Первые попытки запустить это в продакшен были провальными. У обеих моделей всплыли одни и те же проблемы. Галлюцинации: бот извинялся за таракана в супе, хотя в отзыве про таракана не было ни слова. Эмоциональная глухота: на жалобу отвечает сухим канцелярским языком, как будто читает отписку. Сарказм считывает буквально — «спасибо за испорченный вечер» воспринимает как благодарность.

Качество вытащили промт-инжинирингом и параметрами. Мягкие просьбы вроде «постарайся быть дружелюбным» заменили жёсткими ограничениями в негативной формулировке: «не пиши X», «не придумывай факты, которых нет в отзыве», «не используй канцелярит». Температуру опустили с 0.7 до 0.3 — модель стала менее «творческой» и перестала фантазировать. Top_p поставили 0.9, чтобы оставить узкий, но осмысленный набор формулировок.

Сверху повесили post-processing фильтры. Они отлавливают подозрительные фразы — извинения за то, чего не было, благодарности за сарказм — и выводят такие карточки на ручную проверку оператору. Это убрало большую часть оставшихся ошибок.

Из этого выросла модель «Human in the loop». Оператор не формулирует ответ с нуля — он смотрит черновик от модели и правит. Психологически это сильно проще: меньше выгорания, меньше монотонного копирования, человек тратит силы на смысл, а не на формулировки.

Аналитический контур работает так. Раз в месяц выгружаем отзывы по клиенту в CSV и кидаем в Gemini одним промтом. Получаем структурированный отчёт: топ-10 повторяющихся проблем с числом упоминаний, тональность по локациям, необычные кейсы, которые стоит рассмотреть руками. Раньше на такой отчёт уходила неделя младшего аналитика, теперь — минута на запрос плюс пара часов на проверку и оформление под клиента.

По цифрам — обработка обращений выросла в три раза при том же штате. Время реакции на типовой отзыв сократилось с суток до пары часов. Число явных ошибок ушло на приемлемый уровень. Финансовых показателей я в открытую не дам — NDA. Но по ощущению команды и по нагрузке: Gemini закрыл аналитическую часть, которую раньше делать руками было дорого и лень, и за счёт этого появились системные инсайты для клиентов. ChatGPT остался на потоке, где важна предсказуемость. Голую LLM без негативных промтов и фильтров в поток отзывов не пускайте — даже самую современную.