o3 vs o4-mini: какая модель для аналитики, какая для креатива

Когда OpenAI выпустила o3 и o4-mini, я решил протестировать их на реальных задачах, а не по официальным бенчмаркам. Цель — понять, какая модель для чего подходит в моих сценариях: анализ научных публикаций, разбор финансовых данных, креативные задачи и работа с изображениями.

У o3 контекстное окно — 128K токенов. Этого хватает на среднюю научную статью с приложениями или на несколько документов в одном диалоге. На анализе статей модель повела себя любопытно: выявила, что результаты некоторых исследований подвержены предвзятости — заметила это в методологии, в выборке, в формулировке гипотез. Дополнительно предложила, как эту предвзятость можно проверить и при необходимости скорректировать.

Финансовые данные за 5 лет — задача про много чисел и связей. o3 не просто пересказывает таблицу, она строит графики (через инструменты), сравнивает периоды, находит аномалии и аккуратно описывает их в виде гипотез: вот тут резкий рост, возможные причины такие-то, проверить можно следующим образом. Это уже напоминает работу младшего аналитика, а не просто ответ из чата.

На креативе картина другая. o4-mini для генерации идей оказалась интереснее: она быстрее реагирует, выдаёт больше вариантов за одно обращение, и среди них встречаются по-настоящему свежие. o3 здесь излишне осторожна — рассуждает, проверяет, отсеивает. Для брейншторма это иногда мешает: хочется поток идей, а не выверенный анализ.

На работе с изображениями o4-mini тоже показывает себя лучше. Её мультимодальные способности дают разумную цену скорости: распознать содержимое, описать сцену, выделить объекты. o3 умеет глубже, но платишь за это временем и токенами. Для типовых vision-задач o4-mini часто более практичный выбор.

Главный вывод. o3 — это инструмент для задач, где нужна аккуратность и многошаговый анализ: исследования, разбор сложных данных, проверка гипотез. o4-mini — быстрый, лёгкий и гибкий инструмент для всего остального: креатив, vision, повседневные обращения, где скорость отклика важнее ювелирной глубины. По цене o4-mini выигрывает в разы, и для большинства сценариев именно она — практичный выбор.

По типичным сценариям моего рабочего дня выходит так. Утренний разбор отчётов и аналитика — o3, потому что важнее не пропустить детали и связи. Brainstorm идей для контента и продукта — o4-mini, поток вариантов ценнее, чем глубина каждого. Работа с фото и скриншотами — o4-mini за её скорость. И только редкие задачи, где нужно одновременно vision + reasoning + tool-use глубоко — там я возвращаюсь на o3, понимая, что это будет дольше и дороже.