Тест o3 и o4-mini на трёх задачах: рецепт, локация по фото, рост по фотографии

Когда OpenAI анонсировала o3 и o4-mini — два новых поколения reasoning-моделей — захотелось проверить их не по бенчмаркам, а на конкретных задачах, с которыми могут столкнуться обычные пользователи. Я системный администратор в Selectel, и мне интересно было выжать максимум из tool-use и multimodal-режима: насколько эти модели реально дотягиваются до того, что заявлено в анонсах.

Сначала про железо рынка. По цене o3 — $10 за миллион входных токенов, $40 за миллион выходных. Кеширование повторно используемых токенов — $2.50 за миллион, это снижает счёт на длинных диалогах. o4-mini заметно дешевле: $1.10 за входные, $4.40 за выходные. Контекстное окно — до 256K токенов без потери качества (на большем уже начинает проседать). Время обработки сложных запросов с инструментами — обычно меньше 60 секунд.

Кейс первый: расшифровать рецепт, написанный врачом. Тот самый, неразборчивым почерком. Загрузил фото бумажки в o3 с просьбой прочитать. Модель работала 12 минут 52 секунды — за это время она пыталась применить разные стратегии: распознавание букв, контекстное угадывание по соседним словам, поиск типовых сокращений. Результат — честный провал. На некоторых местах модель писала «не могу разобрать», и это правильнее, чем галлюцинация. В целом — врачебный почерк остался непобеждённым.

Кейс второй: определить адрес офиса по фотографии. Загрузил снимок входной зоны, ничего больше. o3 за 3 минуты 4 секунды нашла улицу и сузила до конкретного дома. Погрешность — два дома от реального адреса. Метод: модель использовала Street View как инструмент, проходила по похожим фасадам в районе и сравнивала детали — окна, вывески, элементы благоустройства. Это не магия, это аккуратная работа с географической базой и поиском по похожим изображениям.

Кейс третий: измерить рост человека на фотографии. Дано — фотография людей у канализационного люка. o3 решила задачу методом относительного масштабирования: люк имеет стандартный диаметр, и через него можно вычислить реальные размеры объектов рядом. Восемь с половиной минут расчётов — выдала рост с погрешностью ±5 см. Для оценки роста по случайному фото это очень хороший результат.

Что общего в успешных кейсах. o3 умеет использовать инструменты — Python для расчётов, обработка изображений, работа с географическими базами. Это именно та черта, которая отличает reasoning-модель от обычной LLM: она не пытается «угадать» ответ из обучающей выборки, а строит цепочку шагов с проверками. На AIME-2025 (математическая олимпиада уровня финала) o4-mini с инструментами выдала 99.5% точности — это уровень, на котором модель решает большую часть задач лучше человека-олимпиадника.

Где не работает. Любая задача, требующая распознавания, которое в принципе сложно автоматизировать — врачебный почерк, сильно зашумлённые изображения, тексты на редких языках с нечёткой графикой. Модель честно говорит «не знаю» и не выдумывает — это плюс, но факт остаётся: часть задач остаётся за пределами возможностей.

По итогу o3 — это правильный выбор для задач, где нужна цепочка рассуждений с tool-use. o4-mini — для тех же задач, но где важнее скорость и стоимость, и можно потерять немного в точности на edge-cases. Для повседневной работы (написать письмо, кратко пересказать текст) обе модели — overkill, дешевле брать GPT-4o или Claude Sonnet.