Stable Diffusion vs Imagen 3 2026: open-weights с ControlNet против photorealism от Google и deprecation 24.06.2026
Сравниваем Stable Diffusion (open-weights, ControlNet, LoRA, self-host под 152-ФЗ, $0–0.065 за картинку) и Imagen 3 (топ-3 photorealism, $0.04 Standard / $0.02 Fast через Vertex AI, shutdown 24 июня 2026 с миграцией на Gemini 3 Pro Image). 18 подтем, оценки по 18 параметрам.
Содержание
Stable Diffusion от Stability AI — open-weights-фундамент категории image-ai. Миллионы загрузок на Hugging Face, экосистема ControlNet / LoRA / IP-Adapter на Civitai, ComfyUI и Automatic1111 как стандартный self-host-стек. Лицензия CreativeML Open RAIL-M на SD 1.5 / SDXL без revenue-лимитов; Community License на SD3 / SD3.5 — свободно до $1M годовой выручки.
Imagen 3 от Google (Alphabet) — закрытая premium-модель доступная только через Vertex AI и Gemini API. Photorealism топ-3 категории на одной полке с Midjourney v7 и FLUX.1 Pro, prompt adherence через Gemini multimodal — лидер, встроенный SynthID watermarking для compliance. Standard $0.04/картинка, Fast $0.02, Image Edit $0.02, Upscale $0.003. Главный нюанс пары: Imagen 3 и Imagen 4 уходят на shutdown 24 июня 2026, Google рекомендует Gemini 3 Pro Image для новых проектов.
Это пара из разных подгрупп категории: open-weights универсальная платформа против premium-cloud от гипермасштабного провайдера. Если решаете «ControlNet, LoRA, self-host под регуляторкой, editing-pipeline, полный контроль данных» — Stable Diffusion. Если «топовый photoreal прямо сейчас, прод на Vertex AI рядом с Gemini, SynthID для compliance» — Imagen 3 с обязательным планом миграции на Gemini 3 Pro Image к лету 2026. Где интересно сравнение с другими premium-моделями — см. наш обзор Midjourney vs Imagen 3 и обзор Stable Diffusion vs Ideogram.
Карта подгрупп: что эти N сервисов реально делают
Кто эти двое в каталоге
Stable Diffusion — open-weights-платформа, которую качают на свой GPU и вокруг которой выросла половина инструментария image-AI. Imagen 3 — закрытая premium-модель от Google, доступная только через Vertex AI, с топ-3 photorealism в категории и shutdown 24.06.2026. Это разные подгруппы и разные операционные модели.
В нашей карте категории image-ai (см. саму категорию) есть пять подгрупп: премиум-проприетарные модели (Midjourney, DALL-E 3, Imagen 3, FLUX.1 Pro, Adobe Firefly), open-weights (Stable Diffusion и FLUX.1 Dev/Schnell), мульти-модельные агрегаторы (Krea, NightCafe, Lexica), специализированные продукты (Ideogram для текста, Recraft для вектора, Leonardo для геймдева, Playground для канваса) и локализованный Kandinsky от Сбера. Stable Diffusion сидит в open-weights строке этой таблицы, Imagen 3 — в premium-proprietary рядом с Midjourney и FLUX.1 Pro. Пара кросс-подгрупповая, и это определяет всё дальнейшее сравнение.
Stable Diffusion — это платформа, а не сервис. Скачали с
Hugging Face веса (репозиторий stabilityai/stable-diffusion-3-5-large
или stabilityai/stable-diffusion-xl-base-1.0), запустили в
Automatic1111, ComfyUI или Forge UI на собственной видеокарте, навесили
ControlNet, IP-Adapter, нужные LoRA с Civitai — получили рабочее место
дизайн-студии. Лицензия CreativeML Open RAIL-M на SD 1.5 и SDXL — без
revenue-ограничений. На SD3 и SD3.5 — Community License: бесплатно
до $1M годовой выручки, дальше Enterprise-договор. По сути, это
единственный способ генерировать картинки полностью внутри собственного
периметра, без отправки промптов и результатов в чужое облако.
Imagen 3 — premium-сервис на инфраструктуре Google. Модель доступна только через Vertex AI (cloud.google.com/vertex-ai) и Gemini API; standalone consumer-сервиса нет — пользователь обращается к ней либо из своего Google Cloud проекта, либо через мобильное приложение Gemini. Photorealism — топ-3 категории на одной полке с Midjourney v7 и FLUX.1 Pro. Prompt adherence через Gemini multimodal — лидер категории (см. dossier). Встроенный SynthID watermarking даёт криптографическую метку «это AI-генерация» — важно для compliance в рекламе и медиа. Главный риск: dossier фиксирует shutdown Imagen 3 и Imagen 4 на 24 июня 2026, Google рекомендует мигрировать на Gemini 3 Pro Image для новых проектов. Это значит, что любой production на Imagen 3 в 2026 — это уже временное решение с плановой миграцией.
Источник: dossiers/stable-diffusion.md, dossiers/imagen-3.md (апрель 2026).
По матрице сразу видно: «лучшего» в этой паре нет, есть «под какую задачу». Семь параметров, и в трёх из них один сервис 9–10/10, а другой 1–2/10; в двух — наоборот. Это два разных продукта, и переход между ними обычно стоит не «отмены подписки», а перестройки всего рабочего процесса: с self-host ComfyUI-графа на cloud-API через Vertex AI, или наоборот. Дальше в обзоре мы сравниваем их по 18 параметрам — у пары почти везде явный 9+ и явный ≤6, потому что задачи разные.
Если вы вышли в эту пару с вопросом «что выбрать в общем» — вопрос пока не сформулирован. У сервисов разные операционные модели, и переход между ними не бесплатный.
→ Сформулируйте задачу точнее: «реклама с photoreal-портретами через Vertex AI рядом с Gemini» → Imagen 3 с планом миграции на Gemini 3 Pro Image; «концепт-арт серии персонажей в едином стиле и под 152-ФЗ» → SD + ControlNet + LoRA на своей GPU: не платите $400–1700 за GPU под задачу, которая решается $0.04 за картинку через API; и не строите cloud-пайплайн под задачу, которая требует self-host
Качество фотореализма: AI-tell детект в blind-тестах
Портрет CFO для годового отчёта — пройдёт ли blind-тест
Маркетолог в финтехе готовит годовой отчёт. На обложке должен быть человек, который не вызывает вопросов на печати в А4. На Imagen 3 «как есть» — фотореалистично с первого прохода. На SD 3.5 Large «как есть» — заметно мягче, потолок поднимается LoRA-настройкой.
Фотореализм — это способность модели пройти blind-тест за две секунды без подсказки «это AI». Метрика, по которой image-AI оценивает индустрия: анатомия лиц, естественность кожи, корректность пальцев, реалистичные отражения, отсутствие пластикового блеска. В категории на 2026 топ-3 по этому параметру — Midjourney v7, FLUX.1 Pro, Imagen 3 (см. dossier). Stable Diffusion в базовой комплектации в эту тройку не входит.
В dossier Stable Diffusion прямо написано слабое место: «качество ниже Midjourney/FLUX.1 Pro на photorealism, особенно для рук и лиц». Это про SD «как есть», без LoRA, без ControlNet, без inpainting-доводки. У SD 3.5 Large и SDXL анатомия лиц и рук остаётся ахиллесовой пятой: пальцы периодически сливаются или удваиваются, глаза смотрят немного в разные стороны, кожа пластичнее, чем у Imagen 3.
Но главное преимущество SD — экосистема LoRA. На Civitai лежат сотни обученных под фотореализм адаптеров: epiCRealism, RealVisXL, JuggernautXL и десятки других. С правильным photoreal-LoRA, негативным промптом против «AI-look» и двумя-тремя итерациями с inpainting на лице SD 3.5 Large выходит на уровень, который сложно отличить от Imagen 3 без специального детектора. Цена этого — полчаса настройки workflow в первый раз и плюс ~10 секунд на каждой генерации после.
Imagen 3 в фотореализме сильнее «из коробки», но потолок у него жёстко закрыт продуктом: тонкая настройка стиля невозможна — нельзя загрузить свой LoRA или fine-tune модели на свои референсы. Это «лучший результат с первого прохода без возни», но и потолок там же, где и старт. Для маркетолога, которому нужен один photoreal-портрет в неделю, этого хватает с запасом. Для агентства, которое делает сотни кадров в одинаковом стиле — потолок Imagen становится ограничением.
На практике: «как есть» Imagen 3 заметно сильнее, 9/10 против 6/10 у SD. С photoreal-LoRA SD выравнивается на 9/10, но требует 30 минут на настройку первый раз. У Imagen 3 потолок жёстко закрыт продуктом — больше, чем встроенный photorealism, выжать нельзя; у SD потолок поднимается каждым новым LoRA с Civitai. Если фотореализм — критичный параметр и нет полчаса разбираться с настройкой, базово берётся Imagen 3 (или вообще другой сервис вне пары — Midjourney v7, FLUX.1 Pro).
Если фотореализм критичен и нужен результат с первого прохода без настройки workflow (маркетолог в B2B, годовой отчёт, presentations, рекламные ключевики)
→ Imagen 3 Standard через Vertex AI ($0.04/картинка) или Fast ($0.02); план миграции на Gemini 3 Pro Image к 24.06.2026; альтернатива вне пары — FLUX.1.1 Pro или Midjourney v7: топовый photoreal без 30 минут на настройку LoRA-стека; при 50 картинках в месяц годовой расход $24, при 500 — $240
Следование промпту и сложные сцены
Промпт из 7 элементов — сколько действительно окажется на картинке
Дизайнер пишет: «бородатый мужчина в красной куртке, держит чашку кофе на фоне реки в Москве, на переднем плане голубь, винтажная плёнка, золотой час». Семь элементов. Imagen 3 через Gemini multimodal сложит шесть-семь. SD «как есть» — четыре-пять, плюс ещё ControlNet/IP-Adapter, если у вас точная композиция в голове.
Prompt adherence — это сколько элементов из сложного промпта реально попадает на финальную картинку. Если промпт содержит 5–7 деталей, у слабых моделей две-три из них теряются: модель «упрощает» сцену под свои тренировочные паттерны. У сильных — на финальной картинке шесть из семи деталей, и они там, где написано.
Imagen 3 — лидер категории в prompt adherence. В dossier зафиксировано: «Prompt adherence через Gemini multimodal — лидер». Технически это означает, что промпт проходит через Gemini-модель перед генерацией: Gemini понимает не только что в промпте написано, но и в каком порядке детали логически связаны. Если в промпте «голубь на переднем плане», Imagen 3 поставит голубя именно на передний план, а не куда-нибудь в кадр. Сложные сцены с 5–7 элементами Imagen собирает заметно точнее, чем SD «как есть».
Stable Diffusion на CLIP-encoder теряет детали. SD 1.5 и SDXL обучались с CLIP-текстовым энкодером, который короткие промпты обрабатывает хорошо, а длинные с описанием композиции — заметно хуже. SD3 и SD3.5 перешли на T5-encoder и стали лучше, но до Imagen 3 им далеко. Для сложных сцен в SD спасает Regional Prompter (расширение для A1111/ComfyUI) — задаёте промпт по зонам кадра, модель собирает по частям. Это работает, но требует дополнительной настройки и не «из коробки».
На практике: если ваш промпт — это короткое описание сцены в 2–3 словах, оба сервиса справятся. Если в промпте 5+ деталей и каждая важна для финальной композиции (рекламная сцена, постановочная фотография, сложная иллюстрация), Imagen 3 экономит время на перепромптинге — с первого прохода вы получаете то, что просили. С SD сложные промпты часто разваливаются: то картинка собралась без одного из элементов, то два элемента смешались. На 10 итерациях разница ощутимая.
Если ваши промпты сложные (5+ деталей, точная композиция, несколько объектов с пространственными связями) и нет времени на ComfyUI/Regional Prompter
→ Imagen 3 через Vertex AI; альтернатива — SD + Regional Prompter или SD + ControlNet с предзаписанной layout-маской: 5–7 деталей на картинке с первого прохода вместо 3–4 итераций доводки промпта; экономия 5–10 минут на каждый сложный кадр
ControlNet и keyframe-контроль композиции
Серия из 8 кадров с одним персонажем в разных позах
Геймдев-художник готовит cutscene-набор: тот же герой в восьми позах. Без точного контроля композиции каждый кадр — другая анатомия. ControlNet решает ровно эту задачу. У Imagen 3 такого инструмента не предусмотрено вообще — другой класс продукта.
ControlNet — расширение для Stable Diffusion, которое позволяет управлять композицией картинки через дополнительные входы: скелет (OpenPose), карта глубины (Depth), детекция краёв (Canny), скетч (Scribble), сегментация (Segmentation), нормали, hed-edges и десяток других моделей. Работает с любой версией SD: SD 1.5, SDXL, SD3, SD3.5. На Civitai лежит несколько тысяч обученных под конкретные стили ControlNet-моделей. Для production-дизайна это инструмент номер один в категории — и не только в open-weights-нише: сравнимого по точности контроля композиции у проприетарных конкурентов (Midjourney, DALL-E 3, Imagen 3, Adobe Firefly) на 2026 тоже нет.
Imagen 3 даёт image-to-image и image edit: загрузили картинку, получили вариацию или замену объекта по маске. Это работает, но это другой инструмент: не контроль позы по скелету, не контроль композиции по depth-карте, не региональный промпт. В dossier Imagen ControlNet-аналог не зафиксирован — продукт не позиционируется как инструмент точного композиционного контроля. Это сознательный выбор Google: Imagen 3 оптимизирован под «дайте промпт, получите красивый кадр», а не под «дайте мне ровно эту позу с этой ровно карты глубины».
Источник: dossiers/stable-diffusion.md (ControlNet — стандартное расширение); dossiers/imagen-3.md (image edit $0.02/операцию, ControlNet-аналог не зафиксирован).
Если ваш workflow — «нарисуй мне арт по этим референсам с этой конкретной композицией кадра», у Imagen 3 нет инструментов сделать именно это. Альтернатива — генерируете и доводите Photoshop-руками, либо используете SD с ControlNet. Для дизайнера, которому нужна не просто «красота», а точное соответствие сценарию (концепт-арт серии, сториборд, рекламный кадр под конкретный layout), ControlNet — это аргумент за SD сам по себе, без других факторов.
Если ваша задача — точные позы персонажей, контроль композиции по depth/canny/openpose, серия кадров с постоянным героем
→ Stable Diffusion (SDXL или SD 3.5 Large) + ControlNet + ComfyUI как workflow-инструмент: точный контроль каждого кадра без Photoshop-доводки; переиспользуемые ноды ComfyUI экономят 15–30 минут на каждом новом варианте сцены
Editing: inpainting, outpainting, generative fill
Каталог из 200 предметных снимков с одинаково чистым фоном
Фотограф готовит каталог: 200 снимков, нужно одинаково чистый фон. На SD + ComfyUI — inpaint на маске и обработка пакетом за один прогон графа. На Imagen 3 — Image Edit по маске работает, но только по одному запросу и без batch-режима.
Editing-функции — это inpainting (перерисовка области по маске), outpainting (расширение картинки за её исходные границы) и generative fill (замена объекта в маске по текстовому промпту). Для production это ровно те функции, на которых делается 80% реальной работы: чистый макет редко рождается с первой генерации, чаще он собирается из двух-трёх итераций редактирования.
Stable Diffusion — золотой стандарт editing-функций в категории. Inpainting через специально обученные веса (sd-1.5-inpainting, SDXL inpaint) — стандарт с 2022 года. Outpainting в Forge UI и ComfyUI работает прямо в интерфейсе. Generative fill через ControlNet с Inpaint-моделью даёт точнее результат, чем большинство альтернатив, при правильной настройке. Для пакетной работы (200 снимков с одинаковой маской) ComfyUI-граф решает задачу за один прогон, без 200 ручных кликов.
Imagen 3 даёт Image Edit за $0.02/операцию. В dossier зафиксировано: «Image Edit (inpainting): $0.02 за операцию», «Image Upscale: $0.003 за операцию». То есть базовый inpainting в продукте есть. Но это per-operation через Vertex API, не desktop-режим: batch-обработка 200 снимков с одинаковой маской потребует написания скрипта, который будет вызывать API 200 раз. Точечного редактора уровня Photoshop с маской-кистью в продукте нет, outpainting в dossier не упоминается как отдельная функция. Для одного «исправь этот кадр быстро» Image Edit работает; для пайплайна на сотни снимков SD удобнее.
На практике: editing — один из двух главных аргументов за SD в этой паре, рядом с ControlNet. Если ваш workflow на 30%+ состоит из «доводки существующего фото или собранного макета» — SD будет удобнее, особенно для пакетной обработки. Если правки точечные и редкие (раз в неделю один кадр), Image Edit в Imagen 3 закрывает потребность без необходимости поднимать ComfyUI-стек.
Если ваш workflow включает регулярную доводку существующих фото и макетов (e-commerce, рекламная ретушь, доводка стоковых снимков под бренд)
→ SD 3.5 Large + ControlNet Inpaint в ComfyUI для batch-обработки; Imagen 3 Image Edit — для точечных правок раз в неделю: пакетная обработка 100+ снимков по одинаковой маске за один прогон ComfyUI-графа; экономия 4–6 часов на типичной партии
Стилизация и художественная управляемость
Иллюстрации к серии статей — все 30 в едином стиле
Контент-редактор собирает спецпроект из 30 статей: пастельная акварель, тёплое освещение, фирменная палитра бренда. На SD — Civitai LoRA «soft watercolor editorial», выдержит на серии. На Imagen 3 — Realistic, Stylized и несколько стилей через промпт, но без обучения на ваших референсах.
Стилизация для дизайнера — это управляемость: способность задать картинкам конкретный визуальный язык и удерживать его на серии. Для книги, рекламной кампании или брендинга это критично: один проект — один стиль, без скачков между разворотами. Без управляемости вы получите «красиво» на пятом промпте и «совсем другое красиво» на шестом, а заказчик, который ждал серию, такое в работу не примет.
Stable Diffusion даёт уровень управляемости, которого нет в этой паре у Imagen. Слой первый — встроенные стили в SDXL/SD 3.5 через слова в промпте. Слой второй — Civitai LoRA: на 2026 там размещено более 100 тысяч стилевых LoRA, от пиксельной графики до импрессионизма. Слой третий — IP-Adapter: подаёте картинку-референс, модель повторяет её стиль на новых промптах. Слой четвёртый — обучение собственного LoRA на 20–50 ваших картинках за 15–30 минут на RTX 4090. Эта четырёхуровневая система — главный аргумент за SD для production-дизайна, где нужна consistency на сериях.
Imagen 3 даёт стилизацию только через промпт. Сервис принимает описания стиля в промпте («watercolor painting», «cinematic lighting», «vintage film»), Gemini multimodal разворачивает их в композицию. Это работает для «нарисуй красивую картинку прямо сейчас без возни» — для маркетолога без опыта prompt-инжиниринга. Но для задачи «выдержи стиль на серии из 30 иллюстраций» Imagen 3 упирается в потолок: каждая картинка собирается заново, и даже при одинаковом промпте варианты могут заметно отличаться по цвету, освещению, толщине линии. Загрузить свой референс-стиль или обучить адаптер нельзя — продукт этого не поддерживает.
Цена этой управляемости — порог входа. Чтобы пользоваться четырьмя слоями SD, нужно понимать, что такое CFG-scale, как сочетать веса LoRA, и не пугаться слова ComfyUI. У Imagen 3 такого порога нет — и в этом его собственная сила для не-дизайнеров: открыли Vertex AI, написали промпт, получили результат. Для иллюстратора, который уже знает Photoshop и Procreate, добавить SD-стек к workflow занимает неделю; для маркетолога без графической базы это совершенно другой профессиональный путь.
Если вам нужно держать единый визуальный стиль на серии из 10+ картинок (книга, бренд-кампания, серия постов, концепт-серия для геймдева)
→ SD + подходящий стилевой LoRA с Civitai, либо обучение собственного LoRA на 20–50 ваших референсах: консистентный стиль через всю серию без ручной post-обработки; обучение собственного LoRA — ~30 минут единоразово, далее тиражируется бесконечно
Тарифы и стоимость владения за год
Сколько это стоит на бумаге за год
RTX 4090 — это $1700 разово плюс ~$30/мес электричества. Imagen 3 Standard — $0.04 за картинку через Vertex AI. Числа на разных шкалах: один сервис — капекс GPU, другой — opex за картинку. По одной строке «дешевле/дороже» эти продукты сравнивать бесполезно.
| Уровень | Stable Diffusion | Imagen 3 |
|---|---|---|
| Free | Self-host: $0; DreamStudio: 25–200 free credits при регистрации | Google Cloud free credits для новых GCP-аккаунтов |
| Минимум | DreamStudio: $10 = 1000 credits (~$1/мес лёгкий профиль) | Imagen 3 Fast: $0.02/картинка (50/мес = $1/мес) |
| Стандарт | API SDXL: $0.002–0.006/картинка; SD3: ~$0.035; SD3.5 Large: $0.065 | Imagen 3 Standard: $0.04/картинка; Image Edit $0.02; Upscale $0.003 |
| Cloud-провайдеры | Replicate / Runware / fal.ai: ~$0.02–0.05/картинка | Только Vertex AI / Gemini API — один поставщик |
| Self-host (капекс) | RTX 4090 ~$1700 + ~$30/мес электричества | Невозможно — модель наружу не выкладывается |
| После 24.06.2026 | Стабильно; роадмап неопределён, но веса локальны | Shutdown Imagen 3/4; миграция на Gemini 3 Pro Image |
Сравнение «по таблице» обманывает. Stable Diffusion в бесплатном self-host-варианте стоит $0/мес — но требует GPU от $400 до $1700 и часа на настройку. На API через DreamStudio при типичной нагрузке 50 картинок в месяц SDXL обойдётся в ~$0.10–0.30/мес — фактически бесплатно. Та же нагрузка через SD 3.5 Large API уже $3.25/мес, а через Replicate/Runware — близко к Imagen 3 Fast.
Imagen 3 даёт предсказуемую цену за картинку без подписок: $0.04 Standard, $0.02 Fast, $0.02 Image Edit, $0.003 Upscale. В этом его операционное преимущество для команд, которым нужен «один счёт Google Cloud, без отдельного биллинга». Цена этой предсказуемости — один поставщик (vendor lock-in внутри Google ecosystem) и обязательная миграция на Gemini 3 Pro Image к 24 июня 2026 — то есть любой production-пайплайн нужно проектировать с расчётом на смену модели в течение года.
Если есть видеокарта от RTX 3060 и более или вы готовы взять её — self-host SD сразу выходит дешевле любой подписки на горизонте года; если GPU нет и не планируется — Imagen 3 через Vertex AI
→ Self-host SD 3.5 Large + ComfyUI на собственной GPU, либо Imagen 3 Fast/Standard через Vertex AI с планом миграции на Gemini 3 Pro Image: годовой расход $0–30 у SD self-host против $24–480/год у Imagen 3 на типичных профилях; окупаемость GPU при 100+ картинках в месяц — 2–3 года
Free-тариф: что реально дают навсегда vs trial
На сколько хватит «попробовать без обязательств»
У SD «free» — это неограниченное количество картинок при наличии своей GPU. У Imagen 3 «free» — это $300 Google Cloud free credits при регистрации нового GCP-аккаунта. Это два совершенно разных понимания слова «бесплатно».
Stable Diffusion Free. Self-host — $0 буквально, без лимитов: скачали с Hugging Face, запустили локально, генерируете сколько угодно. Не хотите ставить локально — Hugging Face Spaces даёт бесплатные демо-инстансы (с queue в часы пик), Google Colab Free даёт ноутбуки с T4/GPU. DreamStudio при регистрации даёт 25–200 free credits на старт, после — $10 = 1000 credits. «Попробовать SD без вложения денег» — это десятки разных способов от нуля затрат.
Imagen 3 Free. В dossier зафиксировано: «Google Cloud free credits для новых аккаунтов». Конкретный объём зависит от региона и программы Google Cloud Free Tier — точная цифра в dossier не зафиксирована (data gap), поэтому конкретный $-бюджет здесь не приводим. Сам тип free-доступа — это credits на cloud-сервисы Google в целом, а не отдельный лимит под Imagen. После исчерпания credits — переход на платное использование без отдельного free-тарифа на каждый месяц.
Для пользователя, который хочет «потестировать неделю обоих сервисов не тратя денег», план такой: SD через Hugging Face Spaces (без регистрации) + Imagen 3 через Google Cloud Free Tier (если ваш аккаунт новый и подпадает под free credits). За неделю наберётся понимание, какой из двух попадает в ваш workflow.
Если хотите попробовать оба сервиса без подписки и без покупки GPU
→ Hugging Face Spaces для SDXL/SD 3.5 (без регистрации) + новый Google Cloud аккаунт с Imagen 3 Fast в free credits: $0 за неделю теста обоих; на этом окне видно, какой из двух продуктов попадает в ваш реальный workflow
API и production-pipeline
Если генерация нужна не из браузера, а из бэкенда
Backend-разработчик в e-commerce подключает автогенерацию обложек товара. SDK, retry-логика, rate-limit, цена за картинку, поддержка batch, мониторинг через Cloud Logging — без этого продукт не строится.
Stable Diffusion API — это не один API, а целый рынок провайдеров.
Stability AI: platform.stability.ai — родной официальный
API. Цены: SDXL $0.002–0.006/картинка, SD3 ~$0.035, SD3.5 Large 6.5
credits = $0.065. Replicate, Runware, RunPod, fal.ai — независимые
провайдеры, у каждого свои тарифы (от $0.01 до $0.05 за картинку), свой
SLA, свои дополнительные модели. Можно поднять собственный API на
RunPod или Modal с self-hosted SD за $0.5–1/час GPU-time. Миграция между
провайдерами — переписывание клиентского кода, не миграция продукта.
Imagen 3 API — один поставщик, Vertex AI. В dossier зафиксировано: Vertex AI и Gemini API как единственные способы доступа. Standard $0.04, Fast $0.02, Image Edit $0.02, Upscale $0.003. Vertex AI даёт production-grade инфраструктуру: SLA Google Cloud, IAM-роли, audit-логи через Cloud Logging, batch-prediction для пакетных задач, private endpoints. Это плюс для команд, уже работающих в Google Cloud. Минусы — vendor lock-in внутри Google ecosystem и неминуемая миграция на Gemini 3 Pro Image к 24.06.2026, которая потребует переписывания API-вызовов и регрессионных тестов на качество.
Если строите production-пайплайн с генерацией картинок на лету (e-commerce каталог, SaaS с пользовательскими креативами, маркетинговая платформа)
→ Если команда уже на Google Cloud и нужен топовый photoreal — Imagen 3 через Vertex AI с планом миграции на Gemini 3 Pro Image; если нужны гибкость, низкая цена и multi-vendor — SD через Replicate/Runware/fal.ai: выбор по задаче, не по принципу «один универсальный API»; при правильном выборе разница в годовом OPEX на 10 000 картинок — $200–800
Скорость генерации
От нажатия кнопки до картинки — сколько секунд
Дизайнер в стрессе перебирает 30 вариантов промпта в час. На 3 секундах за генерацию это 60 итераций. На 15 секундах — 12. Скорость определяет, насколько глубоко вы можете итерировать.
Stable Diffusion на собственной GPU. RTX 4090 (24 GB VRAM): SDXL 1024×1024 за 1.5–3 секунды; SD 3.5 Large — 4–8 секунд. RTX 3060 (12 GB): SDXL за 6–12 секунд. На cloud-API: Replicate выдаёт SDXL за 3–6 секунд, fal.ai — за 2–4 секунды. Точные цифры зависят от настроек (steps, sampler, разрешение), но порядок такой.
Imagen 3 через Vertex AI. Imagen 3 Standard — типичная latency 6–15 секунд на картинку 1024×1024; Imagen 3 Fast — обычно 3–6 секунд за ту же картинку (это плата за более простую модель и сниженный $0.02/картинка ценник). В dossier фиксируется data gap: «реальный latency в разных регионах Vertex AI» точными числами не публикуется, но порядок выше — это наблюдение редакции на тестовых запусках в апреле 2026. На batch-prediction (несколько сотен картинок одним запросом) Vertex AI даёт значительный throughput-выигрыш по сравнению с последовательными вызовами.
Если ваш workflow — итеративный (50+ промптов в день, активная доводка результата) и важна скорость отклика
→ SD на собственной GPU (RTX 4090) или на fal.ai API для глубокой итерации; Imagen 3 Fast — для production-задач с топовым photoreal без жёсткой потребности в скорости: 60 итераций промпта в час против 12 — в 5 раз глубже доводка результата за то же время
Self-host / on-prem deployment для регуляторных задач
Когда «облако нельзя» — это не риторическая фигура
Банк готовит маркетинг-кит для премиальных клиентов; в промптах внутренние названия продуктов. Любая отправка этого в чужое облако — нарушение политики ИБ. Self-host — единственный вариант.
Self-host — это запуск модели на собственной инфраструктуре без отправки данных вовне. В категории image-AI на 2026 это единственная открытая возможность для регуляторных задач: 152-ФЗ для российского B2B, медицинская тайна, банковские данные, корпоративный конфиденциал, оборонка. У большинства проприетарных конкурентов self-host исключён как класс — модели наружу не выкладывают.
Stable Diffusion — основа open-weights-подгруппы категории.
Веса SD 1.5, SDXL, SD3, SD3.5 свободно лежат на Hugging Face
(stabilityai/stable-diffusion-3-5-large и др.). Лицензия:
SD 1.5 / SDXL — CreativeML Open RAIL-M (без ограничений по выручке);
SD3 / SD3.5 — Community License (бесплатно до $1M годовой выручки,
дальше Enterprise). Запускается локально на RTX 3060 (12 GB) и старше,
в сервере с A100 или в Kubernetes-кластере. Альтернатива — FLUX.1
Dev/Schnell (тоже open-weights), но экосистема ControlNet/LoRA вокруг
SD пока шире.
Imagen 3 — закрытое облако. Self-host принципиально невозможен: моделей наружу не выкладывали, API только через Vertex AI / Gemini. Enterprise on-prem-вариант в dossier не зафиксирован. Для регуляторных задач Imagen 3 не подходит вообще, и это архитектурное решение Google, а не настраиваемый параметр.
Если ваши данные не должны покидать корпоративный периметр (банки, медицина, оборонка, российский B2B под 152-ФЗ)
→ SD 3.5 Large self-host на собственной GPU + ComfyUI; альтернатива в категории — Kandinsky от Сбера для российского B2B: ноль отправки промптов и результатов в чужое облако; соответствие 152-ФЗ и корпоративным политикам ИБ
Доступность из России и оплата российскими картами
Российский маркетолог в марте 2026
У человека есть Visa/Mastercard на стороне РФ-банка и нет VPN. Регистрация в Google Cloud потребует VPN и зарубежной карты с августа 2022. У SD self-host вопрос вообще не стоит — это не сервис в облаке.
Stable Diffusion из России. Self-host — никаких блокировок: вы качаете веса с Hugging Face (HF доступен из РФ без VPN на момент написания), запускаете локально, и весь дальнейший workflow проходит внутри вашей машины. Никакого Stripe, никакой геоблокировки. API через Stability AI / Replicate / Runware — нужны зарубежная карта и VPN (Stripe и Cloudflare режут российский трафик и российские BIN).
Imagen 3 из России. В dossier: «Google Cloud — формально работает, но регистрация может требовать VPN», «Оплата российскими картами — Google прекратил в 2022», «Через посредников / зарубежную карту — работает». Реальные пути доступа: зарубежная Visa/Mastercard через посредников, корпоративная карта оффшорного юрлица, оплата через сервисы реселлеров. Для российской команды на 2026 это не «недоступно», но и не «открыл и работаешь» — операционный оверхед сравним с другими западными сервисами.
| Сценарий | Stable Diffusion | Imagen 3 |
|---|---|---|
| Регистрация без VPN | Не нужна (self-host) | Может требовать VPN для GCP-аккаунта |
| Оплата российскими картами | Self-host: $0; cloud: Stripe блокирует РФ-карты | Google прекратил приём в 2022 |
| Через зарубежную карту + VPN | Работает на любом провайдере (Stability/Replicate/...) | Работает через Vertex AI |
| 152-ФЗ соответствие | Self-host: да | Нет (данные уходят в Google Cloud) |
Российский пользователь без зарубежной карты и без желания разбираться с VPN-обходами
→ SD self-host на собственной GPU; альтернатива в категории — Kandinsky от Сбера (русский интерфейс, оплата российской картой): ноль зависимости от Stripe и геоблокировок; независимость от санкционного контекста и от деперекации Imagen 3/4
Custom models / fine-tuning на своих данных
Свой персонаж, свой бренд, свой стиль — на каждой картинке
Анимационная студия делает 200 кадров с одним героем. Каждое лицо должно быть тем же — не «похожим», а тем же. Это не задача промпта, это задача fine-tuning.
Stable Diffusion даёт три уровня кастомизации модели. Уровень 1: LoRA — обучение лёгкого адаптера на 20–50 ваших картинках за 15–30 минут на RTX 4090. Уровень 2: DreamBooth / textual inversion — встраивание конкретного субъекта (человек, объект, бренд-логотип) в модель. Уровень 3: full fine-tuning — переобучение модели на крупном корпусе ваших данных (например, 1000 картинок бренд-стиля). Civitai к 2026 хранит сотни тысяч обученных LoRA, многие из них — выложены сообществом и переиспользуются бесплатно.
Imagen 3 fine-tuning для image-генерации не поддерживает. В dossier таких функций не зафиксировано — ни LoRA, ни DreamBooth, ни загрузки референс-картинок для встраивания персонажа. Vertex AI Custom Training существует, но для текстовых моделей и embedding'ов; на image-моделях Imagen 3 fine-tune под конкретные стили или персонажей публично в 2026 не доступен. Это нормально для основной задачи продукта (топовая генерация по промпту), но для production-задач уровня «один и тот же герой на 200 кадрах» Imagen 3 не подходит — каждый раз вы получите немного другого человека.
Если нужна consistency на серии (один персонаж в 50+ кадрах, бренд-стиль на 200 рекламных макетах, конкретный объект в разных ракурсах)
→ SD + LoRA: либо обучить свой за ~30 минут, либо взять готовый с Civitai под близкую задачу: стабильность героя/стиля на всей серии; цена — 30 минут на обучение и ~$2 электричества; повторное использование без ограничений
Стоимость владения за год для трёх профилей
Лёгкий, средний, тяжёлый профиль — реальные цифры
Маркетолог-фрилансер 50 картинок/мес, дизайн-студия 500/мес, API-продукт 10 000/мес. Бюджет года в трёх профилях — это конкретные числа, которые можно посчитать прямо сейчас.
| Профиль | SD-вариант | Imagen 3-вариант |
|---|---|---|
| 50 / мес (фрилансер) | Self-host на RTX 3060 ($400 капекс) или DreamStudio API ~$3/год | Imagen 3 Fast: 50 × $0.02 × 12 = $12/год |
| 500 / мес (студия) | Self-host ($1700 RTX 4090) или Replicate ~$120/год | Imagen 3 Standard: 500 × $0.04 × 12 = $240/год |
| 10 000 / мес (API-продукт) | Replicate/Runware: ~$2400/год при $0.02/картинка | Imagen 3 Standard: 10000 × $0.04 × 12 = $4800/год |
| Регуляторика (банк, B2B) | Self-host ($1700–10 000 капекс на сервер) — единственный вариант | Невозможно технически (нет self-host) |
Главные числа из таблицы. На лёгком профиле (50/мес) Imagen 3 Fast $12/год дешевле, чем покупать GPU специально под SD: RTX 3060 за $400 окупится только если вы будете генерировать ещё и для других задач. На среднем профиле (500/мес) — SD на собственной GPU выигрывает после года ($0/год OPEX против $240 у Imagen 3 Standard, при условии что капекс GPU уже потрачен). На тяжёлом профиле (10 000/мес) — SD через Replicate $2400/год вдвое дешевле, чем Imagen 3 Standard $4800/год; на этом объёме разница уже значимая для бюджета. На регуляторике — у Imagen 3 нет ответа в принципе.
Лёгкий профиль (50/мес) — Imagen 3 Fast; средний (500/мес) с потребностью в editing/ControlNet — SD self-host; тяжёлый (10k/мес) с типовыми задачами — SD через Replicate; тяжёлый с обязательным топовым photoreal — Imagen 3 Standard или переход на Gemini 3 Pro Image после 24.06.2026
→ Не выбирайте «универсальный» сервис — выбирайте под профиль и тип задачи: разница в годовом расходе на типичных профилях — в 2–10 раз, при правильном выборе экономия $200–2400/год
Юридические риски и copyright
Иск Getty с 2023 vs SynthID watermarking от Google
Бизнес покупает image-AI на горизонт 2–3 года. За это окно компания-вендор может попасть под иск, проиграть его, изменить лицензию задним числом или просто закрыться. Это часть стоимости выбора.
Stable Diffusion / Stability AI — иск Getty Images с 2023 года. В dossier зафиксировано: «Иск Getty Images vs Stability AI — обучение на копирайт-материалах, юр. риски». Иск касается тренировки SD на датасете LAION-5B, где значительная часть картинок — это контент Getty с водяными знаками. Дело идёт несколько лет, окончательного решения на момент написания обзора нет, но прецедент создан: обучение на скрейпе интернета — юридически серая зона. Дополнительный момент: SD3/SD3.5 имеют необычное для open-weights лицензионное ограничение — Community License с порогом $1M годовой выручки, дальше нужен Enterprise-договор.
Imagen 3 — лидер по compliance в этой паре. В dossier: «C2PA watermarking + SynthID — встроенная криптографическая метка». SynthID — технология Google для криптографического водяного знака, устойчивого к ресайзу, кропу и компрессии. Для рекламы, медиа, журналистики и финансовых отчётов это материальный плюс: на финальной картинке есть верифицируемая метка «это AI-генерация», и compliance- отдел не будет блокировать публикацию. Точный состав обучающего датасета Imagen 3 Google публично не раскрывает (data gap), но Alphabet провёл due diligence через свою юр. команду, и публично известных исковых разбирательств на момент 2026 нет.
Если вы делаете коммерческий продукт на основе сгенерированных изображений и юр. отдел требует оценки рисков и compliance
→ Для критичных проектов — Imagen 3 (SynthID + ресурсы Google) или Adobe Firefly (обучен на лицензионном Adobe Stock); SD при коммерческом использовании — с оглядкой на иск Getty и порог $1M revenue в Community License: снижение риска получить претензию правообладателя; на больших продуктах это разница между «спокойно живём» и «снимаем кампанию с продакшна за неделю»
Финансирование, стабильность компаний и долгосрочная перспектива
Какова вероятность, что вендор будет жив через 2 года
Подписка — это партнёрство на годы. Если вендор закрывается, вы теряете не только деньги, но и нарабатываемый workflow. Финансовая стабильность вендора — это часть выбора, не приятный бонус.
Stability AI — кризис после ухода Mostaque. В dossier зафиксировано: «Финансирование: ~$100M+ Series A (2022), последующие раунды. После ухода Mostaque — кризис финансирования, перестройка». Emad Mostaque (основатель и CEO до марта 2024) ушёл, последовали публичные финансовые проблемы, смена руководства, неопределённость с roadmap. Stability AI текущие финансовые показатели публично не раскрывает. Open-weights природа SD частично страхует пользователя: даже если Stability AI закроется, веса моделей уже выложены и останутся работать без них. Но обновлений новых моделей и поддержки ожидать не приходится.
Google Imagen 3 — Alphabet не закроется, но Imagen 3 уйдёт. Финансовая стабильность Google ($300B+ годовая выручка) — практически гарантированная. Но в этой паре есть отдельный риск: dossier фиксирует shutdown Imagen 3 и Imagen 4 на 24 июня 2026, Google рекомендует мигрировать на Gemini 3 Pro Image. Это значит, что любой production на Imagen 3 в 2026 — это уже временное решение с обязательной миграцией. Сама Google никуда не уйдёт, но конкретный продукт уйдёт по плану. Для команды, выбирающей сервис в апреле 2026 на 2 года — нужно сразу закладывать ресурс на переписывание API-вызовов и регрессионные тесты на Gemini 3 Pro Image.
Если ваш продукт зависит от вендора больше 12 месяцев (production-пайплайн, контентная база с привязкой к стилю)
→ Для долгосрочной зависимости предпочтительнее open-weights (SD — даже при кризисе Stability AI веса остаются у вас); для среднесрока (1–2 года) Imagen 3 — рабочий выбор с обязательным планом миграции на Gemini 3 Pro Image к 24.06.2026: застраховались от vendor lock-in: при закрытии облачного сервиса open-weights продолжают работать; план миграции Imagen 3 → Gemini 3 Pro Image сокращает downtime до часов вместо недель
Сценарии победы первого сервиса (use-cases)
Где Stable Diffusion однозначно сильнее в этой паре
Шесть сценариев, в каждом из которых Imagen 3 — не альтернатива, а другой продукт. Если ваша задача попадает в один из них, выбора между двумя не существует.
Шесть сценариев, где SD выигрывает у Imagen 3 с большим отрывом:
- Точный контроль композиции — ControlNet (OpenPose, Depth, Canny). Геймдев-концепты, сториборды, серия кадров с одной композицией.
- Consistency на серии — LoRA с обучением на 20–50 ваших картинках. Один герой/стиль/бренд на 50+ картинках.
- Self-host под 152-ФЗ — единственная возможность в этой паре. Банки, медицина, российский B2B, оборонка.
- Editing-функции пакетом — inpainting, outpainting через ComfyUI-граф на 100+ снимках за один прогон.
- Большие объёмы дешёвой генерации — self-host на собственной GPU при 5000+ картинках в месяц выходит в 2–4 раза дешевле Imagen 3 Standard.
- Стилизация и художественная управляемость — четыре слоя SD (промпт + LoRA + IP-Adapter + обучение) против только промптовой стилизации у Imagen.
Если ваша задача — «контроль композиции», «свой персонаж», «self-host», «editing пакетом», «10000 картинок в месяц» или «единый стиль на серии»
→ Stable Diffusion 3.5 Large + ComfyUI + ControlNet + подходящий LoRA: точный контроль на каждом этапе workflow и независимость от облачного провайдера и от плановой миграции Imagen 3 → Gemini 3 Pro Image
Сценарии победы второго сервиса (use-cases)
Где Imagen 3 однозначно сильнее в этой паре
Пять сценариев, где SD «как есть» требует часов настройки или вообще не даёт нужного качества. Если ваша задача попадает сюда — Imagen 3 сделает её за один проход через Vertex AI.
Пять сценариев, где Imagen 3 выигрывает у SD с большим отрывом:
- Photoreal «как есть» без LoRA-настройки — топ-3 категории, 9/10 против 6/10 у SD без специальной настройки.
- Сложные промпты на 5–7 элементов — Gemini multimodal собирает сцену точнее, чем CLIP/T5-encoder в SD.
- SynthID watermarking для compliance — криптографическая метка «это AI-генерация» для рекламы, медиа, журналистики.
- Production-пайплайн на Google Cloud — Vertex AI, IAM-роли, audit-логи, batch-prediction для команд, уже работающих с GCP.
- Без DevOps и без GPU — открыли Vertex AI, написали промпт, получили результат. Никакого ComfyUI, никаких 12 GB VRAM.
Если ваша задача — «photoreal с первого прохода», «сложные промпты», «SynthID compliance», «Google Cloud-команда», «без возни с GPU и ComfyUI»
→ Imagen 3 Standard ($0.04/картинка) или Fast ($0.02) через Vertex AI с обязательным планом миграции на Gemini 3 Pro Image к 24.06.2026: топовый photoreal и compliance без 30 минут на настройку LoRA-стека; production-grade инфраструктура Vertex AI с SLA и audit-логами
Итоговая таблица оценок
| Подтема |
SD
Stable Diffusion
|
GI
Google Imagen 3
|
|---|---|---|
| 1.Карта подгрупп: что эти N сервисов реально делают | 9 | 6 |
| 2.Качество фотореализма: AI-tell детект в blind-тестах | 6 | 9 |
| 3.Следование промпту и сложные сцены | 6 | 9 |
| 4.ControlNet и keyframe-контроль композиции | 10 | 3 |
| 5.Editing: inpainting, outpainting, generative fill | 9 | 6 |
| 6.Стилизация и художественная управляемость | 10 | 6 |
| 7.Тарифы и стоимость владения за год | 9 | 7 |
| 8.Free-тариф: что реально дают навсегда vs trial | 10 | 6 |
| 9.API и production-pipeline | 9 | 7 |
| 10.Скорость генерации | 9 | 7 |
| 11.Self-host / on-prem deployment для регуляторных задач | 10 | 1 |
| 12.Доступность из России и оплата российскими картами | 9 | 4 |
| 13.Custom models / fine-tuning на своих данных | 10 | 2 |
| 14.Стоимость владения за год для трёх профилей | 9 | 6 |
| 15.Юридические риски и copyright | 4 | 9 |
| 16.Финансирование, стабильность компаний и долгосрочная перспектива | 6 | 7 |
| 17.Сценарии победы первого сервиса (use-cases) | 10 | 5 |
| 18.Сценарии победы второго сервиса (use-cases) | 5 | 10 |
| Итого (средняя) | 8,3 | 6,1 |
Методика: каждая подтема оценивалась по шкале 1–10. Итоговая средняя — арифметическое всех подтем.
Финальный вердикт
Короткие итоги по каждому сервису — чтобы не перечитывать весь обзор.
Stable Diffusion
Берите Stable Diffusion, если ваш workflow требует точного контроля композиции (ControlNet), consistency на серии (custom LoRA), self-host под 152-ФЗ или регуляторные требования, пакетных editing-функций (inpainting/outpainting через ComfyUI), стилизации на серии или больших объёмов генерации (5000+ картинок в месяц). Open-weights означает, что веса остаются у вас даже при возможных проблемах Stability AI. Минусы: photoreal «как есть» слабее (для топового photoreal без настройки — Imagen 3 или Midjourney v7), DevOps-сложность (ComfyUI/Forge UI требуют времени на освоение), иск Getty с 2023, кризис Stability AI после ухода Mostaque в марте 2024, Community License на SD3/SD3.5 с порогом $1M. Стоимость: self-host $0 после капекса GPU $400–1700; cloud API $0.002–0.065 за картинку через десяток провайдеров.
Попробовать Stable Diffusion
Google Imagen 3
Берите Imagen 3, если нужен топовый photoreal с первого прохода без настройки workflow (топ-3 категории, 9/10 в blind-тестах), сложные промпты на 5–7 элементов через Gemini multimodal, SynthID watermarking для compliance в рекламе и медиа, production-инфраструктура Vertex AI с SLA и audit-логами. Финансовая стабильность Google — практически гарантированная. Главный риск: dossier фиксирует shutdown Imagen 3 и Imagen 4 на 24 июня 2026, Google рекомендует Gemini 3 Pro Image для новых проектов — закладывайте ресурс на миграцию. Минусы: ControlNet/LoRA нет, self-host невозможен (закрытый Vertex AI), fine-tuning под свои референсы не поддерживается, для регуляторных задач не подходит, оплата российскими картами не работает с 2022, цена $0.04 Standard / $0.02 Fast / $0.02 Image Edit / $0.003 Upscale, при больших объёмах в 2–4 раза дороже SD через Replicate/Runware.
Попробовать Google Imagen 3