7 промптов для синтеза речи и озвучки

Voice AI в 2026 году вышел из «робота-зачитывателя» в «звучит как живой человек». ElevenLabs клонирует голос за 60 секунд аудио, OpenAI Voice добавляет эмоции в реальном времени. Главный навык работы с ними — не «выбрать модель», а **подготовить текст правильно**: расставить паузы, акценты, эмоциональные маркеры. Промпты ниже — про эту подготовку.

Внутри — 7 шаблонов: подготовка скрипта для озвучки видео, разметка аудиокниги, голосовой бот (IVR), multilingual-локализация одной речи, клонирование собственного голоса (этично), транскрибация интервью и конвертация подкаста в статью.

Этический момент: **клонирование чужого голоса без разрешения — преступление в большинстве юрисдикций**. Можно клонировать свой голос (подкастер озвучивает рекламу), голос актёра по договору (озвучка аудиокниг), голос покойного с согласия наследников. Голос знаменитости / коллеги / случайного человека из YouTube — нельзя. Это и юридически, и этически.

🎙️ Скрипт для озвучки видео

Подготовь скрипт для озвучки видео в [ElevenLabs / OpenAI Voice / Suno Bark].

Контекст:
Длительность видео: [мин:сек].
Тип контента: [туториал / реклама / обзор / новости / документалка].
Целевая аудитория: [конкретно].
Тон голоса: [спокойный / энергичный / экспертный / тёплый].
Голос: [мужской / женский, молодой / средний / зрелый].

Текст для озвучки:
```
[ВСТАВЬ_ТЕКСТ]
```

Что нужно — подготовить текст с разметкой:

1) Паузы:
<break time="0.5s" /> — короткая пауза (между фразами).
<break time="1s" /> — средняя (между абзацами / для акцента).
<break time="2s" /> — долгая (для смены темы / драматического эффекта).

2) Акценты:
**жирным** — слова под ударением.
*курсивом* — слова с лёгким акцентом.

3) Эмоции (если поддерживается моделью — OpenAI Voice, Bark):
[whisper] ... [/whisper] — шёпот.
[laughs] — смех.
[sigh] — вздох.

4) Темп: при необходимости разбей длинные предложения на короткие.
5) Произношение: имена / иностранные слова / сложные термины — в квадратных скобках написать транскрипцию: «Илон Маск [Илон Маск]».

Выведи: размеченный текст, готовый загружать в синтезатор. В конце — оценка длительности озвучки (по правилу 150 слов/минута для нормального темпа).

💡 Примечание

Транскрипция произношения для имён и иностранных слов — критично. ElevenLabs часто читает «Илон» как «Элон» с ударением на О, что для русскоязычной аудитории звучит дико. Транскрипция в скобках направляет модель в нужную произносительную норму.

📚 Аудиокнига: разметка главы

Подготовь главу книги к озвучке в формате аудиокниги.

Контекст:
Жанр: [художественная / нон-фикшн / учебная / детская].
Целевая аудитория: [взрослые / подростки / дети / специалисты].
Голос рассказчика: [мужской / женский, молодой / зрелый, тон].
Прямая речь персонажей: [одним голосом с разной интонацией / разные клоны голосов].

Текст главы:
```
[ВСТАВЬ_ТЕКСТ_ГЛАВЫ]
```

Размечай:
1) Авторская речь и прямая речь — разделить (если планируется разными голосами).
2) Эмоциональная окраска прямой речи: [смущённо], [уверенно], [с лёгкой иронией] — перед каждой репликой.
3) Темп — там, где автор замедляет (для эффекта) или ускоряет (для напряжения), — поставь пометку <slow> / <fast>.
4) Паузы — между сценами длинные (<break time="3s" />), внутри сцены короткие.
5) Названия глав, эпиграфы, посвящения — отдельным блоком, размеренно.
6) Для нон-фикшн: выделение терминов (определения произносить медленнее), числа произносить словами («двадцать пять процентов», не «25%»).

Выведи готовый размеченный текст. В конце — оценка длительности озвучки и рекомендация по разбивке на чтения по 30–45 минут (стандарт аудиокниг).

💡 Примечание

Числа словами — нюанс, который ломает качество аудиокниг чаще всего. «25 января» в чтении звучит по-разному в зависимости от модели: одни читают «двадцать пятого января», другие — «двадцать пять января». Лучше явно: «двадцать пятого января» в тексте.

📞 Голосовой бот для IVR

Подготовь скрипт голосового меню (IVR) для звонков в [тип бизнеса].

Контекст:
Главные сценарии звонков (от частого к редкому):
1) [сценарий 1] — [%].
2) [сценарий 2] — [%].
3) [сценарий 3] — [%].
Время работы оператора: [часы].
SLA по callback: [часов].

Структура IVR:
1) Приветствие (5–10 секунд) — название компании + краткое обозначение, что попали по адресу.
2) Главное меню — 3–5 опций максимум. Каждая — короткая (5–8 слов).
3) Опция «Соединить с оператором» — обязательная и легко доступная (нажатие 0).
4) Подменю (если нужны) — максимум 1 уровень вложенности. Дальше — оператор.
5) Сценарии вне рабочего времени — callback / обратный звонок.

Принципы озвучки IVR:
Тон — спокойный, нейтральный (не слишком энергичный, не слишком медленный).
Голос — нейтральный, без сильного акцента (региональные диалекты снижают доверие).
Темп — чуть медленнее обычного разговорного (звонящий часто стрессует).
Паузы между опциями — 1 секунда.
Числа в опциях — словами в скрипте, цифрами в DTMF: «Чтобы связаться с отделом продаж — нажмите один».

Запрет: длинные приветствия типа «Здравствуйте, вы позвонили в компанию X, мы рады приветствовать вас», музыка вместо «Соединяю», опция «Перезвонить позже» как первая в списке.

💡 Примечание

Длинные приветствия — самый частый анти-паттерн IVR. Звонящий знает, куда позвонил, и хочет услышать опции, а не корпоративную приветственную речь. 5 секунд приветствия максимум, дальше сразу меню. Опция «Соединить с оператором» через 0 — обязательна по UX-стандарту: пользователь, который не нашёл свою опцию, не должен попасть в тупик.

🌐 Multilingual-локализация одной речи

Локализуй одну и ту же речь на несколько языков для multilingual video / multilingual ad.

Контекст:
Исходная речь: [язык].
Целевые языки: [список].
Длительность исходной речи: [сек].
Эмоциональный тон: [уверенный / тёплый / energetic].
Голос: [клон оригинального диктора / разные нативные голоса для каждого языка].

Исходный текст:
```
[ВСТАВЬ_ТЕКСТ]
```

Что нужно для каждого языка:
1) Перевод с локализацией (см. промпт для маркетингового перевода).
2) Подгонка длительности — перевод не должен превышать оригинал больше чем на 15% (иначе видео нужно перемонтировать под голос).
3) Если перевод длиннее — сокращай без потери ключевого посыла.
4) Разметка под нужного диктора:
   - Если клон одного голоса — учти, что эмоция должна передаваться через слова и акценты, голос остаётся узнаваемым.
   - Если разные нативные голоса — адаптируй темп под характерный темп языка (испанский быстрее, немецкий медленнее).

Формат вывода — таблица:
Язык | Перевод | Длительность (оценка) | Voice ID / характеристика | Заметки.

В конце — рекомендация, для каких языков лучше клонировать оригинальный голос (если он брендовый), а где взять нативного диктора (для культурной релевантности).

💡 Примечание

Подгонка длительности — главный технический челлендж multilingual видео. Если испанский перевод на 25% длиннее оригинала, голос «не успевает» под кадры, и видео придётся пересобирать. Просьба сократить перевод сохраняет монтаж и экономит часы постпродакшена.

👤 Клонирование собственного голоса (этично)

Подготовлю клонирование своего голоса в [ElevenLabs / OpenAI Voice].

Что для этого нужно сделать правильно:

1) Подготовка записи для обучения:
   - Длительность: 60 секунд минимум, 5–10 минут оптимально.
   - Качество: студийный микрофон или хороший USB (Blue Yeti / Shure MV7 уровень).
   - Запись: моно, 44.1+ кГц, WAV или FLAC (не MP3 для обучения).
   - Без шумов, без эха, без других звуков.
2) Содержание для записи:
   - Разнообразие интонаций: вопросы, восклицания, нейтральные утверждения.
   - Разные эмоции: спокойно, тепло, серьёзно, чуть ironically.
   - Темп: смешать быструю и медленную речь.
   - Произношение всех типичных звуков языка (читать какой-нибудь литературный текст с разнообразной лексикой).
3) Подготовь скрипт для записи обучающего сэмпла (5–7 минут разнообразного текста для русского языка) — на основе литературного произведения общего жанра, без редкой лексики.

После загрузки в ElevenLabs:
1) Тестовая генерация — короткая фраза, проверь похожесть.
2) Если голос звучит не как ваш — проблема в записи (шум, монотонность, мало материала).
3) Параметры для генерации:
   - Stability: 0.5–0.7 (выше = стабильнее, ниже = живее).
   - Similarity boost: 0.7–0.85 (выше = ближе к оригиналу).
   - Style: 0.0–0.2 (для консистентности).

Этическое предупреждение: **клонировать можно только свой голос или голос с письменного согласия владельца**. Голос коллеги, знаменитости, случайного человека из YouTube — нельзя. Это юридически и этически неправильно.

💡 Примечание

Подробная подготовка записи критична. Большинство неудачных клонов голоса — не проблема модели, а проблема исходного сэмпла: шумная запись, монотонный тон, мало материала. 5 минут разнообразной качественной записи дают клон, который не отличить от оригинала. 30 секунд монотонного бубнения — клон, который звучит как «сам не свой».

📝 Транскрибация интервью

Транскрибируй интервью с помощью Whisper и подготовь к чтению.

Контекст:
Длительность аудио: [мин].
Число спикеров: [N].
Тип интервью: [подкаст / журналистское интервью / user research / экспертный разговор].
Финальное использование: [публикация / конспект / цитаты для статьи / анализ].

Шаги транскрибации:
1) Whisper Large V3 для русского языка — лучший выбор по точности.
2) Если несколько спикеров — запустить с diarization (определение говорящих).
3) Получившийся черновой текст обработать LLM.

Что нужно от LLM (постобработка Whisper):
1) Расставить пунктуацию осмысленно (Whisper часто ставит запятые формально).
2) Разделить речь по спикерам (если diarization не идеальный).
3) Исправить очевидные ошибки распознавания (особенно имена и термины — если есть глоссарий, приложи).
4) Удалить междометия и слова-паразиты («э-э», «ну», «вот») для publishable варианта.
5) НЕ менять смысл и не пересказывать. Транскрипт должен оставаться дословным.
6) Тайм-коды — оставить каждые 30–60 секунд для навигации.

Формат вывода — markdown с пометками спикеров и тайм-кодами:
[00:00] **Спикер 1:** Текст реплики.
[00:30] **Спикер 2:** Текст ответа.
...

В конце — короткая сводка (3–5 главных тем интервью).

💡 Примечание

Whisper — лучший open-source инструмент транскрибации, но его сырой выход требует обработки. Удаление междометий — осторожно: для журналистики важна дословность, для publishable статьи можно почистить. Запрос «не менять смысл» — против тенденции LLM «улучшать» формулировки спикера, что юридически проблемно для журналистики.

🎧 Подкаст → статья

На основе транскрипции подкаста сделай качественную статью для блога.

Контекст:
Длительность подкаста: [мин].
Тема: [одна фраза].
Главные участники: [имена + регалии].
Целевая аудитория статьи: [конкретно].
Площадка публикации: [Telegram / vc.ru / блог / Дзен].

Транскрипция:
```
[ВСТАВЬ_ТРАНСКРИПЦИЮ]
```

Что нужно — статья объёмом [N знаков], структурно:
1) Заголовок-крючок — цепляющий, отражающий главное insight подкаста.
2) Лид (первый абзац) — контекст и обещание (что узнает читатель).
3) Основная часть — 3–5 ключевых мыслей с цитатами участников. Цитаты — дословные, в кавычках, с указанием автора.
4) Практические выводы — что применить с понедельника.
5) Ссылка на полный выпуск подкаста.

Принципы:
Не пересказывай весь подкаст хронологически. Выбери главные мысли и построй вокруг них.
Сохраняй голос и стиль участников в цитатах. Ваш авторский текст — обвязка вокруг них.
Если в подкасте есть конкретные кейсы или цифры — обязательно выдели.
Если есть моменты, интересные для обсуждения, — поставь вопрос аудитории в конце.

Запрет: «В этом эпизоде мы поговорили о...» (это плохое начало), пересказ диалога без выделения главного, цитирование банальностей.

💡 Примечание

Главная разница между «статьёй на основе подкаста» и «расшифровкой подкаста» — в выборе главного. Транскрипция длиной 60 минут — это 20 000 слов; статья — 1500–3000. Это не «короче», это «главное». Если пересказать всё — статья не читается. Если выбрать 3–5 ключевых идей и развернуть их с цитатами — это статья, которую дочитают.

7 промптов для синтеза речи, озвучки и голосовых ботов

🎙️ Скрипт для озвучки видео

📚 Аудиокнига: разметка главы

📞 Голосовой бот для IVR

🌐 Multilingual-локализация одной речи

👤 Клонирование собственного голоса (этично)

📝 Транскрибация интервью

🎧 Подкаст → статья