Voice AI в 2026 году вышел из «робота-зачитывателя» в «звучит как живой человек». ElevenLabs клонирует голос за 60 секунд аудио, OpenAI Voice добавляет эмоции в реальном времени. Главный навык работы с ними — не «выбрать модель», а **подготовить текст правильно**: расставить паузы, акценты, эмоциональные маркеры. Промпты ниже — про эту подготовку.
Внутри — 7 шаблонов: подготовка скрипта для озвучки видео, разметка аудиокниги, голосовой бот (IVR), multilingual-локализация одной речи, клонирование собственного голоса (этично), транскрибация интервью и конвертация подкаста в статью.
Этический момент: **клонирование чужого голоса без разрешения — преступление в большинстве юрисдикций**. Можно клонировать свой голос (подкастер озвучивает рекламу), голос актёра по договору (озвучка аудиокниг), голос покойного с согласия наследников. Голос знаменитости / коллеги / случайного человека из YouTube — нельзя. Это и юридически, и этически.
🎙️ Скрипт для озвучки видео
Подготовь скрипт для озвучки видео в [ElevenLabs / OpenAI Voice / Suno Bark]. Контекст: Длительность видео: [мин:сек]. Тип контента: [туториал / реклама / обзор / новости / документалка]. Целевая аудитория: [конкретно]. Тон голоса: [спокойный / энергичный / экспертный / тёплый]. Голос: [мужской / женский, молодой / средний / зрелый]. Текст для озвучки: ``` [ВСТАВЬ_ТЕКСТ] ``` Что нужно — подготовить текст с разметкой: 1) Паузы: <break time="0.5s" /> — короткая пауза (между фразами). <break time="1s" /> — средняя (между абзацами / для акцента). <break time="2s" /> — долгая (для смены темы / драматического эффекта). 2) Акценты: **жирным** — слова под ударением. *курсивом* — слова с лёгким акцентом. 3) Эмоции (если поддерживается моделью — OpenAI Voice, Bark): [whisper] ... [/whisper] — шёпот. [laughs] — смех. [sigh] — вздох. 4) Темп: при необходимости разбей длинные предложения на короткие. 5) Произношение: имена / иностранные слова / сложные термины — в квадратных скобках написать транскрипцию: «Илон Маск [Илон Маск]». Выведи: размеченный текст, готовый загружать в синтезатор. В конце — оценка длительности озвучки (по правилу 150 слов/минута для нормального темпа).
Транскрипция произношения для имён и иностранных слов — критично. ElevenLabs часто читает «Илон» как «Элон» с ударением на О, что для русскоязычной аудитории звучит дико. Транскрипция в скобках направляет модель в нужную произносительную норму.
📚 Аудиокнига: разметка главы
Подготовь главу книги к озвучке в формате аудиокниги. Контекст: Жанр: [художественная / нон-фикшн / учебная / детская]. Целевая аудитория: [взрослые / подростки / дети / специалисты]. Голос рассказчика: [мужской / женский, молодой / зрелый, тон]. Прямая речь персонажей: [одним голосом с разной интонацией / разные клоны голосов]. Текст главы: ``` [ВСТАВЬ_ТЕКСТ_ГЛАВЫ] ``` Размечай: 1) Авторская речь и прямая речь — разделить (если планируется разными голосами). 2) Эмоциональная окраска прямой речи: [смущённо], [уверенно], [с лёгкой иронией] — перед каждой репликой. 3) Темп — там, где автор замедляет (для эффекта) или ускоряет (для напряжения), — поставь пометку <slow> / <fast>. 4) Паузы — между сценами длинные (<break time="3s" />), внутри сцены короткие. 5) Названия глав, эпиграфы, посвящения — отдельным блоком, размеренно. 6) Для нон-фикшн: выделение терминов (определения произносить медленнее), числа произносить словами («двадцать пять процентов», не «25%»). Выведи готовый размеченный текст. В конце — оценка длительности озвучки и рекомендация по разбивке на чтения по 30–45 минут (стандарт аудиокниг).
Числа словами — нюанс, который ломает качество аудиокниг чаще всего. «25 января» в чтении звучит по-разному в зависимости от модели: одни читают «двадцать пятого января», другие — «двадцать пять января». Лучше явно: «двадцать пятого января» в тексте.
📞 Голосовой бот для IVR
Подготовь скрипт голосового меню (IVR) для звонков в [тип бизнеса]. Контекст: Главные сценарии звонков (от частого к редкому): 1) [сценарий 1] — [%]. 2) [сценарий 2] — [%]. 3) [сценарий 3] — [%]. Время работы оператора: [часы]. SLA по callback: [часов]. Структура IVR: 1) Приветствие (5–10 секунд) — название компании + краткое обозначение, что попали по адресу. 2) Главное меню — 3–5 опций максимум. Каждая — короткая (5–8 слов). 3) Опция «Соединить с оператором» — обязательная и легко доступная (нажатие 0). 4) Подменю (если нужны) — максимум 1 уровень вложенности. Дальше — оператор. 5) Сценарии вне рабочего времени — callback / обратный звонок. Принципы озвучки IVR: Тон — спокойный, нейтральный (не слишком энергичный, не слишком медленный). Голос — нейтральный, без сильного акцента (региональные диалекты снижают доверие). Темп — чуть медленнее обычного разговорного (звонящий часто стрессует). Паузы между опциями — 1 секунда. Числа в опциях — словами в скрипте, цифрами в DTMF: «Чтобы связаться с отделом продаж — нажмите один». Запрет: длинные приветствия типа «Здравствуйте, вы позвонили в компанию X, мы рады приветствовать вас», музыка вместо «Соединяю», опция «Перезвонить позже» как первая в списке.
Длинные приветствия — самый частый анти-паттерн IVR. Звонящий знает, куда позвонил, и хочет услышать опции, а не корпоративную приветственную речь. 5 секунд приветствия максимум, дальше сразу меню. Опция «Соединить с оператором» через 0 — обязательна по UX-стандарту: пользователь, который не нашёл свою опцию, не должен попасть в тупик.
🌐 Multilingual-локализация одной речи
Локализуй одну и ту же речь на несколько языков для multilingual video / multilingual ad. Контекст: Исходная речь: [язык]. Целевые языки: [список]. Длительность исходной речи: [сек]. Эмоциональный тон: [уверенный / тёплый / energetic]. Голос: [клон оригинального диктора / разные нативные голоса для каждого языка]. Исходный текст: ``` [ВСТАВЬ_ТЕКСТ] ``` Что нужно для каждого языка: 1) Перевод с локализацией (см. промпт для маркетингового перевода). 2) Подгонка длительности — перевод не должен превышать оригинал больше чем на 15% (иначе видео нужно перемонтировать под голос). 3) Если перевод длиннее — сокращай без потери ключевого посыла. 4) Разметка под нужного диктора: - Если клон одного голоса — учти, что эмоция должна передаваться через слова и акценты, голос остаётся узнаваемым. - Если разные нативные голоса — адаптируй темп под характерный темп языка (испанский быстрее, немецкий медленнее). Формат вывода — таблица: Язык | Перевод | Длительность (оценка) | Voice ID / характеристика | Заметки. В конце — рекомендация, для каких языков лучше клонировать оригинальный голос (если он брендовый), а где взять нативного диктора (для культурной релевантности).
Подгонка длительности — главный технический челлендж multilingual видео. Если испанский перевод на 25% длиннее оригинала, голос «не успевает» под кадры, и видео придётся пересобирать. Просьба сократить перевод сохраняет монтаж и экономит часы постпродакшена.
👤 Клонирование собственного голоса (этично)
Подготовлю клонирование своего голоса в [ElevenLabs / OpenAI Voice]. Что для этого нужно сделать правильно: 1) Подготовка записи для обучения: - Длительность: 60 секунд минимум, 5–10 минут оптимально. - Качество: студийный микрофон или хороший USB (Blue Yeti / Shure MV7 уровень). - Запись: моно, 44.1+ кГц, WAV или FLAC (не MP3 для обучения). - Без шумов, без эха, без других звуков. 2) Содержание для записи: - Разнообразие интонаций: вопросы, восклицания, нейтральные утверждения. - Разные эмоции: спокойно, тепло, серьёзно, чуть ironically. - Темп: смешать быструю и медленную речь. - Произношение всех типичных звуков языка (читать какой-нибудь литературный текст с разнообразной лексикой). 3) Подготовь скрипт для записи обучающего сэмпла (5–7 минут разнообразного текста для русского языка) — на основе литературного произведения общего жанра, без редкой лексики. После загрузки в ElevenLabs: 1) Тестовая генерация — короткая фраза, проверь похожесть. 2) Если голос звучит не как ваш — проблема в записи (шум, монотонность, мало материала). 3) Параметры для генерации: - Stability: 0.5–0.7 (выше = стабильнее, ниже = живее). - Similarity boost: 0.7–0.85 (выше = ближе к оригиналу). - Style: 0.0–0.2 (для консистентности). Этическое предупреждение: **клонировать можно только свой голос или голос с письменного согласия владельца**. Голос коллеги, знаменитости, случайного человека из YouTube — нельзя. Это юридически и этически неправильно.
Подробная подготовка записи критична. Большинство неудачных клонов голоса — не проблема модели, а проблема исходного сэмпла: шумная запись, монотонный тон, мало материала. 5 минут разнообразной качественной записи дают клон, который не отличить от оригинала. 30 секунд монотонного бубнения — клон, который звучит как «сам не свой».
📝 Транскрибация интервью
Транскрибируй интервью с помощью Whisper и подготовь к чтению. Контекст: Длительность аудио: [мин]. Число спикеров: [N]. Тип интервью: [подкаст / журналистское интервью / user research / экспертный разговор]. Финальное использование: [публикация / конспект / цитаты для статьи / анализ]. Шаги транскрибации: 1) Whisper Large V3 для русского языка — лучший выбор по точности. 2) Если несколько спикеров — запустить с diarization (определение говорящих). 3) Получившийся черновой текст обработать LLM. Что нужно от LLM (постобработка Whisper): 1) Расставить пунктуацию осмысленно (Whisper часто ставит запятые формально). 2) Разделить речь по спикерам (если diarization не идеальный). 3) Исправить очевидные ошибки распознавания (особенно имена и термины — если есть глоссарий, приложи). 4) Удалить междометия и слова-паразиты («э-э», «ну», «вот») для publishable варианта. 5) НЕ менять смысл и не пересказывать. Транскрипт должен оставаться дословным. 6) Тайм-коды — оставить каждые 30–60 секунд для навигации. Формат вывода — markdown с пометками спикеров и тайм-кодами: [00:00] **Спикер 1:** Текст реплики. [00:30] **Спикер 2:** Текст ответа. ... В конце — короткая сводка (3–5 главных тем интервью).
Whisper — лучший open-source инструмент транскрибации, но его сырой выход требует обработки. Удаление междометий — осторожно: для журналистики важна дословность, для publishable статьи можно почистить. Запрос «не менять смысл» — против тенденции LLM «улучшать» формулировки спикера, что юридически проблемно для журналистики.
🎧 Подкаст → статья
На основе транскрипции подкаста сделай качественную статью для блога. Контекст: Длительность подкаста: [мин]. Тема: [одна фраза]. Главные участники: [имена + регалии]. Целевая аудитория статьи: [конкретно]. Площадка публикации: [Telegram / vc.ru / блог / Дзен]. Транскрипция: ``` [ВСТАВЬ_ТРАНСКРИПЦИЮ] ``` Что нужно — статья объёмом [N знаков], структурно: 1) Заголовок-крючок — цепляющий, отражающий главное insight подкаста. 2) Лид (первый абзац) — контекст и обещание (что узнает читатель). 3) Основная часть — 3–5 ключевых мыслей с цитатами участников. Цитаты — дословные, в кавычках, с указанием автора. 4) Практические выводы — что применить с понедельника. 5) Ссылка на полный выпуск подкаста. Принципы: Не пересказывай весь подкаст хронологически. Выбери главные мысли и построй вокруг них. Сохраняй голос и стиль участников в цитатах. Ваш авторский текст — обвязка вокруг них. Если в подкасте есть конкретные кейсы или цифры — обязательно выдели. Если есть моменты, интересные для обсуждения, — поставь вопрос аудитории в конце. Запрет: «В этом эпизоде мы поговорили о...» (это плохое начало), пересказ диалога без выделения главного, цитирование банальностей.
Главная разница между «статьёй на основе подкаста» и «расшифровкой подкаста» — в выборе главного. Транскрипция длиной 60 минут — это 20 000 слов; статья — 1500–3000. Это не «короче», это «главное». Если пересказать всё — статья не читается. Если выбрать 3–5 ключевых идей и развернуть их с цитатами — это статья, которую дочитают.