Whisper (OpenAI)

Whisper (OpenAI)

от OpenAI

Open-source модель для распознавания речи от OpenAI. Поддерживает 99 языков, работает локально, справляется с разными акцентами и шумом.

✓ Бесплатно (open-source) ✓ 99 языков ✓ Высокая точность ✓ Работает локально ✓ Русский язык
Запущен: 2022 · Клиентов: 1+ млн · 📋 2 кейса · 📊 9 обзоров · 📖 1 гайд

Тарифы и цены

Open Source (self-host)

Бесплатно (open weights)
  • Лицензия : MIT
  • Языки : 99
  • Self-host : Да (требуется GPU)
  • Версии : tiny / base / small / medium / large-v3
  • Коммерческое использование : Да
Попробовать
⭐ Рекомендуем

OpenAI API

$0.006 / минута аудио
  • Whisper-1 модель : Да
  • Точность : Высокая на 99 языках
  • Diarization : Через дополнительные сервисы
  • File limit : 25 MB
Попробовать

Whisper через Groq / Deepgram / Replicate

От $0.0001 / минута (Groq Turbo)
  • Скорость : До 100x real-time
  • Distil-Whisper / Whisper Large v3 Turbo : Да
  • Real-time streaming : Да
Попробовать

Как Whisper (OpenAI) оценён в наших обзорах

Все подтемы (33) из обзоров, в которых участвовал сервис, отсортированы по средней оценке. На диаграмме — топ-12.

Подтема Оценка
Карта подгрупп 10
Качество распознавания речи (STT) 10
Тарифы и стоимость владения за год 10
RIAA-риски и лицензионная чистота треков 10
API и production-pipeline 10
Self-host / on-prem deployment для регуляторных задач 10
Доступность из России и оплата российскими картами 10
Production-кейсы и реальные использования 10
Что эти сервисы делают 10
STT и точность распознавания речи 10
Гибридные сценарии 10
Карта позиционирования и подгруппы 10
Что делают 10
Open-source vs proprietary 10
Сценарии победы второго сервиса (use-cases) 9
Качество русского языка 9
Скорость генерации 9
Юридические риски и copyright 9
Стоимость владения за год для трёх профилей 9
Портреты пользователей с адресными рекомендациями 9
Voice cleanup и audio restoration 4
Сценарии победы первого сервиса (use-cases) 2
Качество синтеза речи (TTS) 1
Качество генерации музыки 1
Vocal generation в песнях 1
Voice cloning и TTS 1
Контроль структуры треков 1
MIDI и нотный экспорт как уникальная фича 1
Cinematic / orchestral композиция 1
Streaming infinite-mode music 1
Detailed editor и постредактирование 1
Жанровая и региональная специализация 1
Indian / Bollywood-музыка как ниша 1
Итоговая оценка 6,4 / 10

Кейсы: Whisper (OpenAI)

Все кейсы →

Локальный пайплайн транскрипции на Whisper large-v3 + Gemma 27B + Obsidian

Системный аналитик из Альфа-банка собрал локальный пайплайн обработки аудио без облака: Whisper large-v3 для распознавания речи на русском, NeMo для диаризации голосов, Gemma 27B для саммари, Obsidian как база знаний. Зачем приватность важнее удобства облачных сервисов и где модель справляется лучше ожидаемого.

Николай Луняка (lynikol) Читать →

Прогнал Whisper через свои собесы — нашёл 3 типа ошибок в ответах

QA-инженер из Казахстана записывает свои собеседования и потом анализирует через локальный Whisper. За часовую запись сразу видно проблемные вопросы, слабые формулировки и паттерны, на которых стоит работать — без необходимости переслушивать встречу два часа подряд.

Артём Кривошеин (ArtemKQA) Читать →

Обзоры с Whisper (OpenAI)

Гайды по промптам для Whisper (OpenAI)

Готовые промпты и подборки для конкретных задач

✍️

Пользуетесь Whisper (OpenAI)?

Расскажите о своём опыте — помогите другим сделать правильный выбор. Отзывы и реальные кейсы особенно ценны.