Прогнал Whisper через свои собесы — нашёл 3 типа ошибок в ответах

Я QA Engineer в KoronaTech, Казахстан. Регулярно прохожу собеседования — и периодически натыкаюсь на одну и ту же проблему: после встречи смутно помнишь, где конкретно ответил неудачно, что не объяснил, какие вопросы тебя застали врасплох. Переслушивать часовую запись — час времени на одно собеседование. Если их пять — это уже потерянный вечер.

Решил автоматизировать. Whisper от OpenAI — open-source модель распознавания речи, которая работает локально без отправки данных в интернет. Это для собеседований важно: я записываю свои встречи, и эти записи никуда уезжать не должны. Поставил Whisper, прогнал первое часовое собеседование — на выходе получил полный текстовый транскрипт.

Дальше — анализ. Я открываю транскрипт и читаю свои ответы. Это занимает не час, а минуты три на средний собес. Видно сразу: где я говорил вокруг да около и не пришёл к сути, где использовал слабые формулировки, где интервьюер задал вопрос, который я не сразу понял и потерял время.

Через несколько прогонов выявил три устойчивых результата. Первое — определение проблемных вопросов: видно, на каких темах я регулярно теряюсь и где нужно подтянуть теорию. Второе — улучшение структуры ответов: в тексте сразу бросаются в глаза «слова-паразиты», лишние оговорки, избыточные вступления; в следующей встрече стараешься их убрать. Третье — понимание слабых мест: я нашёл несколько технических областей, где я уверен на словах, но в транскрипте видно, что объяснения путанные.

Из плюсов — Whisper работает локально, никаких облаков, никаких подписок, никаких рисков утечки записи. С русскоязычными собесами справляется нормально — слышит технические термины, имена, аббревиатуры. На записях с плохой связью и зашумлённым звуком тоже выдаёт читаемый результат, без многих пропусков.

Workflow получился такой. После встречи скидываю аудио в локальную папку, запускаю скрипт — через несколько минут имею текстовый файл с расшифровкой. Открываю его параллельно с заметками к этому собесу (если делал) и читаю свои ответы по конкретным вопросам, которые отметил как сложные. На пробежку по транскрипту уходит 3 минуты вместо часа на переслушивание.

По итогу — простая идея, но эффект сильный. Если регулярно проходите собеседования и хотите учиться на собственных записях, локальный Whisper решает эту задачу за один раз и потом работает в фоне. На моём горизонте улучшения заметны: за несколько недель регулярного анализа стал увереннее отвечать на типовые вопросы, перестал теряться на стыках тем.