Как транскрибировать часовое аудио в текст с разделением спикеров: рабочий алгоритм от практики
Пару лет назад ко мне обратилась юридическая компания с такой задачей, которая казалась рутинной: транскрибировать часовое аудио в текст с разделением спикеров. Запись переговоров длилась два часа двадцать минут, в ней участвовали пятеро человек, все говорили быстро и каждый в своем темпе, перебивая друг друга — на первый взгляд «полная каша». Именно тогда я окончательно понял: «просто распознать речь» и «получить профессиональную расшифровку с метками участников» — это принципиально разные задачи, требующие разных инструментов и навыков работы с ними.
С тех пор через мои руки прошло несколько сотен часов записей на русском, английском и других языках — деловые переговоры, медицинские консультации, образовательные вебинары и.т.д. Я протестировал больше дюжины сервисов и выстроил процесс, при котором двухчасовая запись уходит на обработку за сорок минут суммарного активного времени. Именно этот процесс — с нюансами и честными оценками инструментов — я и опишу ниже. Вот пошагово как и что я делал, по сути инструкция:

Почему стандартные приложения не справляются с длинными многоспикерными записями
Встроенные инструменты распознавания речи — Google Voice Typing, Apple Dictation, стандартный транскрибатор в Zoom — работают по одной логике: они переводят аудиопоток в сплошное текстовое полотно. Никаких меток участников, никакой временно́й привязки к конкретному человеку. В коротком монологе это приемлемо. В записи совещания с четырьмя-пятью участниками итоговый документ нечитаем.
Задача разделения голосов называется диаризацией (от английского speaker diarization). Это отдельный алгоритм, анализирующий акустические характеристики речи — тембр, паузы, интонационный рисунок — и присваивающий каждому временно́му сегменту метку конкретного участника. Современные системы справляются с этим с точностью 89–96% даже на «шумных» файлах, записанных в конференц-зале на смартфон.
Критический момент, который я понял на собственном опыте: диаризация и транскрипция — технологически разные задачи. Сервис может идеально распознавать речь, но не иметь никакого алгоритма разделения спикеров. Поэтому при выборе инструмента нужно смотреть именно на поддержку диаризации, а не только на процент точности STT.
Честное сравнение инструментов для русскоязычных записей
Я тестировал каждый сервис на одном и том же файле — запись делового круглого стола, 68 минут, четыре участника, записано на смартфон в конференц-зале. Условия намеренно «средние» — не студия, но и не катастрофа.
| Сервис | Качество RU | Точность | Диаризация | Стоимость | Экспорт |
|---|---|---|---|---|---|
| Whisper + pyannote | Отличное | 93–95% | ✅ Превосходная | Бесплатно (self-hosted) | TXT, SRT, JSON |
| AssemblyAI | Хорошее | 88–91% | ✅ Отличная | от $0.37/час | JSON, SRT, TXT |
| Speechmatics | Отличное | 90–93% | ✅ Точная | от €0,006/мин | JSON, TXT |
| Fireflies.ai | Хорошее | 84–87% | ✅ Базовая | от $10/мес | DOCX, PDF, TXT |
| Otter.ai | Слабое (EN) | 74–79% | ✅ Базовая | от $10/мес | DOCX, TXT |
| Google Cloud STT | Хорошее | 86–89% | ✅ Базовая | Pay-as-you-go | JSON |
Для конфиденциальных материалов мой выбор — Whisper large-v3 в связке с pyannote.audio 3.1: данные не покидают компьютер. Для быстрой облачной работы без программирования — AssemblyAI: у них нативный веб-интерфейс, прозрачное ценообразование и GDPR-совместимое хранение.
Пошаговый алгоритм: от сырой записи до готового документа
Шаг 1. Предобработка — не пропускайте этот этап
Я использую либо бесплатный Audacity, либо Adobe Podcast Enhance (онлайн, без регистрации). Три обязательных действия перед загрузкой:
- Шумоподавление — Noise Reduction на 20–30 дБ убирает фон кондиционера, эхо конференц-зала, гул вентиляции
- Нормализация громкости — Normalize до −3 дБ выравнивает уровни разных участников
- Конвертация формата — WAV или MP3 320 кбит/с, моно для записей без стереопространственной информации
Этот шаг прибавляет 5–12 процентных пунктов точности. Пропустить его — значит потратить больше времени на ручную правку потом.
Шаг 2. Диаризация и транскрипция
Облачный путь (AssemblyAI): загружаю файл в личном кабинете, включаю параметр «Speaker labels». Обработка занимает примерно минуту на каждые десять минут аудио. Результат приходит в виде JSON с метками SPEAKER_A, SPEAKER_B и временны́ми метками каждой реплики.
Локальный путь (Whisper + pyannote): Python-скрипт в двадцать строк объединяет whisper large-v3 с pyannote.audio. Дольше по времени вычислений, но ни байта данных не уходит за пределы компьютера. Для юридических или медицинских записей — это не опция, а обязательство.
Шаг 3. Постобработка в ChatGPT
Сырой текст с метками SPEAKER_00 и SPEAKER_01 я вставляю в ChatGPT с таким системным промптом: «Это транскрипция делового совещания. Определи, кто из спикеров является кем по контексту разговора. Переименуй участников. Исправь явные ошибки распознавания имён, терминов и названий компаний. Разбей на смысловые блоки с кратким заголовком каждого». Занимает десять-пятнадцать минут, а итоговый документ уже пригоден к работе без дополнительного редактирования.
Шаг 4. Финальная верификация
Прослушиваю запись параллельно с текстом на скорости 1,5×, фокусируясь на ключевых решениях, именах собственных и профессиональных терминах. Ни одна модель не обработает узкоотраслевую лексику идеально с первого раза — это нужно принять как данность и заложить время на верификацию.
Три проблемы, с которыми я сталкиваюсь постоянно
Одновременная речь двух участников
Диаризация разрушается там, где двое говорят в один момент. Моё решение — расставлять в тексте метку [перекрёстный разговор] и проверять этот фрагмент вручную. Пытаться заставить AI разобраться в наложенных сигналах — трата времени.
Дробление одного спикера на нескольких
Если человек кашлянул, сменил интонацию или отошёл от микрофона, алгоритм может «увидеть» нового участника. В pyannote это лечится параметром min_cluster_size: для коротких записей ставлю 15 секунд, для длинных — 30 секунд.
Сильный акцент или диалект
Whisper large-v3 справляется с акцентами заметно лучше предыдущих версий. Для очень нестандартной речи я переключаюсь на Speechmatics — у них есть специализированные акустические модели под разные типы произношения.
Конфиденциальность данных: что нельзя игнорировать
Вопрос, который клиенты задают всегда: куда уходят мои данные? Мои правила просты:
- Локальный Whisper — для юридических переговоров, медицинских консультаций, любых NDA-материалов
- AssemblyAI — для рабочих совещаний и образовательного контента (GDPR compliant, данные удаляются через 72 часа)
- Fireflies / Otter — только для публично доступных или условно открытых материалов
Прежде чем загрузить запись в облачный сервис, проверьте, нет ли в ней персональных данных третьих лиц — это прямое требование GDPR и российского 152-ФЗ.
Вывод: что действительно работает в 2026 году
Рынок транскрибации с диаризацией изменился радикально за два года. Инструменты, которые в 2023-м стоили корпоративных бюджетов, сегодня либо бесплатны в open-source форме, либо стоят несколько долларов за час аудио. Главный вывод из моей практики: не используйте инструменты без нативной диаризации — разница в качестве итогового документа настолько велика, что экономия на правильном сервисе оборачивается потерей времени на ручное редактирование.
Для начинающих: AssemblyAI — лучший старт без технических знаний. Для тех, кто готов настроить инструмент один раз и получать бесплатный результат навсегда — Whisper + pyannote — однозначный выбор.
Если вы работаете с видеоконтентом и вам нужно не только расшифровывать, но и быстро извлекать суть из длинных роликов — читайте мою статью «Как сделать краткую выжимку из длинного видео на YouTube онлайн». А если задача — автоматизировать рутинные процессы в Excel с помощью AI — загляните в материал про нейросети для составления таблиц и макросов в Excel.