Как транскрибировать часовое аудио в текст с разделением спикеров: рабочий алгоритм от практики

Пару лет назад ко мне обратилась юридическая компания с такой задачей, которая казалась рутинной: транскрибировать часовое аудио в текст с разделением спикеров. Запись переговоров длилась два часа двадцать минут, в ней участвовали пятеро человек, все говорили быстро и каждый в своем темпе, перебивая друг друга — на первый взгляд «полная каша». Именно тогда я окончательно понял: «просто распознать речь» и «получить профессиональную расшифровку с метками участников» — это принципиально разные задачи, требующие разных инструментов и навыков работы с ними.

С тех пор через мои руки прошло несколько сотен часов записей на русском, английском и других языках — деловые переговоры, медицинские консультации, образовательные вебинары и.т.д. Я протестировал больше дюжины сервисов и выстроил процесс, при котором двухчасовая запись уходит на обработку за сорок минут суммарного активного времени. Именно этот процесс — с нюансами и честными оценками инструментов — я и опишу ниже. Вот пошагово как и что я делал, по сути инструкция:

Почему стандартные приложения не справляются с длинными многоспикерными записями

Встроенные инструменты распознавания речи — Google Voice Typing, Apple Dictation, стандартный транскрибатор в Zoom — работают по одной логике: они переводят аудиопоток в сплошное текстовое полотно. Никаких меток участников, никакой временно́й привязки к конкретному человеку. В коротком монологе это приемлемо. В записи совещания с четырьмя-пятью участниками итоговый документ нечитаем.

Задача разделения голосов называется диаризацией (от английского speaker diarization). Это отдельный алгоритм, анализирующий акустические характеристики речи — тембр, паузы, интонационный рисунок — и присваивающий каждому временно́му сегменту метку конкретного участника. Современные системы справляются с этим с точностью 89–96% даже на «шумных» файлах, записанных в конференц-зале на смартфон.

Критический момент, который я понял на собственном опыте: диаризация и транскрипция — технологически разные задачи. Сервис может идеально распознавать речь, но не иметь никакого алгоритма разделения спикеров. Поэтому при выборе инструмента нужно смотреть именно на поддержку диаризации, а не только на процент точности STT.

Честное сравнение инструментов для русскоязычных записей

Я тестировал каждый сервис на одном и том же файле — запись делового круглого стола, 68 минут, четыре участника, записано на смартфон в конференц-зале. Условия намеренно «средние» — не студия, но и не катастрофа.

Сервис	Качество RU	Точность	Диаризация	Стоимость	Экспорт
Whisper + pyannote	Отличное	93–95%	✅ Превосходная	Бесплатно (self-hosted)	TXT, SRT, JSON
AssemblyAI	Хорошее	88–91%	✅ Отличная	от $0.37/час	JSON, SRT, TXT
Speechmatics	Отличное	90–93%	✅ Точная	от €0,006/мин	JSON, TXT
Fireflies.ai	Хорошее	84–87%	✅ Базовая	от $10/мес	DOCX, PDF, TXT
Otter.ai	Слабое (EN)	74–79%	✅ Базовая	от $10/мес	DOCX, TXT
Google Cloud STT	Хорошее	86–89%	✅ Базовая	Pay-as-you-go	JSON

Для конфиденциальных материалов мой выбор — Whisper large-v3 в связке с pyannote.audio 3.1: данные не покидают компьютер. Для быстрой облачной работы без программирования — AssemblyAI: у них нативный веб-интерфейс, прозрачное ценообразование и GDPR-совместимое хранение.

Пошаговый алгоритм: от сырой записи до готового документа

Шаг 1. Предобработка — не пропускайте этот этап

Я использую либо бесплатный Audacity, либо Adobe Podcast Enhance (онлайн, без регистрации). Три обязательных действия перед загрузкой:

Шумоподавление — Noise Reduction на 20–30 дБ убирает фон кондиционера, эхо конференц-зала, гул вентиляции
Нормализация громкости — Normalize до −3 дБ выравнивает уровни разных участников
Конвертация формата — WAV или MP3 320 кбит/с, моно для записей без стереопространственной информации

Этот шаг прибавляет 5–12 процентных пунктов точности. Пропустить его — значит потратить больше времени на ручную правку потом.

Шаг 2. Диаризация и транскрипция

Облачный путь (AssemblyAI): загружаю файл в личном кабинете, включаю параметр «Speaker labels». Обработка занимает примерно минуту на каждые десять минут аудио. Результат приходит в виде JSON с метками SPEAKER_A, SPEAKER_B и временны́ми метками каждой реплики.

Локальный путь (Whisper + pyannote): Python-скрипт в двадцать строк объединяет whisper large-v3 с pyannote.audio. Дольше по времени вычислений, но ни байта данных не уходит за пределы компьютера. Для юридических или медицинских записей — это не опция, а обязательство.

Шаг 3. Постобработка в ChatGPT

Сырой текст с метками SPEAKER_00 и SPEAKER_01 я вставляю в ChatGPT с таким системным промптом: «Это транскрипция делового совещания. Определи, кто из спикеров является кем по контексту разговора. Переименуй участников. Исправь явные ошибки распознавания имён, терминов и названий компаний. Разбей на смысловые блоки с кратким заголовком каждого». Занимает десять-пятнадцать минут, а итоговый документ уже пригоден к работе без дополнительного редактирования.

Шаг 4. Финальная верификация

Прослушиваю запись параллельно с текстом на скорости 1,5×, фокусируясь на ключевых решениях, именах собственных и профессиональных терминах. Ни одна модель не обработает узкоотраслевую лексику идеально с первого раза — это нужно принять как данность и заложить время на верификацию.

Три проблемы, с которыми я сталкиваюсь постоянно

Одновременная речь двух участников

Диаризация разрушается там, где двое говорят в один момент. Моё решение — расставлять в тексте метку [перекрёстный разговор] и проверять этот фрагмент вручную. Пытаться заставить AI разобраться в наложенных сигналах — трата времени.

Дробление одного спикера на нескольких

Если человек кашлянул, сменил интонацию или отошёл от микрофона, алгоритм может «увидеть» нового участника. В pyannote это лечится параметром min_cluster_size: для коротких записей ставлю 15 секунд, для длинных — 30 секунд.

Сильный акцент или диалект

Whisper large-v3 справляется с акцентами заметно лучше предыдущих версий. Для очень нестандартной речи я переключаюсь на Speechmatics — у них есть специализированные акустические модели под разные типы произношения.

Конфиденциальность данных: что нельзя игнорировать

Вопрос, который клиенты задают всегда: куда уходят мои данные? Мои правила просты:

Локальный Whisper — для юридических переговоров, медицинских консультаций, любых NDA-материалов
AssemblyAI — для рабочих совещаний и образовательного контента (GDPR compliant, данные удаляются через 72 часа)
Fireflies / Otter — только для публично доступных или условно открытых материалов

Прежде чем загрузить запись в облачный сервис, проверьте, нет ли в ней персональных данных третьих лиц — это прямое требование GDPR и российского 152-ФЗ.

Вывод: что действительно работает в 2026 году

Рынок транскрибации с диаризацией изменился радикально за два года. Инструменты, которые в 2023-м стоили корпоративных бюджетов, сегодня либо бесплатны в open-source форме, либо стоят несколько долларов за час аудио. Главный вывод из моей практики: не используйте инструменты без нативной диаризации — разница в качестве итогового документа настолько велика, что экономия на правильном сервисе оборачивается потерей времени на ручное редактирование.

Для начинающих: AssemblyAI — лучший старт без технических знаний. Для тех, кто готов настроить инструмент один раз и получать бесплатный результат навсегда — Whisper + pyannote — однозначный выбор.

Если вы работаете с видеоконтентом и вам нужно не только расшифровывать, но и быстро извлекать суть из длинных роликов — читайте мою статью «Как сделать краткую выжимку из длинного видео на YouTube онлайн». А если задача — автоматизировать рутинные процессы в Excel с помощью AI — загляните в материал про нейросети для составления таблиц и макросов в Excel.

Об авторе

Дмитрий Куликов — консультант по автоматизации рабочих процессов и интеграции AI-инструментов. Девять лет работает с командами в сферах юриспруденции, финансов и образования. Специализируется на практическом внедрении нейросетевых решений без академических абстракций. Ведёт этот блог с 2020 года — только то, что проверено на реальных задачах.

Как транскрибировать часовое аудио в текст с разделением спикеров в 2026 году