Как расшифровать интервью. Обзор 12 сервисов

Превращаем большие аудиозаписи в тексты

Протестировали платные и условно-бесплатные сервисы и программы для расшифровки интервью. В большинстве случаев они ограничены размером/длительностью аудиозаписи или временем тестового периода.

ИСПОЛЬЗУЕТСЯ В:

Исходные данные

Для эксперимента записали на диктофон опубликованный материал «Главврач старооскольской окружной больницы ответила на популярные вопросы про вакцинацию». Длительность записи составила 17 минут 25 секунд.

Аудиозапись загружали в сервисы и программы для автоматической транскрибации аудио в текст. Полученный результат и оригинальный материал «прогнали» через сервис Back Links Manager для определения степени схожести текстов. Чем лучше распознана речь — тем меньше процент авторства и тем выше число совпадений. Процент заимствования указан у каждой проверенной программы/сервиса.

Обзор сервисов и программ для транскрибации

Расшифровщик аудио RealSpeaker (23%)

Поддерживает загрузку видео и звука, множество языков. Пользоваться им довольно просто: выбираете язык, который звучит в записи, загружаете аудиофайл (длительностью до 180 минут), сервис показывает расчётное время выполнения транскрибации. Далее заходите в «Мои медиа» и нажимаете кнопку «Транскрибировать».

Из минусов: бесплатно можно расшифровать только до 1,5 минут записи, причём нужно загрузить запись именно такого размера, если она будет больше, сервис потребует плату. При этом в «Мои медиа» показал не только запись, что я загрузил, но и записи других пользователей, а значит, о конфиденциальности тут речи не идёт.

Англоязычный сервис sonix.ai (18%)

В тестовом режиме задаёт много вопросов и даёт расшифровать только 30 минут записи. Зато пытается расставлять точки. Хотя и не всегда успешно.

Англоязычный сервис Transcribe (20%)

Сервис платный, но есть недельный бесплатный пробный период, за который сервис расшифрует до 30 минут аудиозаписи, в том числе русскоязычной.Правда, за один раз переведет в текст только 1 минуту разговора. Инструкцию по пользованию мы ранее публиковали.

Англоязычный сервис Trint

Расшифровывает записи на 31 языке, в том числе русском. Оплата — от 24 долларов в месяц. Есть пробный период в 7 дней, но для подключения надо ввести данные карты. Мы его не тестировали.

Англоязычный сервис Vocalmatic (16%)

Может транскрибировать звуковой файл (до 2 Гб) или видео. Авторизация через аккаунт в Google, после чего надо выбрать отрасль работы и валюту оплаты, затем — рассылка реферальных предложений (этот пункт можно пропустить).

Бесплатно можно расшифровать до 30 минут записи (далее — от 468 рублей за час расшифровки). Выбираете тип файла, загружаете его, выбираете язык записи и формат стенограммы (обычный или в форме субтитров). О готовности перевода сервис уведомит письмом на электронную почту, либо надо следить за этим в личном кабинете.

Англоязычный сервис speechtext.ai (20%)

Бесплатно можно расшифровать до 10 минут записи размером до 60 мб, а дальше — тарифы от 10 долларов и выше. От всех прочих выгодно отличается тем, что пытается расставлять знаки препинания и делить текст на абзацы. Хотя не всегда удачно.

Онлайн-сервис Speechlogger (12%)

Использует технологию Google, работает только в браузере Chrome и не требует регистрации. Диктовка выполняется бесплатно, а вот за расшифровку аудио и видеофайлов придётся заплатить — 10 центов за минуту.

Русскоязычный сервис speechtotext.ru (13%)

Имеет даже своего бота-расшифровщика в Телеграм. После регистрации можно бесплатно распознать до 10 минут записи. Но у нас, почему-то, случился сбой и после расшифровки каждое предложение в тексте продублировалось два раза.

Русскоязычный сервис speech-to-text

Обещает поддержку двух языков, форматы wav и MP3. Но поскольку пробного периода в нём нет, то потестировать его не удалось. Стоимость — от 25 копеек до 1 рубля за минуту.

«Цезарь-Р», VOCO и Voice2Med

Эти три программы для расшифровки речи в текст предлагает группа компаний «ЦРТ» (Центр речевых технологий).

Voice2Med — предназначена для медорганизаций, а вот первые две, судя по описанию, подойдут и для журналистов.

«Цезарь-Р», Voco.Professional и Voco.Enterprise представляют собой комплекты для преобразования речи в текст с локальной обработкой и возможностью подключения своих словарей.

Распознавание осуществляется локально на компьютере пользователя, что обеспечивает работоспособность даже при отсутствии Интернет.

Цена и комплектация каждой программы — по запросу. На момент нашего запроса комплект Voco.Professional стоил от 15 500 рублей, Voco.Enterprise — 56 тысяч рублей, «Цезарь-Р» — от 39 500 рублей.

Возможно, мы что-то не так настроили, но тестовая версия Voco.Professional показала лишь 2% совпадения с исходным текстом.

Выводы

Как показал эксперимент, доступные сервисы и инструменты позволяют только сделать из аудиофайла текстовую заготовку, которая требует долгой редактуры.

Если нужно просто получить понимание о сути большой аудиозаписи и затем выборочно доработать отдельные куски текста — этого будет достаточно. Особенно, если решение задачи требует конфиденциальности и аудиозапись нельзя доверить другому человеку.

Но если вам нужно получить результат быстрее или хочется сразу готовый текст — лучше обратиться на любую биржу фрилансеров. Пока ни одна известная нам программа не справляется с транскрибацией лучше человека.

Над материалом работали:
Алексей Дёменко
Иллюстрации:
скриншоты сервисов
Инструкция актуальна:
июль 2021 года

Подводя итоги:

1
выберите сервис
2
загрузите аудио
3
дождитесь, когда сервис расшифрует