технология

Из звука — в текст. Обзор сервисов и программ для расшифровки интервью

Протестировали платные и условно-бесплатные сервисы и программы для расшифровки интервью. В большинстве случаев они ограничены размером/длительностью аудиозаписи или временем тестового периода.

Исходные данные

Для эксперимента записали на диктофон опубликованный материал «Главврач старооскольской окружной больницы ответила на популярные вопросы про вакцинацию». Длительность записи составила 17 минут 25 секунд.

Аудиозапись загружали в сервисы и программы для автоматической транскрибации аудио в текст. Полученный результат и оригинальный материал «прогнали» через сервис Back Links Manager для определения степени схожести текстов. Чем лучше распознана речь — тем меньше процент авторства и тем выше число совпадений. Процент заимствования указан у каждой проверенной программы/сервиса.

Обзор сервисов и программ для транскрибации

Расшифровщик аудио RealSpeaker (23%)

Поддерживает загрузку видео и звука, множество языков. Пользоваться им довольно просто: выбираете язык, который звучит в записи, загружаете аудиофайл (длительностью до 180 минут), сервис показывает расчётное время выполнения транскрибации. Далее заходите в «Мои медиа» и нажимаете кнопку «Транскрибировать».

Из минусов: бесплатно можно расшифровать только до 1,5 минут записи, причём нужно загрузить запись именно такого размера, если она будет больше, сервис потребует плату. При этом в «Мои медиа» показал не только запись, что я загрузил, но и записи других пользователей, а значит, о конфиденциальности тут речи не идёт.

Англоязычный сервис sonix.ai (18%)

В тестовом режиме задаёт много вопросов и даёт расшифровать только 30 минут записи. Зато пытается расставлять точки. Хотя и не всегда успешно.

Англоязычный сервис Transcribe (20%)

Сервис платный, но есть недельный бесплатный пробный период, за который сервис расшифрует до 30 минут аудиозаписи, в том числе русскоязычной.Правда, за один раз переведет в текст только 1 минуту разговора. Инструкцию по пользованию мы ранее публиковали.

Англоязычный сервис Trint

Расшифровывает записи на 31 языке, в том числе русском. Оплата — от 24 долларов в месяц. Есть пробный период в 7 дней, но для подключения надо ввести данные карты. Мы его не тестировали.

Англоязычный сервис Vocalmatic (16%)

Может транскрибировать звуковой файл (до 2 Гб) или видео. Авторизация через аккаунт в Google, после чего надо выбрать отрасль работы и валюту оплаты, затем — рассылка реферальных предложений (этот пункт можно пропустить).

Бесплатно можно расшифровать до 30 минут записи (далее — от 468 рублей за час расшифровки). Выбираете тип файла, загружаете его, выбираете язык записи и формат стенограммы (обычный или в форме субтитров). О готовности перевода сервис уведомит письмом на электронную почту, либо надо следить за этим в личном кабинете.

Англоязычный сервис speechtext.ai (20%)

Бесплатно можно расшифровать до 10 минут записи размером до 60 мб, а дальше — тарифы от 10 долларов и выше. От всех прочих выгодно отличается тем, что пытается расставлять знаки препинания и делить текст на абзацы. Хотя не всегда удачно.

Онлайн-сервис Speechlogger (12%)

Использует технологию Google, работает только в браузере Chrome и не требует регистрации. Диктовка выполняется бесплатно, а вот за расшифровку аудио и видеофайлов придётся заплатить — 10 центов за минуту.

Русскоязычный сервис speechtotext.ru (13%)

Имеет даже своего бота-расшифровщика в Телеграм. После регистрации можно бесплатно распознать до 10 минут записи. Но у нас, почему-то, случился сбой и после расшифровки каждое предложение в тексте продублировалось два раза.

Русскоязычный сервис speech-to-text

Обещает поддержку двух языков, форматы wav и MP3. Но поскольку пробного периода в нём нет, то потестировать его не удалось. Стоимость — от 25 копеек до 1 рубля за минуту.

«Цезарь-Р», VOCO и Voice2Med

Эти три программы для расшифровки речи в текст предлагает группа компаний «ЦРТ» (Центр речевых технологий).

Voice2Med — предназначена для медорганизаций, а вот первые две, судя по описанию, подойдут и для журналистов.

«Цезарь-Р», Voco.Professional и Voco.Enterprise представляют собой комплекты для преобразования речи в текст с локальной обработкой и возможностью подключения своих словарей.

Распознавание осуществляется локально на компьютере пользователя, что обеспечивает работоспособность даже при отсутствии Интернет.

Цена и комплектация каждой программы — по запросу. На момент нашего запроса комплект Voco.Professional стоил от 15 500 рублей, Voco.Enterprise — 56 тысяч рублей, «Цезарь-Р» — от 39 500 рублей.

Возможно, мы что-то не так настроили, но тестовая версия Voco.Professional показала лишь 2% совпадения с исходным текстом.

Выводы

Как показал эксперимент, доступные сервисы и инструменты позволяют только сделать из аудиофайла текстовую заготовку, которая требует долгой редактуры.

Если нужно просто получить понимание о сути большой аудиозаписи и затем выборочно доработать отдельные куски текста — этого будет достаточно. Особенно, если решение задачи требует конфиденциальности и аудиозапись нельзя доверить другому человеку.

Но если вам нужно получить результат быстрее или хочется сразу готовый текст — лучше обратиться на любую биржу фрилансеров. Пока ни одна известная нам программа не справляется с транскрибацией лучше человека.

Инструкция актуальна на июль 2021 года.

Спецпроекты sdelano.media

Над материалом работал
Алексей Дёменко

Иллюстрации
скриншоты сервисов

Знаете похожие технологии? Расскажите о своем опыте, нам интересно!

Если вы нашли ошибку, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter.

Больше медиаполезностей

Больше медиаполезностей

Еженедельная рассылка по средам для мультимедийных авторов

You have Successfully Subscribed!

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: