технология

Из звука — в текст. Лайфхаки для расшифровки интервью

Потребовалось перевести в текст подкаст, интервью или другую аудиозапись? Можно сделать расшифровку самостоятельно, нанять фрилансера или — использовать программу для автоматической транскрибации аудио в текст. Мы решили прибегнуть к третьему варианту и протестировать, как справляются с расшифровкой доступные для бесплатного тестирования программы и сервисы.

Исходные данные

Очень многое зависит от качества записи, которую надо расшифровать. Идеально, если вы записывали на профессиональный диктофон, находясь в помещении без внешних источников шума, а собеседник обладает хорошей дикцией и достаточно громким голосом. Но если вы вели запись на телефон, находясь на улице, где под свист ветра пытались зафиксировать бессвязное выступление «жующего слова» чиновника — тут никакая программа, скорее всего, не поможет.

Для нашего эксперимента создали «лабораторные» условия — внятно и не спеша зачитали в комнате без посторонних звуков уже опубликованное интервью «Главврач старооскольской окружной больницы ответила на популярные вопросы про вакцинацию» на диктофон. Чтобы осложнить задачу программам, использовали текст о коронавирусе, в котором были аббревиатуры, иностранные, а также заимствованные и сложные русские слова. Длительность записи составила 17 минут 25 секунд.

По итогам тестирования каждого сервиса/программы собрали получившиеся тексты для сравнения с исходным. Выяснилось, что большинство из них объединяет одна проблема — отсутствие знаков препинания и абзацных отступов. Получились огромные текстовые блоки, состоящие из отдельных слов.

Чтобы сравнение было независимым, использовали сервис Back Links Manager для определения степени схожести текстов. Руководствовались следующим соображением: чем лучше распознана речь — тем меньше процент авторства и тем выше число совпадений. Процент заимствования указан у каждой проверенной программы/сервиса. Однако вы можете провести свою проверку и сверить результаты самостоятельно.

Псевдодиктовка или как «обмануть» расшифровщик

Сервисы голосового ввода уже давно встроены в текстовые онлайн-редакторы (например, Google Docs или Translate) и некоторые мессенджеры. Также по умолчанию они есть в большинстве современных смартфонов с ОС Android (обычно на базе того же Google). Но есть проблема — они (пока) не поддерживают загрузку готового файла, а рассчитаны на диктовку.

Обычно пользователи обходят это ограничение тем, что просто включают воспроизведение записи на другом устройстве и пока звучит запись — идёт транскрибация. Но такой метод ощутимо ухудшает качество результата, поскольку добавляются внешние шумы, а также помехи воспроизводящего и принимающего устройств.

И вот тут на помощь приходят инструменты, позволяющие подменить поток с микрофона на выход звука воспроизводимого файла. В большинстве современных операционных систем можно в настройках звука во вкладке запись включить стерео микшер и сделать его устройством записи по умолчанию. Для этого в Windows 10 кликните правой кнопкой мыши по значку звука в строке с часами, выберите пункт меню «Звуки», перейдите на вкладку «Запись», нажмите пункт «Стерео микшер» и включите.

Если у вас этот пункт недоступен, то можно скачать драйвер VB-CABLE Virtual Audio Device. После этого — зайдите в настройки компьютера и выберите в качестве микрофонного входа и устройства вывода в системе этот драйвер.

Затем откройте Google Docs, создайте новый документ, включите воспроизведение и по ранее выложенной инструкции начните расшифровку. Учтите один важный аспект: окно документа постоянно должно быть активным — если вы переключитесь на любое другое (например, окно аудиозаписи) — расшифровка остановится. Ну и, конечно же, не забудьте после окончания транскрибации вернуть настройки аудиовхода и вывода обратно. Схожесть оригинального текста и «расшифрованного» составила 21%.

Подобный метод работает с любыми сервисами голосового ввода (диктовки), например, блокнотом для речевого ввода Speechpad (схожесть текста — 16%) или Yandex SpeechKit, где в деморежиме доступна расшифровка только одной минуты (схожесть текста ​​— 41%).

Можно также транскрибировать записи на иностранном языке с автоматическим переводом в Google Translate (правда, полученный результат в лучшем случае только даст понимание о сути текста).

Звук → Видео → Текст

Хотите расшифровать аудиозапись? Сделайте из неё видео.

Функция автоматического распознавания речи есть ещё в одном продукте компании Google — сервисе YouTube. Здесь она используется для автоматического создания субтитров к видео. А эти субтитры можно копировать и использовать в качестве расшифровки записи (схожесть текст с оригиналом — 16%).

С помощью видеоредактора мы сделали из исходной аудиозаписи видеоролик — просто наложив фоновую картинку. После — загрузили на YouTube-канал, выставив в настройках доступ по ссылке (можно сделать и закрытый доступ).

Сервис автоматически распознает звучащую речь и создает субтитры. Чтобы скопировать их, в нижнем правом углу под видео нажмите три точки, затем строчку «Посмотреть расшифровку видео». Справа появятся субтитры, которые можно выделить и скопировать. Если нажать три точки там, то можно отобразить их без временных меток.

Можно скопировать субтитры и через Творческую студию YouTube — нажмите «Редактировать» у нужного видео, перейдите на пункт «Субтитры» и нажмите «Копировать и изменить». Этот пункт лучше тем, что субтитры копируются сплошным текстом, а не выстроенным в колонку.

В следующей части будет обзор еще 12 программ и сервисов, которые «занимаются» расшифровкой аудио в текст.

Инструкция актуальна на июль 2021 года.

Спецпроекты sdelano.media

Над материалом работал
Алексей Дёменко

Иллюстрации
скриншоты сервисов

Знаете похожие технологии? Расскажите о своем опыте, нам интересно!

Если вы нашли ошибку, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter.

Больше медиаполезностей

Больше медиаполезностей

Еженедельная рассылка по средам для мультимедийных авторов

You have Successfully Subscribed!

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: