Как с помощью нейросети быстро расшифровать интервью. Speechtext

Расшифровка интервью — долгое и нудное занятие. И сжирает кучу времени, которое можно было бы потратить на более полезные дела. При этом многие журналисты уверены, что никаких адекватных сервисов для расшифровки аудио нет. Кто-то что-то когда-то пробовал, но получил откровенное не то, а не связный текст. И с тех пор перестал искать подходящие инструменты. А между тем, существуют нейросети, автоматически расшифровывающие и аудио, и видео. Рассказываем об одной из них.

Нейросетевой сервис speechtext.ai автоматически расшифровывает интервью, освобождая время для редактирования материала и творческой работы. Возьмём в качестве примера 15-минутный отрывок беседы медиатренера Оксаны Силантьевой с автором книги «Научись уже делать картинки!» Гулим Амирхановой.

Сервис англоязычный и требует регистрации, работает без VPN. И сразу предупреждаем — он платный. Но есть возможность потестить его бесплатно: вы сможете расшифровать 15 минут аудиозаписи (при этом размер загружаемых файлов не должен превышать 60 Мб).

Если вы решите подключить платный тариф (а мы бы рекомендовали это сделать, сервис того стоит), то вам потребуется зарубежная карта. Обратите внимание — вы покупаете не месячную подписку, а пакет услуг без ограничений по времени.

Тарифы

TrialStarterPersonal
15 минут исходного материала, размер загружаемых файлов до 60 Мб. Несколько спикеров, с уточнением тематики и терминов.180 минут исходного материала, размер загружаемых файлов до 30 Мб. Один спикер, без уточнения контекста.380 минут исходного материала, размер загружаемых файлов до 60 Мб. Несколько спикеров, с уточнением тематики и терминов.
Бесплатно$10.00$19.00

Для подключения бесплатного тарифа выберите пункт «FREE TRIAL» в правом верхнем углу, заполните поля и нажмите кнопку «Register».

Триал-версия показывает максимум возможностей сервиса и соответствует тарифу Personal.

Как автоматически расшифровать интервью

Сервис работает с большинством аудио- и видеоформатов, а также с файлами .3gp. Исходник нужно скачать на компьютер. Проверьте длительность и размер файла — если они превышают доступные вам лимиты, то можно обрезать или разбить файл на части. Перейдите в сервис и нажмите кнопку «UPLOAD».

В личном кабинете будут храниться все расшифровки. Их можно сортировать по типу или искать по ключевым словам.

В открывшемся окне выберите язык, который используется в исходном файле. Уточните тематику, например, «Education» и тип аудио файла, например, «Интервью». Если в двух последних полях оставить по умолчанию «General», то сервис будет проводить расшифровку без учёта специфики (терминов, фактов, структуры беседы).

Перетащите файл в левую область окна или нажмите на слово «browse», выделенное синим цветом, чтобы загрузить один или несколько файлов с компьютера. Затем кликните по оранжевой кнопке «Upload X file».

Когда внизу окна появится галочка «Complete», нажмите оранжевую кнопку «TRANSCRIBE» в правом нижнем углу окна.

Предварительно можно активировать переключатель «Speaker recognition», чтобы сервис распознавал спикеров и разбил файл на блоки.

Процесс расшифровки показан в личном кабинете. По его окончанию в колонке «Status» появится зелёная галочка.

На расшифровку 15-минутного ролика на русском языке ушло 10 минут реального времени.

Как редактировать и скачивать

Для предварительного просмотра текста нажмите на кнопку «AD» напротив загруженного файла. В открывшемся окне можно редактировать текст и указывать имена спикеров. Кликните на текст «Add speaker» и введите нужную информацию.

Кнопка скачивания расположена справа внизу окна. Кликните на ней и в открывшемся окне выберите формат, в котором хотите сохранить файл. Если воспользоваться переключателем «Export timestamps», то в итоговом файле будут отображаться временные метки.

Расшифровка получается довольно корректная, многие специфические термины сервис распознал верно, сохранил англоязычное написание. При этом есть ошибки в именах и фамилиях, некоторых сложных словах, например «бэкграунд». Знаки препинания расставлены верно, но на абзацы speechtext.ai разбивает текст условно, по паузам в речи. Сильнее всего мешают лишние пробелы перед дефисами. К счастью, от них можно быстро избавиться автозаменой (ctrl+H в Microsoft Word).

Посмотреть, как выглядит расшифровка, можно здесь.

Над материалом работали:
Сергей Пахоруков
Иллюстрации:
скриншоты с сайта https://speechtext.ai/
Инструкция актуальна:
на сентябрь 2023 года

Подводя итоги:

1
Запишите интервью в аудио/видео формате
2
Загрузите файл в сервис
3
Отредактируйте и скачайте расшифровку