Как с помощью нейросети быстро расшифровать интервью. Speechtext
Расшифровка интервью — долгое и нудное занятие. И сжирает кучу времени, которое можно было бы потратить на более полезные дела. При этом многие журналисты уверены, что никаких адекватных сервисов для расшифровки аудио нет. Кто-то что-то когда-то пробовал, но получил откровенное не то, а не связный текст. И с тех пор перестал искать подходящие инструменты. А между тем, существуют нейросети, автоматически расшифровывающие и аудио, и видео. Рассказываем об одной из них.
Нейросетевой сервис speechtext.ai автоматически расшифровывает интервью, освобождая время для редактирования материала и творческой работы. Возьмём в качестве примера 15-минутный отрывок беседы медиатренера Оксаны Силантьевой с автором книги «Научись уже делать картинки!» Гулим Амирхановой.
Сервис англоязычный и требует регистрации, работает без VPN. И сразу предупреждаем — он платный. Но есть возможность потестить его бесплатно: вы сможете расшифровать 15 минут аудиозаписи (при этом размер загружаемых файлов не должен превышать 60 Мб).
Если вы решите подключить платный тариф (а мы бы рекомендовали это сделать, сервис того стоит), то вам потребуется зарубежная карта. Обратите внимание — вы покупаете не месячную подписку, а пакет услуг без ограничений по времени.
Тарифы
Trial | Starter | Personal |
15 минут исходного материала, размер загружаемых файлов до 60 Мб. Несколько спикеров, с уточнением тематики и терминов. | 180 минут исходного материала, размер загружаемых файлов до 30 Мб. Один спикер, без уточнения контекста. | 380 минут исходного материала, размер загружаемых файлов до 60 Мб. Несколько спикеров, с уточнением тематики и терминов. |
Бесплатно | $10.00 | $19.00 |
Для подключения бесплатного тарифа выберите пункт «FREE TRIAL» в правом верхнем углу, заполните поля и нажмите кнопку «Register».
Как автоматически расшифровать интервью
Сервис работает с большинством аудио- и видеоформатов, а также с файлами .3gp. Исходник нужно скачать на компьютер. Проверьте длительность и размер файла — если они превышают доступные вам лимиты, то можно обрезать или разбить файл на части. Перейдите в сервис и нажмите кнопку «UPLOAD».
В открывшемся окне выберите язык, который используется в исходном файле. Уточните тематику, например, «Education» и тип аудио файла, например, «Интервью». Если в двух последних полях оставить по умолчанию «General», то сервис будет проводить расшифровку без учёта специфики (терминов, фактов, структуры беседы).
Перетащите файл в левую область окна или нажмите на слово «browse», выделенное синим цветом, чтобы загрузить один или несколько файлов с компьютера. Затем кликните по оранжевой кнопке «Upload X file».
Когда внизу окна появится галочка «Complete», нажмите оранжевую кнопку «TRANSCRIBE» в правом нижнем углу окна.
Процесс расшифровки показан в личном кабинете. По его окончанию в колонке «Status» появится зелёная галочка.
Как редактировать и скачивать
Для предварительного просмотра текста нажмите на кнопку «AD» напротив загруженного файла. В открывшемся окне можно редактировать текст и указывать имена спикеров. Кликните на текст «Add speaker» и введите нужную информацию.
Кнопка скачивания расположена справа внизу окна. Кликните на ней и в открывшемся окне выберите формат, в котором хотите сохранить файл. Если воспользоваться переключателем «Export timestamps», то в итоговом файле будут отображаться временные метки.
Расшифровка получается довольно корректная, многие специфические термины сервис распознал верно, сохранил англоязычное написание. При этом есть ошибки в именах и фамилиях, некоторых сложных словах, например «бэкграунд». Знаки препинания расставлены верно, но на абзацы speechtext.ai разбивает текст условно, по паузам в речи. Сильнее всего мешают лишние пробелы перед дефисами. К счастью, от них можно быстро избавиться автозаменой (ctrl+H в Microsoft Word).
Посмотреть, как выглядит расшифровка, можно здесь.