проект
7 декабря 2020 года интернет-журнал «Звезда» начал публиковать ежедневный «Коронавирусный дайджест». Все новости в раздел пишет… робот.
человека в команде
недель подготовки
секунд на новость
Сергей Якупов,
автор проекта
О том, что искусственный интеллект оставит райтеров и рерайтеров без работы, говорят давно, но я всегда делил журналистику на две категории — новости и истории.
Новости — это сухие, шаблонные тексты, писать большинство из которых — работа рутинная. Это не творчество, а алгоритмизированная вещь. Есть источник, нужно переупаковать информацию и доставить аудитории. И этот процесс неизменен с момента появления первых газет в 17-18 веках.
Самое важное в журналистике делается в другом формате: истории, репортажи, интервью, аналитические статьи, расследования — все то, что выходит за рамки новостей.
У Александра Дюма была любимая фраза: «история — это гвоздь, на который я вешаю свою картину». В журналистике механика похожая. Новости — это гвоздь, который может вбить и робот. Но вот написать картины никакой робот не сможет.
Поэтому когда речь заходит про то, что «роботы заменят журналистов», это означает, что все, что можно автоматизировать, будет рано или поздно автоматизировано. И единственное, что можно автоматизировать в журналистике — это новости.
Автоматизация, упрощение, удешевление — критически важны в любой сфере. Иначе до сих пор у нас не было бы, к примеру, автомобильного конвейера, собирались бы машины вручную, стоили бы бешеных денег и на дорогах появлялись бы крайне редко.
Ежедневный коронавирусный дайджест на «Звезде» стал первым действующим продуктом, который подготовил наш робот.
Идею сделать такого робота я вынашивал давно. Финальным толчком стало знакомство с разработчиком из Минска Вадимом Сугаком, который делал для своих нужд агрегатор новостей.
Мы поговорили с Вадимом, он рассказал о своем движке. Я спросил, можем ли мы не просто агрегировать новости, а создавать их.
Мы довольно долго обсуждали, как это все может быть реализовано, выбирали тему. И в голову пришла мысль про новости о коронавирусе. Фактически все они одинаковы и по структуре, и по сути: сколько умерло, выздоровело, заразилось, проведено тестов. Кто-то к этому тексту делает графики, таблицы, кто-то обходится без этого.
Я пообщался с коллегами из «Звезды». Выяснилось, что подготовка такой новости у них занимает плюс-минус 40 минут. Нужно собрать цифры, нарисовать график, сформировать текст, выложить на сайт.
И тогда подумалось — а почему это нельзя автоматизировать? Как выяснилось — очень даже можно.
Мы поделили функционал: Вадим занялся разработкой, я сосредоточился на бизнесовой задаче — продукте, маркетинге, продаже.
Написал несколько шаблонов текстов новостей про коронавирус. Мы нашли самые релевантные источники по России, миру и Пермскому краю. Не у всех этих источников есть нормальный интерфейс, к которому можно подключить нашего робота, чтобы он вытаскивал информацию, поэтому завели на своем сервере собственную базу данных, в которую скачивали все цифры для последующей обработки.
Вадим написал первую версию робота, который заходит на сайты источников, смотрит обновления, скачивает к нам в базу, а потом берет цифры, формирует графики, и начинает работу с шаблонами текстов.
Шаблоны представляют собой разбитые на фразы и элементы те самые тексты, что я написал. Сейчас система построена таким образом, что робот из 10 написанных шаблонов умеет компилировать 50 миллионов вариантов текста. Соответственно, глобально каждая новость уникальна. Изменены заголовки, картинки, данные, сам текст.
Какое-то время мы думали о времени публикации: ставить свое или привязываться ко времени выдачи официальной информации по коронавирусу. Пока установили для коронавирусного дайджеста фиксированное время, потому что информация выдается каждый день примерно в один и тот же час.
После коронавирусного дайджеста, который, кстати, может собирать информацию с сайтов на разных языках и формировать новости тоже на любом языке, планируем запустить других «автоматических новостников».
Мы разрабатываем универсальный движок, который сможет делать материалы на любые темы. Фактически, мы просто меняем входные данные и источники — и вот уже можно «писать» криминальные, финансовые новости, новости про ДТП. В общем, все, что угодно, где есть цифры.
Сейчас, например, «учим» нашего робота писать новости про футбол и хоккей. А там время начала и окончания матчей плавающие. Настраиваем систему так, чтобы она ловила точное время и собирала новость, как только матч закончится.
В числе особенностей спортивных новостей — язык и тон информационного сообщения. Допустим, команда из города, о котором пишет издание, проиграла, новость делается в миноре, если выиграла — в мажоре.
В такой новости будут графики движения команды по турнирной таблице, графики бомбардиров, статистика по пропускам командой голов в определенные отрезки матча. Уже готовы все шаблоны и сейчас мы настраиваем бота, тренируем, чтобы он мог создавать такой контент.
Дальше у нас в планах научить робота писать новости про ДТП. Причем, писать он будет не только оперативку, он будет делать периодическую подборку самых аварийных мест в городе, самых аварийных марок автомобилей, самого аварийного времени суток.
Когда мы научим нашего бота собирать информацию и компилировать новости по шаблонам, перейдем к фазе два нашего проекта — к созданию полноценного текстового процессора для написания текстов на основе собираемых роботам данных.
Для нашего робота неважно, на какой платформе и в какой админке работать. Такая универсализация существенно упростит установку и внедрение робота для издания.
Фактически есть два варианта. Первый — вся работа строится на сервере издания. Второй — аккумулировать информацию на нашем сервере и отдавать клиенту уже готовый материал для публикации через RSS, электронную почту, любой мессенджер.
Мы не первые, кто запускает такого робота, естественно. Но мы хотим выйти на рынок с максимально универсальным продуктом.
Тема автоматических новостей актуальна давно. Еще в 2015 году, когда я был в Швеции, познакомился с одной редакцией из города Упсала. Там все спортивные новости, которые генерируют больше всего трафика на сайт, делаются роботом.
Конечно, в первую очередь нам интересен европейский рынок. Там, кстати, уже работает компания из все той же Швеции — United Robots. Они поставляют своих роботов для крупнейшего местного холдинга — Schibsted. Я внимательно поизучал, что они делают. И понял, что есть куда стремиться.
Прямо сейчас никакого внешнего финансирования у нас нет. Наша задача — сделать работающий прототип и, возможно, потом будет смысл идти к инвесторам. Но, есть вероятность, что никакие инвесторы нам не понадобятся.
Мы немного поизучали рынок медиа — запрос на такой продукт есть. Условный час работы нашего робота стоит в разы дешевле работы новостника на ленте.
Наша ближайшая задача с коммерческой точки зрения — сформировать на основе всех наших разработок готовый к продаже продукт, упаковать его так, чтобы он был интересен самым разным категориям клиентов.
С другой стороны, инвестиции — это возможность резкого масштабирования продукта и выхода на новые рынке в самом ближайшем будущем. В любом случае, сначала нужен работающий по разным темам прототип.
Над материалом работали
Дмитрий Артюх
скриншоты ежедневного коронавирусного дайджеста и обложки с сервиса робота-новостника
Делали похожие проекты? Расскажите о своем опыте, нам интересно!
Читайте также