Как робот собирает данные, формирует и публикует новости всего за 9 секунд

Как робот собирает данные, формирует и публикует новости всего за 9 секунд

проект

Как робот собирает данные, формирует и публикует новости всего за 9 секунд

ссылка на проект

авторы

Сергей Якупов,
Вадим Сугак

7 декабря 2020 года интернет-журнал «Звезда» начал публиковать ежедневный «Коронавирусный дайджест». Все новости в раздел пишет… робот.

человека в команде

недель подготовки

секунд на новость

Сергей Якупов,
автор проекта

О том, что искусственный интеллект оставит райтеров и рерайтеров без работы, говорят давно, но я всегда делил журналистику на две категории — новости и истории.

Новости — это сухие, шаблонные тексты, писать большинство из которых — работа рутинная. Это не творчество, а алгоритмизированная вещь. Есть источник, нужно переупаковать информацию и доставить аудитории. И этот процесс неизменен с момента появления первых газет в 17-18 веках.

Самое важное в журналистике делается в другом формате: истории, репортажи, интервью, аналитические статьи, расследования — все то, что выходит за рамки новостей.

У Александра Дюма была любимая фраза: «история — это гвоздь, на который я вешаю свою картину». В журналистике механика похожая. Новости — это гвоздь, который может вбить и робот. Но вот написать картины никакой робот не сможет.

Поэтому когда речь заходит про то, что «роботы заменят журналистов», это означает, что все, что можно автоматизировать, будет рано или поздно автоматизировано. И единственное, что можно автоматизировать в журналистике — это новости.

Автоматизация, упрощение, удешевление — критически важны в любой сфере. Иначе до сих пор у нас не было бы, к примеру, автомобильного конвейера, собирались бы машины вручную, стоили бы бешеных денег и на дорогах появлялись бы крайне редко.

Как появился робот-новостник

Ежедневный коронавирусный дайджест на «Звезде» стал первым действующим продуктом, который подготовил наш робот.

Идею сделать такого робота я вынашивал давно. Финальным толчком стало знакомство с разработчиком из Минска Вадимом Сугаком, который делал для своих нужд агрегатор новостей.

Мы поговорили с Вадимом, он рассказал о своем движке. Я спросил, можем ли мы не просто агрегировать новости, а создавать их.

Мы довольно долго обсуждали, как это все может быть реализовано, выбирали тему. И в голову пришла мысль про новости о коронавирусе. Фактически все они одинаковы и по структуре, и по сути: сколько умерло, выздоровело, заразилось, проведено тестов. Кто-то к этому тексту делает графики, таблицы, кто-то обходится без этого.

Я пообщался с коллегами из «Звезды». Выяснилось, что подготовка такой новости у них занимает плюс-минус 40 минут. Нужно собрать цифры, нарисовать график, сформировать текст, выложить на сайт.

И тогда подумалось — а почему это нельзя автоматизировать? Как выяснилось — очень даже можно.

Мы поделили функционал: Вадим занялся разработкой, я сосредоточился на бизнесовой задаче — продукте, маркетинге, продаже.

Написал несколько шаблонов текстов новостей про коронавирус. Мы нашли самые релевантные источники по России, миру и Пермскому краю. Не у всех этих источников есть нормальный интерфейс, к которому можно подключить нашего робота, чтобы он вытаскивал информацию, поэтому завели на своем сервере собственную базу данных, в которую скачивали все цифры для последующей обработки.

Вадим написал первую версию робота, который заходит на сайты источников, смотрит обновления, скачивает к нам в базу, а потом берет цифры, формирует графики, и начинает работу с шаблонами текстов.

Шаблоны представляют собой разбитые на фразы и элементы те самые тексты, что я написал. Сейчас система построена таким образом, что робот из 10 написанных шаблонов умеет компилировать 50 миллионов вариантов текста. Соответственно, глобально каждая новость уникальна. Изменены заголовки, картинки, данные, сам текст.

Какое-то время мы думали о времени публикации: ставить свое или привязываться ко времени выдачи официальной информации по коронавирусу. Пока установили для коронавирусного дайджеста фиксированное время, потому что информация выдается каждый день примерно в один и тот же час.

Как будет размножаться робот-новостник

После коронавирусного дайджеста, который, кстати, может собирать информацию с сайтов на разных языках и формировать новости тоже на любом языке, планируем запустить других «автоматических новостников».

Мы разрабатываем универсальный движок, который сможет делать материалы на любые темы. Фактически, мы просто меняем входные данные и источники — и вот уже можно «писать» криминальные, финансовые новости, новости про ДТП. В общем, все, что угодно, где есть цифры.

Сейчас, например, «учим» нашего робота писать новости про футбол и хоккей. А там время начала и окончания матчей плавающие. Настраиваем систему так, чтобы она ловила точное время и собирала новость, как только матч закончится.

В числе особенностей спортивных новостей — язык и тон информационного сообщения. Допустим, команда из города, о котором пишет издание, проиграла, новость делается в миноре, если выиграла — в мажоре.

В такой новости будут графики движения команды по турнирной таблице, графики бомбардиров, статистика по пропускам командой голов в определенные отрезки матча. Уже готовы все шаблоны и сейчас мы настраиваем бота, тренируем, чтобы он мог создавать такой контент.

Обложка сервиса автоматизированных решений для медиа

Дальше у нас в планах научить робота писать новости про ДТП. Причем, писать он будет не только оперативку, он будет делать периодическую подборку самых аварийных мест в городе, самых аварийных марок автомобилей, самого аварийного времени суток.

Когда мы научим нашего бота собирать информацию и компилировать новости по шаблонам, перейдем к фазе два нашего проекта — к созданию полноценного текстового процессора для написания текстов на основе собираемых роботам данных.

Как робот дружит с админками

Для нашего робота неважно, на какой платформе и в какой админке работать. Такая универсализация существенно упростит установку и внедрение робота для издания.

Фактически есть два варианта. Первый — вся работа строится на сервере издания. Второй — аккумулировать информацию на нашем сервере и отдавать клиенту уже готовый материал для публикации через RSS, электронную почту, любой мессенджер.

О конкуренции

Мы не первые, кто запускает такого робота, естественно. Но мы хотим выйти на рынок с максимально универсальным продуктом.

Тема автоматических новостей актуальна давно. Еще в 2015 году, когда я был в Швеции, познакомился с одной редакцией из города Упсала. Там все спортивные новости, которые генерируют больше всего трафика на сайт, делаются роботом.

Конечно, в первую очередь нам интересен европейский рынок. Там, кстати, уже работает компания из все той же Швеции — United Robots. Они поставляют своих роботов для крупнейшего местного холдинга — Schibsted. Я внимательно поизучал, что они делают. И понял, что есть куда стремиться.

Как зарабатывает робот

Прямо сейчас никакого внешнего финансирования у нас нет. Наша задача — сделать работающий прототип и, возможно, потом будет смысл идти к инвесторам. Но, есть вероятность, что никакие инвесторы нам не понадобятся.

Мы немного поизучали рынок медиа — запрос на такой продукт есть. Условный час работы нашего робота стоит в разы дешевле работы новостника на ленте.

Наша ближайшая задача с коммерческой точки зрения — сформировать на основе всех наших разработок готовый к продаже продукт, упаковать его так, чтобы он был интересен самым разным категориям клиентов.

С другой стороны, инвестиции — это возможность резкого масштабирования продукта и выхода на новые рынке в самом ближайшем будущем. В любом случае, сначала нужен работающий по разным темам прототип.

Спецпроекты sdelano.media

Над материалом работали
Дмитрий Артюх

Иллюстрации:
скриншоты ежедневного коронавирусного дайджеста и обложки с сервиса робота-новостника

Делали похожие проекты? Расскажите о своем опыте, нам интересно!

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: