Работать с открытыми данными не так страшно, как кажется
Истории прячутся и в цифрах. Они помогают увидеть картину целиком, подтверждают
или опровергают обещания и гипотезы. Данные способны рассказать то, о чем никто
не расскажет. Только надо знать, где и как их искать.
Алеся Мароховская,
дата-журналистка «Новой газеты»:
Журналистика данных — это не про занудство с компьютером, это такая же журналистика, только ты задаешь вопросы не людям, а цифрам. Данные тоже могут врать, как и люди, информацию так же нужно перепроверять.
Алеся Мароховская,
дата-журналистка «Новой газеты»:
Журналистика данных — это не про занудство с компьютером, это такая же журналистика, только ты задаешь вопросы не людям, а цифрам. Данные тоже могут врать, как и люди, информацию так же нужно перепроверять.
Работа с открытыми данными — направление в российской журналистике молодое. Немногие СМИ берутся анализировать информацию в цифрах. Немногие журналисты, несмотря на «гуманитарность» ума, готовы изучать язык программирования и искать истории в данных. И зря.
Журналистам может казаться, что они гуманитарии, математику знали плохо, поэтому работа с данными не для них. Но журналист может переучиться и находить в цифрах хорошие истории. Отдельные ситуации отдельных людей не показывают картину целиком. Дата-журналистика помогает найти ответы в статистике, демонстрирует, что происходит и что нужно изменить.
Анастасия Валеева, директор департамента журналистика и массовые коммуникации
в Американском университете в Центральной Азии и соосновательница Общественного фонда «Школа данных»
4 примера, как журналисты используют данные в работе
Как и кого в России судят за пытки
Сколько в России алкоголиков
Какие улицы есть в России
Россия в данных
Год назад дата-отдел «Новой газеты» собрал и проанализировал судебные решения с 2011 по 2017 год, вынесенные должностным лицам за насилие (ст. 286 ч. 3). Журналисты смогли показать наиболее полную картину того, как и кого в России судят за пытки.
В октябре 2019 года РБК выяснил, что за год в России стало на 75 тысяч алкоголиков больше. По данным Минздрава, лидером по числу новых выявленных случаев в 2018 году оказался Чукотский автономный округ, на втором месте — Якутия, на третьем месте — Ненецкий автономный округ.
Два года назад Яндекс проанализировал около 560 тысяч улиц в 43 тысячах населённых пунктов. Из исследования можно узнать, какие улицы самые многочисленные, какие самые извилистые, самые длинные и самые короткие.
На сайте «Россия в данных» можно узнать, в каких регионах России лучше живется, куда и зачем переезжают люди последние 100 лет, как менялся государственный бюджет, как зарплата зависит от возраста и профессии.
Что такое открытые данные?
Медиаюрист Наталья Якимовская объясняет: понятия «открытых данных» в российском законодательстве нет, но есть определение понятия «общедоступная информация» — «информация, размещаемая ее обладателями в сети «Интернет» в формате, допускающем автоматизированную обработку без предварительных изменений человеком в целях повторного ее использования, является общедоступной информацией, размещаемой в форме открытых данных».

Понятие «открытые данные» раскрывается на сайте Экспертного совета по открытым данным — это информация, которую раскрывают государственные органы и местные власти и которая отвечает трем требованиям:
свобода доступа
данные могут найти и скачать все, чтобы их получить платить не надо;
свобода использования
у них отсутствуют авторские права, значит, каждый может их анализировать, использовать, распространять и при необходимости зарабатывать;
автоматическая обработка (машиночитаемость)
они размещены в структурированном виде (обычно под этим подразумевают таблицы. Примеры машиночитаемых форматов: CSV, XML, JSON, ODS и другие.).
Информация, полученная по запросу, открытыми данными не считается. Нельзя так называть декларации чиновников или информацию на сайте госзакупок. Эти данные соответствуют двум «показателям» из трех.
Но у нас в сообществе не сильно придерживаются правильного определения. Мы уже радуемся, если где-то на каком-то сайте открыто лежит информация, с которой можно работать.
Алеся Мароховская, дата-журналистка «Новой газеты»
Способы получения данных
Журналисту нужно владеть навыками работы с Excel и программирования (например, Python), чтобы обрабатывать данные.
Технологическое решение: парсинг данных с сайтов, мониторинг изменений на сайтах. Журналисту нужно владеть умением анализировать данные и находить ошибки, уметь работать с Excel и программировать (например, на Python), чтобы структурировать данные.
Где искать данные
Как получать информацию с сайтов автоматически
Парсинг — автоматический сбор информации с сайта, позволяющий сохранить и получать ее на почту в структурированном виде.

Парсинг оперативно «рассказывает» обо всех изменениях, опубликованных на сайте. Например, о появлении новых постановлений, распоряжений, положений. Парсить можно и коммерческие сайты, и сайты объявлений, и сайты предприятий, и социальные сети.
Преимущества парсинга:

  • быстро пройдется по тысячам интернет-страниц,
  • разделит технические данные и нужную человеку информацию,
  • отбросит ненужное, оставив только то, что необходимо,
  • произведет упаковку данных в необходимый для пользователя вид.
Как работать с данными
Дата-журналистика хоть и молодое направление, но сообщество специалистов сформировалось. «Нельзя сказать, что мы работаем в вакууме», — говорит Алеся Мароховская. Новичкам дата-журналистка рекомендует подписаться на OpenDataRussiaChat или на DDJ Russian в Телеграме, где сидят не только журналисты, работающие с данными, но и специалисты, которые занимаются подготовкой информации. Здесь и помогут, и подскажут.

Получить данные — полдела. Нужно еще их правильно интерпретировать. Проверяйте себя, советуйтесь со специалистами, обязательно смотрите методологию, где прописано, как данные собирались, что учитывалось.
Анастасия Валеева,
соосновательница Общественного Фонда «Школа Данных»:
Задавайте вопросы данным: кто их собрал, с какой целью? Доверяете ли вы источнику данных? Где статистику собирали? Когда? Как? Подробно читайте методологию и сверяйтесь. Любой ответ можно перепроверить в других источниках.
Анастасия Валеева,
соосновательница Общественного Фонда «Школа Данных»:
Задавайте вопросы данным: кто их собрал, с какой целью? Доверяете ли вы источнику данных? Где статистику собирали? Когда? Как? Подробно читайте методологию и сверяйтесь. Любой ответ можно перепроверить в других источниках.
Четыре правила работы с данными
Не теряйтесь в таблице
Чтобы не запутаться и не потеряться в строках и столбцах, закрепите первую строчку, чтобы она не «уехала». Тогда вы всегда будете понимать, какая строка к какому показателю относится.
Избавьтесь от лишнего
Не факт, что для анализа вам потребуется вся таблица целиком. Возможно, вам нужны лишь несколько показателей. Очистите таблицу от лишнего.
Сохраните оригинал
Обычно вся работа происходит в excel. Не работайте в оригинальном документе, создавайте его копию и работайте с ней. Обязательно создайте вкладку с мета-данными, где укажите, откуда скачали таблицу, когда, контакты человека, который данные собирал.
Создавайте копии
Удалили лишние столбцы или строки в таблице — создайте копию. Объединили в ней данные — создайте еще одну копию. Дополнили таблицу информацией — копируйте. Все важные шаги фиксируйте подобным образом. Это поможет другим понять, как вы пришли к выводам.
Какие данные под запретом
Запрещено разглашать персональные данные. Остальная статистика формально является открытой.

Размер средней зарплаты — информация открытая. Количество миллионеров в городе, регионе, стране, скорее всего, налоговая служба вам сообщит. Узнать количество людей, зарабатывающих ниже прожиточного минимума, будет сложнее.
Пример из жизни
В 2017 году газета «Знамя Победы» (Сухой Лог, Свердловская область) анализировала жизнь в десяти городах региона по нескольким показателям.

Мария Базунова, в 2017 году главный редактор «Знамя Победы»:
«Просматривая газеты башкирских коллег, увидела хороший материал на любимую мною экономическую тему. Взяли и прикрутили к себе, добавив побольше городов и выводов по экономике. Это было нелегко. Данные из кучи источников плюс помощь коллег по добыче недостающих и «засекреченных» цифр».

Один из показателей — количество людей, зарабатывающих ниже прожиточного минимума. В Краснотурьинске (Свердловская область) таковых оказалось рекордное количество — более 15 тысяч человек. Такую информацию местным журналистам предоставили в налоговой службе. При этом в городе работающего населения на тот момент было 23 тысяч человек.

Когда через год краснотурьинские журналисты вновь запросили данные в налоговой службе, госструктура отказалась их предоставлять.
Алеся Мароховская,
дата-журналистка «Новой газеты»:
Госструктуры пользуются тем, что многие не знают, какие данные могут быть открыты, поэтому закрывают те, в которых видят угрозу.
Алеся Мароховская,
дата-журналистка «Новой газеты»:
Госструктуры пользуются тем, что многие не знают, какие данные могут быть открыты, поэтому закрывают те, в которых видят угрозу.
По словам дата-журналиста «Новой газеты», иногда ведомства выкладывают интересную информацию, не догадываясь об этом. После того как СМИ ее «нароют», данные экстренно с сайта удаляются.

Самое закрытое ведомство — министерство обороны. «Приоткрытые» сферы — образование, здравоохранение, культура. В их дата-сетах можно откопать жемчужины.
Госорганы сами определяют, что они публикуют в открытых данных, а что нет. Существуют только методические рекомендации и технические требования по их публикации. Законодательно обязать тот или иной госорган опубликовать что-то не получится, так как нет четкого списка, какие данные обязательны к публикации.

Что делать редакциям, если госструктуры отказывают в предоставлении данных, в том числе по запросу? Можно пожаловаться в вышестоящую организацию или в суд. За непредоставление информации существует как административная, так и уголовная ответственность в зависимости от того, информацию какого рода вы запрашивали, а вам ее не предоставили.
Наталья Якимовская, медиаюрист
Штрафом от 5 до 10 тысяч рублей чиновника накажут за несвоевременное предоставление или за предоставление заведомо ложной информации (ст. Ст. 5.39 КоАП РФ «Отказ в предоставлении информации»).

Штраф до 200 тысяч рублей чиновник рискует заплатить, если

  • отказал сообщать данные, которые затрагивают права и свободы гражданина;
  • предоставил неполную или заведомо ложную информацию, чем навредил правам и законным интересам граждан (ст. 140 УК РФ «Отказ в предоставлении гражданину информации»).
Когда в данных нужно сомневаться
Распространенный случай, когда собираешь данные из разных источников, и они не совпадают. Все дело в том, кто и как информацию собирал. Чтобы понять, почему данные отличаются, нужно смотреть методологию. Если данные открытые, то там указаны контакты ответственного. С ним можно связаться и уточнить, что учитывали, что не учитывали.
Алеся Мароховская, дата-журналистка «Новой газеты»
Статистика, которую разглашают различные государственные ведомства и учреждения, является официальной. Однако не всегда нужно верить ей безоговорочно. Показывать реальность невыгодно и цифрами тоже можно манипулировать.

Например, государству невыгодно показывать статистику смерти от туберкулеза, в цифрах ее можно уменьшить, увеличив количество смертей от ВИЧ. Только от вируса иммунодефицита человека не умирают. От туберкулеза умирают. Умерших пациентов, имеющих оба диагноза, можно «перекидывать» в угоду желаемой статистике.
Государство — основной поставщик данных. В таком масштабе и в таком количестве ему нет равных. Поэтому с этими данными необходимо работать. Просто не стоит им слепо доверять, надо применять критическое мышление.
Анастасия Валеева, директор департамента журналистика и массовые коммуникации
в Американском университете в Центральной Азии
Пример истории, которая может родиться из данных, и критического подхода к цифрам в своем посте в Фейсбуке привел Виталий Обедин, заместитель главного редактора газеты «Якутск Вечерний».
Хроника сплошных побед! Тут вот какое дело. Я разбирался с цифрами по бедности, которые озвучивались 23 сентября в парламенте Якутии. И очень меня засмущали слова про то, что власть героически снизила в прошлом году бедность в Якутии с 20,1% до 19%.

Почему меня это смутило? Потому что я помню, как в 2017-м году чиновники рассказывали в интервью, как они сократили бедность до 18%, и собираются понижать эту цифру дальше за счет «комплексных мер».
Как же это так? Как власти боролись с бедностью так, что она стала больше?

Озадаченный я начал поднимать цифры по количеству бедняков и обнаружил, что они везде, во всех документах разные. Отчаявшись понять, где реальные цифры, а где приписки, решил взять за основу те показатели по бедности, что власть включает в свои ежегодные отчеты перед населением.

Во-первых, это сводный документ, который готовят все ведомства республики, включая те, что отвечают за социальную политику. Во-вторых, этот документ утверждает правительство Якутии. В-третьих, ну не врут же они нам каждый год?!

И, знаете что? Хроника побед, о которых рапортуют каждый год — уникальна! Сами зацените:
2014 г. — 17,4% граждан живет ниже прожиточного минимума;
2016 г. — 19%;
2017 г. — 19,8%;
2018 г. — 20,3%.
Виталий Обедин, заместитель главного редактора газеты «Якутск Вечерний».
Министр экономики Якутии Майя Данилова в комметариях к посту сообщила, что данные в официальном отчете правительства некорректные, так как их могут уточнить и через год. «Это издержки методологии, о которых потребитель обычно предупреждается в сносках».

Вскоре после поста Виталия Обедина чиновники уточнили данные по количеству бедных: в 2017 году их стало больше, а в 2018 году меньше. Но опять же предварительно.
Как увидеть истории в данных
Не могу сказать, что журналист с нуля начнет работать с открытыми данными, через два месяца у него откроется чакра, и он будет видеть истории в цифрах. Это такой же талант, как находить тему, поговорив с человеком.

Я бы советовала первое время идти от обратного: не пытаться найти историю в данных, а пытайся подтвердить ими свою гипотезу. Думая над гипотезой, надо понимать, насколько реально получить данные и где. Еще важно иметь критическое мышление, спрашивать себя, а что стоит за каждой цифрой?

Условно, появилась информация, что в России столько-то человек имеют высшее образование. Можно просто эту цифру сообщить читателям, а можно всматриваться в колонки и думать, что эти данные могут дать. Сейчас очень много людей имеют высшее образование, значит, здесь есть потенциальная история про его обесценивание.

Когда-то оно считалось ценным, считалось, что его необходимо получить, чтобы чего-то добиться в жизни. Но когда его получили все, оказалось, что оно ничего не стоит. Работодатель чаще смотрит не на диплом, а на опыт. Возможно, сейчас стало слишком много вузов, и их надо сокращать. И это можно увидеть в данных.
Алеся Мароховская, дата-журналистка «Новой газеты»
Сто лет назад я занимался дата-журналистикой — выискивал прикольные закупки на федеральном сайте и постил их в ЖЖ. Это было очень весело — пока не стало ясно, что это не то, что нужно для счастья человечества. Чтобы не тянуть кота за хвост, давайте на примерах.

Пример первый. Закупка пива и водки учреждением ФСИН — сибирской колонией. У жж-юзеров бугага — зэки закупают бухла на НГ, ну явно будет веселый праздник! Когда выяснили у живых людей, в чем дело — оказалось, что для бугага вообще нет оснований. Просто колонии разрешили перепродавать бухло и тратить прибыль на покупку продуктов для зэков — бюджетных денег даже на картошку не хватало.

Пример второй. Закупка презервативов для санатория одной важной госструктуры. В ЖЖ опять бугага — ну ясно же теперь, чем чинуши занимаются в санаториях! Выясняешь — оказывается, изделия нужны для аппаратов для ректальных и вагинальных исследований. Рабочий орган аппарата, который вводят, закрывают презервативом сугубо для гигиены. Все прозаично и никаких жареных фактов.

Данные из баз еще не делают историю. Данные из баз — это только наводка и помощь в том, чтобы задать людям, которые в теме, нужные вопросы. И вот историю нужно строить уже на основе их рассказов.
Александр Малютин, главный редактор информационного агентства «Москва»
Для каких историй и в каких случаях пригодится сайт госзакупок
Забив в поисковике сайта госзакупок город или регион, можно увидеть все закупки. Из них журналист узнает: кто объявил закупку, на какую сумму, в какие сроки и какие работы проведут. Подобной информации достаточно, чтобы написать новость.

Реконструкция улицы, строительство и ремонт дворов, больниц, школ, детских садов, покупка квартир, машин, компьютеров — все работы проходят через сайт госзакупок. В документации к закупке указаны требования к будущему подрядчику, сколько денег выделено, в какие сроки и какие именно работы должны выполнить.

Сайт поможет журналистам, которые готовят аналитические материалы и расследования на социальные темы. Например, какое оборудование и лекарства закупает больница, в каких объемах — хватит ли лекарств на всех, и есть ли специалисты, которые будут работать на таком оборудовании.

Насколько образовательные учреждения обеспечены необходимым, все ли ремонты там проведены, всего ли оборудования хватает. Родителям детей будет интересно это знать, потому что им тоже придется вкладывать деньги.

Как в городе или регионе создается «Доступная среда» для инвалидов. Работы по ремонтам, установке пандусов проводятся через госзакупки. Прогуляйтесь по местам, где работы сделаны, посмотрите и сфотографируйте, насколько «Доступная среда» является доступной.
Искать закупки можно и по названию работ, и по наименованию города или региона
Найти признаки коррупции в госзакупках не так просто, с формальной точки зрения там будет все чисто. По факту — нет. Можно надеяться на проигравших конкурентов, если они, конечно, пожелают слить эту информацию.

Если в городе все контракты на ремонты, строительство, благоустройство из года в год выигрывает одна и та же фирма или разные фирмы, но с одними и теми же учредителями и руководителями, то это, скорее всего, свидетельствует о коррупции.

Коллекция коррупционных схем с примерами собрана на сайте «За честные закупки». Например, такие (кликните на «+», что прочитать схему).
Серая схема № 11 «Мастера на все руки»
Заказчик объединяет множество разноплановых работ, услуг и товаров в один лот. Исполнитель должен, к примеру, не только построить больницу, но благоустроить территорию около нее, а также поставить и наладить медицинское оборудование. В таких случаях принять участие в торгах автоматически может только та компания, которая объединяет в своей деятельности все указанные услуги и товары. В регионах таких широкопрофильных компаний немного, и чаще всего победитель предрешен.

Как это выглядит в жизни:

Крупная госструктура объявила тендер на развитие и продвижение в СМИ интернет-сайта. На это было выделено 77 млн рублей. Список работ, которые предстояло выполнить подрядчику, был очень пространным, все работы — разноплановыми (разработка концепции и медиаплана продвижения портала, доработка элементов дизайна сайта и новых модулей, фото- и видеосъемка для пополнения контента, подготовка к проведению социологического исследования аудитории портала и т. д.). В итоге только одна компания на рынке оказалась способной реализовать все в полном объеме и в срок, и конкуренция сошла на нет.
Серая схема № 12 «Знаменитость»
Заказчик завышает значение дополнительных (второстепенных) требований к участникам.

Как это выглядит в жизни:

Заказчик объявил о проведении конкурса на поставку мебели. А одним из требований прописал упоминаемость исполнителя в средствах массовой информации. То есть, определенное количество раз, когда название компании должно было появиться в СМИ. Удачным образом «нужный» поставщик незадолго до этого проводил рекламную кампанию в СМИ, и получил преимущество над другими участниками конкурса на поставку мебели.
Информацию с сайта госзакупок нельзя назвать открытыми данными. Она соответствует двум критериям: находится в свободном доступе и ее можно использовать. Но она не в машиночитаемом виде.

Например, надо посмотреть затраты на ремонт школ и детских садов в городе, регионе или по стране за несколько лет. Много времени уйдет на сбор всех этих данных на сайте. Чтобы его сократить, придется подключить специальные сервисы или самому написать программу.

Алесю Мароховскую выручает умение программировать. Не так давно отдел расследований «Новой газеты» выяснял, какие компании с 2011 года выигрывали контракты у РЖД, как эти компании, которые позиционируют себя независимыми, связаны между собой и РЖД, кто уходил и кто приходил на этот рынок.
Не один месяц уйдет на то, чтобы проанализировать вручную все контракты РЖД за несколько лет. Я умею программировать и могу сделать эту колоссальную работу быстрее.
Алеся Мароховская, дата-журналистка «Новой газеты»
Переварить госзакупочную информацию в открытые данные поможет сайт ГосЗатраты, где можно получить выгрузку по ключевым словам. Правда, есть ограничения, по запросу журналист получит сводную информацию по 500 контрактам, поэтому на сайте советуют заказывать выгрузку за 30 дней.
«ГосЗатраты — автоматическая система мониторинга позволяет изучать, понимать, находить нарушения, повторно использовать данные о государственных расходах, в частности, о грантах, государственных и муниципальных контрактах».
Из раздела «О проекте» сайта ГосЗатраты.
Как стать дата-журналистом
Очень полезно иметь железобетонную задницу. Довольно часто открытые данные приходится обрабатывать вручную: править, подчищать, собирать. И тут нужна усидчивость. Когда я понимаю, что на выходе получу хорошую историю, то могу просидеть за компьютером, почти не вставая, несколько дней.

Начните с простого — посидите на порталах открытых данных, посмотрите, как все устроено. Попробуйте сделать кейсы по найденной информации. Вливайтесь в дата-журналистику постепенно.

Журналист — это не про какое-то блаблабла. Журналист — это про конкретные вещи. Если хотите серьезно работать с данными, выучите язык программирования. На начальном этапе достаточно освоить Python. Не нужно этого бояться. Уметь программировать — полезный навык.

Освойте Excel. Сложной и непонятной программа воспринимается только первое время. Главное не бояться. Excel понятен на интуитивном уровне. Часто, когда говоришь журналистам про программу, они чуть в обморок не падают. Отвечают, что математику со школы не знают. Только математика тут совсем ни при чем. Все страхи надо забыть и оставить в прошлом.
Алеся Мароховская, дата-журналистка «Новой газеты»
Как с открытыми данными
работают в Польше
В Польше открытых данных мало, и получить их крайне трудно. Статистическая информация доступна, но зачастую она носит весьма общий характер и, следственно, не очень интересна для журналистов. И все же в редакциях может быть целый отдел по работе с открытыми данными. Журналисты умудряются выискивать открытые данные, и преимущество у тех редакций, которые умеют такую информацию анализировать и визуализировать.
Вадим Макаренко,
издатель газеты «Gazeta Wyborcza» («Газета Выборча»):
Почему польские власти так реагируют на открытые данные? Потому что государственные чиновники чувствуют себя неуверенно, им проще написать несколько предложений в текстовом файле. А вот когда они дают нам таблицы, они трепещут. И уж точно не знают, какие выводы из данных сделают журналисты. Это история про контроль.
Вадим Макаренко,
издатель газеты «Gazeta Wyborcza» («Газета Выборча»):
Почему польские власти так реагируют на открытые данные? Потому что государственные чиновники чувствуют себя неуверенно, им проще написать несколько предложений в текстовом файле. А вот когда они дают нам таблицы, они трепещут. И уж точно не знают, какие выводы из данных сделают журналисты. Это история про контроль.
О чем молчат власти
Самый страшный запрос чиновникам Польши от редакций — это запрос о предоставлении данных. Государство редко публикует открытые данные, а то, что публикует, невозможно сравнивать. Власти делают все, чтобы затруднить работу редакций с данными. Например, наше министерство цифровизации один раз обнародует какие-то показатели в виде топ-5, в другой раз топ-10, в следующий топ-20.

Недавно появилась база инвестирования средств Евросоюза, но опубликовали только географический ключ, никакой другой информации: кто средства инвестировал, в какие сферы, нет.

Наша редакция работала с отчетом, который варшавские власти заказали в университете и который показывал, как платформа по найму квартир и домов влияет на Варшаву. Уговорили вице-мэра дать нам этот отчет, он выслал презентацию с графиками. Только выделить данные, по которым графики были сделаны, невозможно. Запросили расшифровку, нам сказали, что данные есть только в университете. Обратились в университет, который готовил отчет, там сообщили, что данные не собирали, а купили у коммерческого провайдера. В итоге нам пришлось с помощью специальных инструментов данные извлекать.

Статистика преступлений. Власти могут сказать, что преступность выросла на столько процентов или уменьшилась на столько процентов. Но им тяжело сообщить, какие конкретно преступления в каких регионах и в каком соотношении — год к году, квартал к кварталу, и т. п. — произошли. Причем, сами по себе эти данные открыты. Просто не всегда актуальны. У нас власть любит общаться на уровне выводов, а не на уровне базового материала. Возникает фальшивое чувство, что они таким образом контролируют коммуникацию.
Благодаря данным польские СМИ выяснили, что спикер государственного парламента использовал государственный самолет в частных целях. Летал на юг то с женой, то с детьми, то с какими-то гостями. Естественно, журналисты запросили данные в канцелярии парламента по количеству рейсов. Канцелярия сделала все, чтобы эти данные не дать. Тогда мы пошли в министерство обороны. Оно по каким-то непонятным причинам дало нам реестр этих рейсов. Потом канцелярия парламента их оспаривала. Но так как история была скандальная, властям не удалось ее замять — журналисты ждали данные, постоянно их запрашивали.
Истории, написанные вопреки
Есть у нас один материал, над которым мы работали год — выясняли, где родились поляки. Более полугода ушло только на то, чтобы собрать данные по областям. В Польше 16 областей, при этом 18 областных центров. В двух воеводствах (областях) по два центра. И самым тяжелым оказалось — извлечь данные. Мы запрашивали у властей элементарные вещи, например, сколько жителей Варшавы родились в Берлине или в Кракове...

Благодаря таким данным, мы выяснили, что очень много жителей Вроцлава родилось во Львове. Откуда это берется? После войны была большая миграция из западной Украины в Польшу. Сначала они жили, где хотели, но потом в рамках репрессий их поселили в пару регионов Польши.

Мы не запрашивали персональные данные людей. Но власти нашли причины для опасения и страха, спрашивали: зачем нам это, это дело только самих жителей. Мы объясняли, что это интересно, можно сделать выводы, что не так много людей живет там, где родились. Объяснять пришлось долго, мы обратились к НКО, которая помогает СМИ и подает в суд на госорганы, отказывающие журналистам в доступе к данным. Но до суда дело не дошло. Власти, в конце концов, данные дали.
Настойчивость и еще раз настойчивость
Чтобы работать с данными в Польше, нужно быть очень упрямым и местами жестким. У меня чувство, что во многих вещах журналистика Польши ушла вперед, а в работе данных держится на уровне 1998 года. Тяжело, когда для властей открытые данные не в приоритете.

При этом госструктуры создают пресс-офисы, нанимают пресс-секретарей. Они отвечают на запросы, но мало кто публикует открытые данные, а если и дают, дают всякую ерунду.

Поэтому необходимо быть настойчивыми и жесткими, давить до последнего, даже если потом из полученной информации не сделаешь материал. Надо создать такое давление, чтобы власти понимали: данные надо публиковать.
У газеты «Gazeta Wyborcza» — самой крупной национальной газеты — есть отдел по работе с данными. В нем работают 6 человек:

  • специалист, который данные добывает, например, парсит сайты и делает первичный анализ;
  • журналист и редактор, которые умеют разбираться в данных и писать статьи, и у них есть базовые знания по статистике, анализу и визуализации данных;
  • аналитик данных, который умеет визуализировать информацию;
  • программист — социолог по образованию, он тоже занимается анализом и при необходимости может написать программу, которая «добудет» данные с сайтов;
  • дизайнер, которая занимается только визуализацией данных.
Какие могут быть нюансы
Если государство не дает данные, нужно выстроить работу по парсингу. Но нужно учитывать, что данные, которые размещены в сети, в «неприязненном» формате. Поэтому нужно уметь их выколупывать.
Если берешь данные не у государства, то надо изучить, кто эти данные генерирует, с какой целью. У них обычно происходят искривления.
Все полученные данные «переводить» в читаемый формат и архивировать. В будущем они пригодятся.
Помните про контекст. Он нужен при работе с данными, и он должен быть сравним. Возможны случаи, когда получаешь на первый взгляд интересные данные, но вглядевшись, понимаешь, что истории в них нет.
Ошибки бывают у всех. Главное, быстро среагировать, поправить и извиниться перед читателями.
Вдохновляйтесь примерами из базы мультимедийных кейсов. Читайте истории создания проектов, рассказанные продюсерами и редакторами

© 2019 Silamedia
Made on
Tilda