«Альтернативная карта мира». Используем данные для анализа

Комбинирование технологий и креативного подхода приводит к неожиданным результатам

С помощью алгоритма, который объединяет страны в кластеры, студия «Interacta» создала альтернативную карту мира. Соседями стали: Россия и Бразилия, Беларусь и Казахстан, Япония и США.

1
месяц работы
3
человека в команде
7
лет в визуализации
АВТОРЫ ПРОЕКТА
  • Никита Рокотян
  • Ольга Стукова
  • Дарья Колмакова
ФИНАНСИРОВАНИЕ
  • не требовалось
Никита Рокотян,
автор проекта, основатель студии «Interacta»

В 2014 году, после ухода из Лаборатории физики климата и окружающей среды Института естественных наук и математики (Екатеринбург), я, кандидат физико-математических наук, создал студию «Interacta», в которой сейчас работают четыре человека. Мы делаем инструменты для визуальной аналитики. Еще я руковожу направлением визуализации данных в стартапе «Volterra», который с января 2021 года принадлежит компании «F5», и веду Telegram-канал Виз-Ньюз.

Зачем «Interacta» создала альтернативную карту мира

В начале 2000-х шведский ученый Ханс Рослинг разработал программное обеспечение Trendalyzer, используемое для визуализации статистической информации и отображения ее с помощью интерактивных графиков. В проекте собраны экономические, демографические, социальные данные по различным странам за много лет. По некоторым отсчет начинается чуть ли не с 19 века.

Фонд Gapminder, соучредителем которого был Рослинг, сделал достаточно интересную и простую диаграмму. «Пузырьки Trendalyzer» просветили и вдохновили множество людей. Я тоже увлекся этим и когда в 2018 году узнал о Всемирном конкурсе World Data Visualization Prize, то понял — замечательная возможность воспользоваться идеей Рослинга и сделать что-то свое.

Конкурс курировал известный дата-журналист Дэвид Маккандлесс, и проводился он в партнерстве с Мировым правительственным саммитом.

Интересно, что саммит, где обычно обсуждают самые важные для планеты вопросы, отдельно озаботился тем, как взять максимум от работы с данными и выбрал визуализацию для спецпремии. Это говорит об актуальности сферы и поднимает ее статус.

Объявляя о приеме заявок Маккандлесс остроумно заметил, что теперь участникам будет чем заняться в праздники. Так и вышло. «Альтернативную карту мира на основе данных» мы готовили в новогодние каникулы. На работу ушел месяц. Первый прототип собрали за неделю, потом неделю набрасывали интерфейс, и две недели доводили карту до ума. Если бы не дедлайн, ковырялись бы еще, потому что мелкие правки можно вносить бесконечно.

Одной из задач конкурса было — сделать так, чтобы гости саммита увидели необычные подходы к работе с данными и, может быть, заинтересовались предложенными решениями.

Организаторы предложили участникам три вопроса, которые по-разному раскрывают тему «Как правительства улучшают жизнь граждан страны». Мы выбрали: «Что делает правительство «хорошим»?». Однако не стали отвечать на этот вопрос. Нам было интереснее предложить инструмент, который поможет найти ответ.

К техзаданию прилагалась небольшая база данных, описывающих каждую страну по 32 измеримым параметрам — от населения, площади и индекса счастья до ВВП, уровня коррупции и процента женщин в правительстве.

Поскольку мы специалисты в визуализации, а не в геополитике, предпочли никак не оценивать данные. Их обработку поручили алгоритму машинного обучения t-SNE, а играть с уровнем безработицы, расходами на здравоохранение и другими характеристиками — всем желающим.

В карте мы наглядно показали, что будет с положением страны при изменении тех или иных параметров.

Что такое t-SNE и как он работает

Карта построена на алгоритме t-SNE, который разработали Лоренс ван дер Маатен и Джеффри Хинтон. Его основная задача — анализировать информацию по множеству параметров и выявлять локальные и глобальные сходства по ним.

Важно понимать, что t-SNE относится к данным максимально объективно: для него не имеет значения, о чем они. При этом алгоритм устроен нелинейно и способен адаптироваться к переменам в цифрах.

В самом алгоритме уже заложена возможность для визуализации. Поскольку мы работали над функциональным и красивым инструментом для принятия решений, то и дизайн стремились сделать узнаваемым, приятным в использовании и максимально ясным. Он похож на карту мира и немного на звездное небо.

Таким образом, мы передали алгоритму t-SNE данные, создали собственный дизайн, наладили взаимодействие между визуальным интерфейсом и алгоритмом. И эти составляющие не перекрывают друг друга.

Как устроена карта

Область визуализации информации тесно переплетена с дизайном. Можно сказать — это стык дизайна, программирования и науки. Эти три кита меня всегда привлекали.

Сама визуализация, сам алгоритм диктуют то, что будет главным. Каждая точка на карте — отдельная страна, только сгруппированы они не по географической близости, как на обычной карте мира, а по сумме разных характеристик.

Дизайн здесь нужен не только для красоты, но и для удобной и быстрой работы с массивом информации. Карта полностью интерактивна. Чтобы было удобнее ее изучать, можно выбрать, что будет обозначать цвет точек, а что — размер. Альтернативная карта мира позволяет управлять набором параметров, которые учитывает алгоритм. Можно экспериментировать и в отдельной панели справа включать и выключать различные параметры или варьировать их значения, и эти действия будут влиять на результат.

Цвет для фона выбрали темный — он более выразительный для такой визуализации. Вообще, яркие цвета на темном фоне создают особую атмосферу.

Изучая наш проект, несложно заметить, что страны, которые принято относить к развитым, находятся в одном кластере. Среди соседей — страны, которые в бытовом смысле редко соотносят, например, Ближний Восток и Сингапур, Россия и Бразилия. Наша карта сблизила их, проанализировав множество показателей.

Улучшить жизнь в каждой стране легко — подняв уровень здравоохранения и ВВП, можно увидеть, как изменится ее положение на карте.

Альтернативная карта мира потенциально может стать инструментом для принятия решений. Мы верим в то, что одна из миссий визуализации данных — емко и наглядно рассказать длинную и сложную историю.

Цель проекта — что-то среднее между образовательной и развлекательной. Какую-то серьезную аналитику сделать на ее основании нельзя, но она может послужить отправной точкой.

Проект делали на английском языке. Это ведь универсальный мировой язык, да и по условиям конкурса он должен был быть таким. Я сторонник того, что английский уже давно является языком знаний и не представляю специалиста по современным технологиям или науке, который не владеет им. Понимаю, что в России с этим есть трудности, но это не повод идти на поводу у общества.

Как «Interacta» получила награду из рук принца ОАЭ

Когда подавали заявку на конкурс, мы были уверены, что он займет какое-то место. Первое, конечно, не ожидали. Приглашение в Дубай, где подводились итоги, было спонтанным.

Я находился в командировке в Чехии и через несколько дней должен был вылететь в Екатеринбург. Просыпаюсь и вижу 25 пропущенных на телефоне и в мессенджерах. Организаторы сообщили, что проект вошел в шорт-лист и пригласили в Эмираты. В тот момент чувствовал себя растерянно — было тяжело перекроить график, решить, куда лететь. В итоге выбрал саммит. Прилетел и узнал, что проект занял первое место, а приз будет вручать сам принц.

После награждения я дал несколько интервью и на сутки стал знаменитым. Люди подходили на улице и говорили, что видели меня по телевизору, хвалили за проект. Это было очень любопытно.

Награду — 25 тысяч долларов — разделили между участниками студии. Свою часть вложил в развитие «Interacta».

О трудностях, развитии и открытиях

Особых трудностей при создании альтернативной карты мира не было. Все шло гладко, потому что мы работали с этими технологиями много раз и знали, что и как делать. Да, у нас ушло какое-то время на доработку, на то, чтобы все сделать нагляднее и понятнее.

Сейчас, глядя на свою работу, понимаю: хотел бы добавить больше функционала, сделать мобильную версию, более рабочий инструмент.

Ошибок не вижу. Мне кажется, проект получился действительно интересным. Конечно, есть огромный простор, куда можно его развивать — вводить в научную область для аналитических исследований; либо же делать более развлекательным, чтобы вдохновлять людей заниматься визуализацией и работать с данными.

Для нас стало открытием то, как алгоритм видит данные и создает кластеры. Удивились, что Россия оказалась рядом с Бразилией и Аргентиной. Спросили себя: «Они похожи по экономическому развитию?». И тут же провели эксперимент: в России отключили из работы алгоритма два свойства — популяцию и площадь — и Бразилия улетела в другую сторону, а Россия оказалась среди Беларуси, Казахстана, Азербайджана, Киргизстана, Молдовы, Украины, Ливана и Ирана.

Советы от автора

Думаю, если кому-то что-то хочется, то нужно делать. Да, сложно, требует знаний сразу в нескольких областях. Нужно быть веб-разработчиком, уметь программировать, разбираться в векторной графике, HTML, JavaScript… Нужно разбираться в Data Science, понимать, как работать с данными, какие есть алгоритмы, методики… Нужно немножко быть дизайнером.

Я в школьные годы думал, что подобные технологии слишком сложные, и мне их не освоить. Но правда в том, что нет ничего слишком сложного, все зависит от того, сколько времени и внимания вы готовы уделить какому-то делу. Главное — не ставить заоблачных целей. Если вам интересно, то начинайте разбираться по чуть-чуть — и все получится.

Над материалом работали:
Дмитрий Артюх
Иллюстрации:
предоставлены Н. Рокотян

Подводя итоги:

1
2
3