Пособие по журналистике данных
Шрифт:
2. Мозговой штурм в поисках идей.
Участники хакатона HS Open 2 выработали 20 разных пилотных моделей, предлагая варианты того, что делать с данными. Все варианты можно найти на нашем вебсайте(текст на финском языке).
Исследователь в области биоинформатики по имени Яанне Пелтола (Janne Peltola) заметил, что данные о финансировании предвыборных кампаний выглядели похожими на генетические данные, которые они исследовали, в плане того, что они содержали множество взаимосвязей и взаимозависимостей. В биоинформатике есть один открытый, бесплатный инструмент под названием Cytoscape, который используется для составления карт таких взаимозависимостей. Поэтому мы прогнали наши данные через Cytoscape и получили очень интересный
3. Реализация идеи на бумаге и в сети.
Закон о финансировании избирательных кампаний обязывает избранных членов парламента задекларировать данные о финансировании своих кампаний в течение двух месяцев после выборов. На практике это означает, что мы получили реальные данные только в середине июня. На HS Open у нас были только данные от тех парламентариев, которые подали соответствующую информацию заранее, до истечения крайнего срока.
Также была проблема с форматом данных. Национальное аудиторское управление предоставило данные в виде двух CSV–файлов. Один содержал информацию об общем бюджете кампании, а во втором был список всех жертвователей и источников финансирования. Нам надо было объединить эти два набора данных, создав файл, который содержал бы три столбца: «жертвователь/источник финансирования», «получатель» и «сумма». Если бы политики использовали свои собственные деньги, то в нашем формате данных это выглядело бы так: Политик А пожертвовал сумму Х евро политику А. Возможно, парадоксально и не интуитивно понятно, но для Cytoscape это сработало.
Когда данные были очищены и переформатированы, мы просто пропустили их через Cytoscape. Потом наша графическая служба сделала из этого полностраничный график.
Наконец, мы создали отличную красивую визуализацию на нашем вебсайте. Это был не график сетевого анализа. Мы хотели дать людям легкий способ узнать, насколько велико было финансирование кампании и кто дает деньги. Первая картинка показывает распределение средств между парламентариями. Кликая на фамилию конкретного парламентария, вы получаете полную информацию о конкретно его или ее финансировании — кто и сколько выделил ему или ей денег. Также можно проголосовать, является ли тот или иной жертвователь, по вашему мнению, хорошим, качественным, или нет. Визуализация подготовили Юха Рувинен (Juha Rouvinen) и Юкка Кокко (Jukka Kokko) из агентства под названием Satumaa. В интернет–версии визуализации проекта финансирования избирательной кампании использованы те же данные, что и для сетевого анализа.
4. Публикация данных.
Конечно, Национальное аудиторское управление уже публикует данные, так что нет нужды в повторной публикации. Но когда мы очистили информацию и придали ей более удобную и качественную структуру, мы решили опубликовать ее. Мы выпустили наши данные с авторской лицензией Creative Commons Attribution licence. Впоследствии несколько независимых разработчиков сделали визуализации данных, и некоторые из этих визуализаций мы опубликовали.
Для реализации проекта мы использовали следующие инструменты: Excel и Google Refine для очистки данных и их анализа, Cytoscape для сетевого анализа, и Illustrator и Flash для создания визуализаций. На самом деле вместо Flash должен был использоваться HTML5, но нам не хватило времени.
Чему мы научились? Возможно, самым важным уроком было то, что структуры данных могут быть очень сложными. Если оригинальные данные существуют в неподходящем формате, переподсчет и конвертация их отнимут много времени.
Хакинг выборов (Electoral Hack) в режиме реального времени
Рис 39. Выборы 2011 года(Hacks/Hackers Buenos Aires)
«Хакинг выборов» ( Electoral Hack) — это проект из области политического анализа, который визуализирует данные предварительного результата голосования 23 октября 2011
Какие данные мы использовали?
Все данные поступали из официальных источников: Национальное избирательное бюро предоставило доступ к данным предварительного подсчета Indra; Министерство внутренних дел предоставило информацию о тех постах, на которые выбирались кандидаты, и о кандидатах от разных политических партий; университетский проектпредоставил биографическую информацию и информацию о политических платформах каждого кандидата в президенты; а социально–демографическая информация поступила от Национальной переписи населения и жилищных условий (INDEC) 2001 года и аналогичной переписи 2010 года, а также от Министерства здравоохранения.
Как проект развивался?
Приложение было задумано и начало создаваться во время предвыборного хакатона 2011 года, проводившегося Hacks/Hackers Buenos Aires за день до выборов 23 октября 2011. В хакатоне участвовали 30 добровольцев, представляющих самые разные области. Electoral Hack был разработан как открытая платформа, которая могла с течением времени улучшаться и дополняться. Что касается технологий, то мы использовали Google Fusion Tables, Google Maps и библиотеки векторной графики.
Мы работали над строительством векторных многоугольников для отображения географических карт и избирательных демографических данных. Объединяя векторные многоугольники в программном обеспечении для геоинформационных систем и геометрические таблицы в Google Fusion Tables мы создали таблицы с ключами, соответствующими избирательной базе данных Министерства внутренних дел, Indra и социодемографическим данным переписи INDEC. на этой основе мы сделали визуализации в Google Maps.
Используя интерфейс программирования приложений Google Maps, мы опубликовали несколько тематических карт, представляющих информацию о пространственном распределении голосовавших при помощи разных оттенков цвета, где насыщенность цвета показывала процент проголосовавших за разных президентских кандидатов в разных административных округах и на разных избирательных участках, с особым вниманием к крупным городским центрам – Буэнос–Айресу, 24 районам большого Буэнос–Айреса, Кордобе и Розарио.
Мы использовали такую же технику, чтобы сгенерировать тематические карты по предыдущим выборам, а именно президентским праймериз 2011 года и выборам 2007 года, а также по распределению социодемографических данных, таких как уровень бедности, детская смертность и условия жизни, что дало возможность провести сравнительный анализ. Проект также продемонстрировал пространственное распределение разницы в процентах голосов, набранных каждым кандидатом на всеобщих выборах в октябре, по сравнению с предварительными выборами в августе.
Позднее, используя часть данных предварительного подсчета голосов, мы создали анимированную карту, отображающую анатомию подсчета, в которой показан весь процесс подсчета голосов – начиная с момента закрытия избирательного участка и до следующего утра.
За
Мы хотели найти и представить данные и мы смогли это сделать. Под рукой у нас была база социодемографических данных ЮНИСЕФ, a также база данных кандидатов, созданная группой yoquierosaber.org из Университета Торквато ди Тела. Во время хакатона мы собрали огромный объем дополнительных данных, которые мы так и не закончили включать в проект.