Пособие по журналистике данных
Шрифт:
Было ясно, что журналистская и программистская работа была сильно обогащена научными знаниями и вкладом исследователей. Без помощи Энди Тоу и Хиларио Морено Кампоса проект никогда бы не реализовался.
Против
Социодемографические данные, которыми мы пользовались, были не самыми свежими (большинство было из переписи 2001 года), и к тому же они были не очень подробными. Например, они не включали в себя данные о среднем ВВП на местном уровне, об основной экономической активности, об уровне образования, о числе школ, о врачах на душу населения, и много другого, что было бы здорово иметь.
Изначально система задумывалась как инструмент, который мог использоваться для объединения и отображения любых произвольно
Так как проект реализовывался добровольцами и в короткие сроки, было невозможно сделать все, что мы хотели сотворить. Тем не менее, мы добились значительного прогресса в нужном направлении.
По той же причине вся работа сотрудничавших в проекте тридцати человек в конце концов сконцентрировалась в работу одного программиста, когда начали появляться правительственные данные, и у нас возникли определенные проблемы с импортированием данных в режиме реального времени. Эта проблема была решена за несколько часов.
Выводы
Платформа Electoral Hack оказала большое влияние и была активно замечена в прессе, на телевидении, радио, в печатных СМИ и на онлайн–ресурсах. Карты из проекта использовались несколькими медиа–платформами во время выборов и в последующие дни. С течением времени карты и визуализации обновлялись, что еще больше подстегнуло рост трафика. В день выборов сайт, созданный в этот самый день, набрал почти 20 000 уникальных посетителей, а представленные на нем карты были воспроизведены на главной странице газеты P'agina/12, и пребывали там последующие два дня. Также были и статьи в La Naci'on. Несколько карт появилось в печатной версии газеты Clar'in. Это был первый случай в истории аргентинской журналистики, когда использовалось интерактивное отображение карт реального времени. На центральных картах можно легко увидеть победу Кристины Фернандес де Киршнер, которая набрала 54% голосов, и это отражается насыщенностью цвета. Проект также помог пользователям понять некоторые конкретные моменты, когда местные кандидаты одерживали внушительные победы в провинциях.
— Данный раздел был написан Мариано Блейманом, Марианой Берруэзо, Серджио Сориным, Энди Тоу и Мартином Сарсале из Hacks/Hackers Buenos Aires
Данные в новостях: WikiLeaks
Рис 40. Военные отчеты от WikiLeaks(The Guardian)
Началось все с того, что один человек из группы, занимающейся расследовательской журналистикой, спросил: «Вы же хорошо умеете работать с электронными таблицами, не правда ли?» А это была просто чертовски большая таблица: 92 201 строка данных, и в каждой – подробности о каком–либо военном событии в Афганистане. Это были военные отчеты WikiLeaks. Мало того, только часть первая. За которой последуют еще две: посвященная Ираку и дипломатические депеши. Официальный термин для всего этого был такой – SIGACTS – база данных о значимых действиях американских военных.
Афганские военные отчеты – которые мы обрабатывали вместе с New York Times и Der Spiegel – были настоящей журналистикой данных в действии. Что мы хотели сделать, так это дать возможность нашей команде специалистов вытащить какие–то серьезные человеческие истории из этой информации – и мы также хотели проанализировать данные, чтобы получить картину в целом, и показать, как действительно шла и идет война.
Практически сразу мы пришли к важному решению, что мы не будем публиковать полную базу данных. WikiLeaks уже собиралась это сделать, а мы хотели убедиться в том, что мы не раскроем имена лиц, ставших источниками информации, или не будем без необходимости подвергать опасности войска НАТО. В то же время нам нужно было сделать данные более легкими для понимания, а также для использования нашей командой расследовательских журналистов, возглавляемой Дэвидом Леем (David Leigh)
Данные поступили к нам в виде огромного «экселевского» файла – 92 201 строка данных, в некоторых не было вообще ничего или же они были плохо отформатированы. Это никоим образом не помогало журналистам, которые продирались сквозь эти данные в поисках сюжетов для материалов, и вдобавок сам файл был слишком велик, чтобы сделать по нему содержательный отчет.
Наша команда соорудила простую внутреннюю базу данных с использованием SQL. Журналисты теперь могли осуществлять поиск по ключевым словам или тем или иным событиям. Получилось, что внезапно набор данных стал доступным, и создавать материалы на его основе стало гораздо легче.
Данные были хорошо структурированы: каждое событие имело следующие ключевые характеристики: время, дату, описание, количество пострадавших, и – самое важное – точные данные долготы и широты места, где оно произошло.
Мы также начали фильтровать данные, что должно было помочь нам рассказать одну из ключевых историй войны: рост числа атак с использованием самодельных взрывных устройств – придорожных мин домашнего изготовления, которые совершенно непредсказуемы и с которыми очень трудно бороться. Но и этот набор данных по–прежнему оставался слишком массивным – однако управляться с ним стало легче. Всего было примерно 7 500 случаев применения самодельных взрывных устройств или внезапных нападений, засад (за таковую атаку мы считали нападение, сочетающееся с, допустим, небольшой перестрелкой или использованием реактивных гранат) за период с 2004 по 2009 годы. И еще 8 000 самодельных взрывных устройств были обнаружены и обезврежены. Мы хотели посмотреть, как эта ситуация менялась со временем – и сравнить. Эти данные дали нам возможность увидеть, что юг, территория, где базировались британские и канадские войска, был самым «горячим» в этом плане районом, там происходило больше всего подобных инцидентов – и эти данные только подкрепили то, что наши журналисты, освещавшие войну, уже знали.
Публикация военных отчетов об Ираке в октябре 2010 выставила на публичное обозрение еще 391 000 записей, на этот раз по иракской войне.
И это было уже кое–что иное по сравнению с утечкой по Афганистану – вполне можно было, воспользовавшись этим случаем, сказать, что эта война стала самой задокументированной войной в истории. Любая, даже самая мелкая, подробность теперь была доступна для нас для анализа, обработки и выводов. Но обращает на себя один фактор: большое количество смертей, причем большинство погибших – гражданские лица.
Как и в случае с Афганистаном, Guardian решил не перепубликовывать всю базу целиком, в значительной мере потому, что мы не могли быть уверены, что поля с описанием не содержат конфиденциальную информацию или данные о тех людях, кто был источником информации, и так далее.
Но мы дали возможность нашим пользователям скачать таблицу с записями о каждом инциденте, где кто–то погиб. Таковых набралось примерно 60 000. Мы удалили при этом поля с кратким описанием, так что остались только основные данные: военный заголовок, число погибших и географическая разбивка.
Мы также взяли все эти инциденты с жертвами, и нанесли их на карту при помощи таблиц Google Fusion. Вариант оказался не идеальный, но в любом случае это было начало процесса попытки составления карт для отображения всех примеров разрушений и уничтожений, которые опустошили Ирак.
В декабре 2010 года были опубликованы депеши. И это был еще более внушительный набор данных – огромное собрание официальных документов: 251 287 дипломатических донесений, из более чем 250 американских посольств и консульств по всему миру. Получилась уникальная картина американского дипломатического языка – она включала в себя более 50 000 документов, касающихся и нынешней американской администрации Барака Обамы. Но что именно включали в себя эти данные?