Пособие по журналистике данных
Шрифт:
Другие люди могут найти и выделить определенные интересные моменты, которые вы упустили, или просто найти детали и подробности, которые имеют значение для них, даже если они оказались недостаточно важными для того, чтобы удостоиться освещения в вашем собственном сюжете.
Другие могут построить на основе вашей работы дальнейшие изыскания, провести более подробный анализ данных или применить другую технику для предоставления и визуализации цифр, используя свои собственные идеи или технические навыки, которые могут дать возможность продуктивным образом обработать данные иными
Это часть процесса встраивания подотчетности и прозрачности в журналистский процесс. Другие могут при желании понять ваши методы и проверить вашу работу.
— Мартин Розенбаум, BBC
Субсидирование автобусных перевозок в Аргентине
Начиная с 2002 года субсидирование общественного автобусного транспорта в Аргентине росло по экспоненте, каждый год ставя новые рекорды. Но в 2011 году, после победы на выборах, новое правительство Аргентины объявило о сокращении субсидирования коммунальных услуг начиная с декабря того же года.
В то же самое время национальное правительство решило передать управление и администрирование местных автобусных маршрутов и линий метро властям города Буэнос–Айреса. А так как вопрос с переводом субсидий этому местному правительству не был четко разрешен, а соответствующих местных фондов было недостаточно, чтобы гарантировать безопасность транспортной системы, власти города Буэнос–Айрес отклонили это решение.
Когда происходил этот процесс, мои коллеги в La Naci'on и я в первый раз встречались для того, чтобы обсудить, как нам начать работать в области журналистики данных. Наш редактор финансового отдела предложил начать с данных о субсидиях, публикуемых Министерством транспорта — это стало бы хорошей проблемой, с изучения которой можно было бы начать, так как из этих данных очень сложно было извлечь смысл – из–за неудобного формата и непонятной терминологии.
Плохое состояние системы общественного транспорта влияет на жизнь более чем 5 800 000 пассажиров каждый день. Опоздания, задержки, забастовки, поломки транспорта и аварии происходят все чаще и чаще. Поэтому мы решили взглянуть на то, куда уходят деньги, выделяемые в Аргентине на субсидирование общественного транспорта, и сделать полученную информацию легко доступной для всех граждан Аргентины посредством нашего проекта «Исследователь транспортных субсидий» (Transport Subsidies Explorer), который сейчас продолжает наполняться информацией.
Рис 48. The «Исследователь транспортных субсидий» (Transport Subsidies Explorer)(La Naci'on)
Начали мы с того, что подсчитали, сколько автобусные компании получают каждый месяц от государства. Чтобы сделать это, мы просмотрели все данные, публикуемые на вебсайте Министерства транспорта, где мы нашли больше 400 PDF–файлов, содержащих информацию о ежемесячных денежных выплатах более чем тысяче тремстам компаний начиная с 2006 года.
Рис 49.
Мы объединились со старшим программистом, чтобы разработать программу для автоматизации процесса регулярного скачивания и преобразования этих PDF–файлов в файлы Excel и баз данных. Получившийся в результате набор данных из более чем 285 000 записей мы используем в наших исследованиях и для визуализации информации, как в печатном виде, так и в режиме онлайн. Вдобавок, мы делаем эти данные доступными в машиночитаемом формате для каждого аргентинца, который может сам их использовать или поделиться ими с кем–то.
Следующим шагом было определить, в какую сумму обходилось властям ежемесячное содержание единицы общественного транспорта в среднем. Чтобы выяснить это, мы направились на другой правительственный вебсайт, сайт Национальной комиссии по транспортному регулированию ( Comisi'on Nacional de Regulaci'on del Transporte — CNRT), которая отвечает за регулирование транспортной отрасли в Аргентине. На этом сайте мы нашли список автобусных компаний, которые все вместе в совокупности владели 9 000 транспортных средств. Мы разработали нормализатор, чтобы сверить и согласовать между собой названия автобусных компаний и сделать перекрестные ссылки между двумя наборами данных.
Чтобы идти дальше, нам требовался регистрационный номер каждого транспортного средств. Мы нашли на сайте CNRT список автобусов каждой компании с их номерами. Регистрационные номера в Аргентине состоят из букв и цифр, которые соответствуют «возрасту» транспортного средства. Например, номер моей машины – IDF234, где I соответствует марту–апрелю 2011 года. Мы декомпилировали номера автобусов, принадлежащих всем компаниям из списка, чтобы выяснить средний возраст автобусов в той или иной компании, и тем самым показать, сколько денег идет каждой компании, и сравнить суммы со средним возрастом их парка транспортных средств.
Рис. 50. Сравнение возраста автобусного парка с суммами, которые соответствующие компании получают от властей. (La Naci'on)
В разгар этого процесса содержание выпущенных властями PDF–файлов с данными, которые были нам нужны, таинственным образом изменилось, хотя URL–ы и названия файлов остались теми же самыми. Что именно изменилось? А изменилось то, что в некоторых PDF–файлах исчезли вертикальные графы «всего», что сделало невозможным перекрестные проверки по всему исследуемому временному периоду, с 2002 по 2011 годы.
Мы вынесли этот вопрос на хакатон, организованный группой Hacks/Hackers в Бостоне, где разработчик Мэтт Перри (Matt Perry) щедро создал и поделился с нами приложением, которое мы назвали «PDF–шпион» (PDF Spy). Это приложение было отмечено в номинации «Самое интригующее» на этом мероприятии. «PDF–шпион» ( PDF Spy) обрабатывает веб–страницу с PDF–файлами и проверяет, изменилось ли содержание этих PDF–файлов. «Никого больше не обманет и не оставит в дураках «правительственная прозрачность», — отмечает Мэтт Перри.