Чтение онлайн

на главную - закладки

Жанры

Пособие по журналистике данных
Шрифт:

2. Загрузить и подготовить данные.

Следующий шаг представлял собой загрузку всех таблиц, PDF–файлов, и, в некоторых случаях, результатов вэб–скрэпинга исходных данных.

Потом каждый набор данных требовалось стандартизировать, привести к единому формату. Самой большой проблемой стало извлечь данные из PDF–файлов, длиной по несколько сотен страниц. Большая часть этой работы была выполнена при помощи программ UnPDF и ABBYY FineReader, которые позволяют извлекать данные, создавая файлы форматов CSV или Excel.

Также на этом этапе проводилась проверка и перепроверка — чтобы убедиться, что инструменты по извлечению информации из PDF–файлов

провели захват информации правильно и корректно, без ошибок и пропусков. Это было сделано посредством использования фильтрации, сортировки и подсчета итоговых результатов (чтобы убедиться, что они совпадают с тем, что напечатано в PDF–файлах).

3. Создать базу данных.

Программист команды сделал базу данных в SQL. Каждый из предварительно подготовленных файлов потом был использован как один из кирпичиков для общей SQL–базы. Потом пошел процесс загрузки всех индивидуальных файлов данных в одну большую SQL–базу данных, к которой сразу можно было начинать направлять поисковые запросы.

4. Дважды перепроверить и проанализировать.

Команда анализировала данные двумя основными способами:

Через интерфейс базы данных

Можно было вводить определенные ключевые слова (например, «табак», «гостиница», «компания А») в строку поиска. При помощи Google Translate, который был встроен в функционал поиска нашей базы данных, эти ключевые слова переводились на 21 язык и выдавали соответствующие результаты. Эти результаты можно было загрузить, и журналисты могли начинать проводить дальнейшие исследования уже по индивидуальным проектам, по конкретным интересующих их моментам.

Через макроанализ с использованием всей базы данных

Время от времени мы могли загружать полный набор данных, который затем можно было анализировать, например, с использованием ключевых слов, или группируя данные по стране, району, типу расходов, количеству проектов у бенефициара, и т.п.

Наши сюжетные линии получали информацию как из результатов этих двух анализов, так и посредством полевых и кабинетных исследований.

Двойная проверка полноты и целостности данных (путем суммирования и сверки с тем, что, по словам властей, было выделено и распределено) заняла значительное время. Одной из основных проблем было то, что власти по большей части обнародовали лишь суммарное «финансирование на едином европейском и на национальном уровнях». По правилам ЕС, каждая программа на определенный процент может финансироваться из общих средств ЕС. Уровень финансирования ЕС определяется, на программном уровне, так называемой ставкой софинансирования. Каждая программа (например, в области региональной конкуренции), состоит из многочисленных проектов. На проектном уровне технически один проект может получить стопроцентное европейское финансирование, а другой — не получить денег от Европы вовсе, но если все эти проекты сгруппировать вместе, сумма финансирования по линии ЕС на программном уровне не должна быть выше одобренного уровня софинансирования.

Это означало, что нам надо было проверить каждую конкретную сумму финансирования со стороны ЕС, которую мы приводили и на которую ссылались в материалах о предположительных компаниях–бенефициарах.

Синтия О'Мурчу, Financial Times

Мелтдаун Еврозоны

Итак, мы освещаем мелтдаун еврозоны. Во всех подробностях. Драму, которая разворачивается, когда правительства приходят в столкновение, а спасательные средства утрачены; реакцию со стороны мировых лидеров, меры жесткой экономии и протесты против

мер жесткой экономии. Каждый день в Wall Street Journal появляются графики, схемы и таблицы по потерям рабочих мест, снижению ВВП, процентным ставкам, стремительно падающим мировым рынкам. И все это постепенно нарастает. И все это ошеломляет и поражает.

Редакторы передовиц созывают совещание, чтобы обсудить идеи для освещения конца года, и когда мы выходим с этого совещания, я ловлю себя на том, что задумываюсь: на что это должно быть похоже — пережить это?

Похоже ли это на 2008 год, когда меня уволили, а мрачные новости шли непрерывным потоком? Мы говорили о работе, о рабочих местах и о деньгах каждый вечер за ужином, практически забыв о том, как это может расстраивать мою дочь. А выходные — это было самое худшее. Я пыталась не поддаваться страху, который, казалось, постоянно хватал меня за шею. А беспокойство стягивало мне грудную клетку. И испытывает ли такие же или похожие ощущения, что я испытывала тогда, какая–нибудь семья в Греции сейчас? А в Испании?

Я развернулась и пошла за Майком Алленом, редактором передовицы, в его кабинет, и высказала идею рассказать о кризисе посредством семей в еврозоне, взглянув сначала на данные, найдя демографические особенности, чтобы понять, кто составлял семью, и потом выдав эту информацию читателям с фотографиями и интервью, аудиозаписями разных поколений. Мы бы использовали красочные изображения, голоса… и данные. Вернувшись на свое рабочее место, я кратко набросала концепцию и нарисовала логотип.

Рис 29. Мелтдаун Еврозоны: конспект (Wall Street Journal)

Следующие три недели я усердно искала цифры: статистика по бракам, по умершим, по размерам семей, и по расходам на здравоохранение. Я прочла кучу информации по тратам на проживание, по расходам на обустройство, и по числу разводов, изучила исследования об уровнях благосостояния и накоплениям. Я просмотрела данные национальных статистических учреждений, позвонила в бюро по вопросам народонаселения ООН, в МВФ, в Евростат и в ОЭСР, пока не нашла экономиста, который активно занимался отслеживанием семей на протяжении всей своей карьеры. Он привел меня к специалисту по вопросам состава семей. И она показала мне экспертные доклады и информационные документы по моей теме.

Вместе с моим редактором Сэмом Энрикесом (Sam Enriquez) мы попытались сузить список стран. Мы собрали группу, чтобы обсудить визуальный подход, и решить, какие журналисты могут обеспечить текст, какие — аудио, и какие — найти героев сюжетов. Мэтт Крэйг (Matt Craig), фоторедактор первой страницы, начал работать над поиском фотографов. Мэтт Мюррей (Matt Murray), заместитель ответственного редактора международного отдела, отправил записку шефам бюро с просьбой о помощи репортерами. (Это было критически важным моментом: просьба сверху).

Но прежде всего данные. По утрам я экспортировала их в таблицы и составляла графики и диаграммы, чтобы рассмотреть тенденции: уменьшение накоплений, исчезновение пенсий, возвращение на работу матерей, рост затрат на здравоохранение вкупе с ростом долговых обязательств правительства и безработицы. Днем я изучала эти данные в совокупности, сравнивая страны друг с другом, чтобы найти в этом что–то интересное, темы для сюжетов.

Неделю я занималась этим, после чего совершенно запуталась во всей этой информации и начала сомневаться в себе. Возможно, выбранный мной подход был неверен. Возможно, дело было не в странах, а в отцах и матерях, и детях и бабушках и дедушках. Объемы данных тем временем росли.

Поделиться:
Популярные книги

Вадбольский

Никитин Юрий Александрович
1. Вадбольский
Фантастика:
попаданцы
5.00
рейтинг книги
Вадбольский

Москва – город проклятых

Кротков Антон Павлович
1. Неоновое солнце
Фантастика:
ужасы и мистика
постапокалипсис
5.00
рейтинг книги
Москва – город проклятых

Осколки (Трилогия)

Иванова Вероника Евгеньевна
78. В одном томе
Фантастика:
фэнтези
8.57
рейтинг книги
Осколки (Трилогия)

Черный маг императора 3

Герда Александр
3. Черный маг императора
Фантастика:
попаданцы
аниме
5.00
рейтинг книги
Черный маг императора 3

Господин моих ночей (Дилогия)

Ардова Алиса
Маги Лагора
Любовные романы:
любовно-фантастические романы
6.14
рейтинг книги
Господин моих ночей (Дилогия)

Санек

Седой Василий
1. Санек
Фантастика:
попаданцы
альтернативная история
4.00
рейтинг книги
Санек

Флеш Рояль

Тоцка Тала
Детективы:
триллеры
7.11
рейтинг книги
Флеш Рояль

Газлайтер. Том 4

Володин Григорий
4. История Телепата
Фантастика:
попаданцы
альтернативная история
аниме
5.00
рейтинг книги
Газлайтер. Том 4

На границе империй. Том 7

INDIGO
7. Фортуна дама переменчивая
Фантастика:
боевая фантастика
космическая фантастика
попаданцы
6.75
рейтинг книги
На границе империй. Том 7

Кодекс Охотника. Книга XVIII

Винокуров Юрий
18. Кодекс Охотника
Фантастика:
фэнтези
попаданцы
аниме
5.00
рейтинг книги
Кодекс Охотника. Книга XVIII

Мой личный враг

Устинова Татьяна Витальевна
Детективы:
прочие детективы
9.07
рейтинг книги
Мой личный враг

Кодекс Крови. Книга ХII

Борзых М.
12. РОС: Кодекс Крови
Фантастика:
боевая фантастика
попаданцы
5.00
рейтинг книги
Кодекс Крови. Книга ХII

Законы Рода. Том 8

Андрей Мельник
8. Граф Берестьев
Фантастика:
юмористическое фэнтези
аниме
фэнтези
5.00
рейтинг книги
Законы Рода. Том 8

Тагу. Рассказы и повести

Чиковани Григол Самсонович
Проза:
советская классическая проза
5.00
рейтинг книги
Тагу. Рассказы и повести