Чтение онлайн

на главную - закладки

Жанры

Пособие по журналистике данных
Шрифт:

Когда подростки принимают таблетку от прыщей, они надеются получить гладкую кожу, а не плохое настроение. Однако именно такой эффект имело одно лекарство, и молодые люди впадали в депрессию и даже совершали самоубийства после его приема. Однако опасность этого конкретного побочного эффекта — вполне очевидную для журналистов — было не так–то просто подтвердить.

Существуют данные о побочных эффектах. Производители должны регулярно предоставлять органам здравоохранения информацию о наблюдаемых побочных эффектах. Эти данные хранятся у национальных или европейских властей после выхода лекарства на рынок.

Первая информация была снова получена на

национальном уровне в Дании. В ходе международного расследования, проводившегося журналистами из Дании, Нидерландов и Бельгии, были также получены данные в Нидерландах. Еще один пример «воббинга»: нашей работе очень помог тот факт, что мы сообщили нидерландским властям о том, такие данные доступны в Дании.

Дело обстояло именно так: в Европе в результате приема этого лекарства молодые люди пытались совершать самоубийства и, к сожалению, некоторые из них погибли. Журналисты, исследователи и родственники молодых жертв прилагали все усилия к тому, чтобы получить доступ к этой информации. Европейский уполномоченный по правам человека помогал добиваться прозрачности Европейского агентства лекарственных средств, в результате у него это получилось. После этого задача журналистов заключается в том, чтобы получить данные и внимательно изучить имеющиеся материалы. «Кто мы, — спросил один исследователь, — подопытные кролики или голос механизма контроля?»

Выводы: Не удовлетворяйтесь ответом «нет», когда речь идет о прозрачности. Будьте настойчивы и не переставайте следить за ходом событий. Ситуация может измениться и с течением времени вы можете получить данные, которые не могли получить вначале.

Пример 3 Контрабанда смерти

Новейшая история принесла много горя целым народам, особенно в результате войн и в переходные времена. Как журналисты могут добыть печальные данные, если — например — те люди, которые получали прибыли в ходе войн минувшего десятилетия, сейчас находятся у власти? Именно такую задачу поставила перед собой группа журналистов из Словении, Хорватии и Боснии.

Эта команда решила заняться расследованием торговли оружием в бывшей Югославии в период действия эмбарго ООН в начале 1990–х годов. В основе работы лежали документы парламентских расследований по данному вопросу. Чтобы задокументировать маршруты поставок и раскрыть схему торговли, необходимо было отслеживать средства перевозки по номерам судов в портах и по номерным знакам грузовиков.

Парламентские комиссии Словении не раз проводили расследования по вопросу получения прибылей в ходе балканских войн, однако они так и не пришли к какому–то определенному выводу. Вместе с тем был получен ряд очень ценных документов, с которых был снят гриф секретности, и данных, в т. ч. 6000 страниц документов, которые были добыты словенской командой по запросу в рамках законодательства о свободе информации.

В этом случае данные было необходимо извлекать из документов и сортировать по базам данных. Пополняя имевшиеся данные новыми данными, результатами аналитики и исследований, журналисты смогли установить большое количество каналов незаконной торговли оружием.

Команда добилась успеха, получены уникальные результаты, которые уже принесли команде ее первую награду. Самым важным является тот факт, что данный случай имеет отношение к целому региону и может послужить примером для журналистов из других стран, через которые также проходили смертоносные грузы.

Выводы: Ищите «сырые» материалы в самых неожиданных местах и объединяйте их с данными,

находящимися в открытом доступе.

Бриджит Алфтер, Journalismfund.eu

Получение данных из сети

Вы уже испробовали все, но так и не смогли получить те данные, которые вы ищете. Вы нашли данные в Интернете, но, увы, их не удалось ни скачать, ни скопировать. Не стоит отчаиваться, возможно, еще есть способы, с помощью которых можно получить то, что вам нужно. Например, вы можете:

Получить данные с помощью размещенных в сети API, например, с помощью интерфейсов, предоставляемых онлайновыми базами данных и многими современными веб–приложениями (в т. ч. такими, как Twitter, Facebook и многие другие). Это просто фантастический способ получения доступа к государственным или коммерческим данным, а также к данным на сайтах социальных СМИ.

Извлечение данных из PDF–файлов. Это достаточно трудно, так как PDF является языком, разработанным для принтеров, и он содержит лишь малое количество информации о данных, отображенных в документе. Извлечение данных из PDF–файлов лежит за пределами этой книги, однако вы легко сможете найти инструменты и инструкции, которые помогут вам научиться этому.

Выскребание» информации с экрана. В ходе «выскребания» информации с экрана вы извлекаете структурированный контент из обычной веб–страницы с помощью утилиты («скребка») или небольшого кусочка кода. Хотя этот метод является весьма эффективным и может применяться в большом количестве случаев, он требует понимания того, как устроен Интернет.

Помня о всех этих замечательных технических возможностях, помните об одном простом варианте: зачастую бывает проще потратить еще немного времени на поиск файла с машиночитаемыми данными или позвонить в учреждение, в котором хранятся необходимые вам данные.

В данном разделе мы рассмотрим самый простой пример «выскребания» данных из веб–страницы в формате HTML.

Что такое машиночитаемые данные?

Цель всех упомянутых методов заключается в получении машиночитаемых данных. Машиночитаемые данные создаются для их обработки компьютером, а не для их презентации пользователю–человеку. Структура таких данных связана с содержащейся в них информацией, а не с тем, как они представляются пользователю на экране. Примеры легких машиночитаемых форматов включают в себя файлы CSV, XML, JSON и Excel, в то время как такие форматы, как документы Word, страницы HTML и файлы PDF служат больше для визуального представления информации. Например, PDF — это язык, который создан непосредственно для принтера, он несет информацию главным образом о положении линий и точек на странице, а не об отдельных символах.

«Выскребание» веб–сайтов: зачем?

Каждый из вас делал это: попав на веб–сайт и увидев интересную таблицу, вы пытались скопировать ее в Excel, чтобы поработать с ней или сохранить для дальнейшего использования. Однако это получается далеко не всегда, бывает и так, что нужная вам информация разбросана по большому количеству сайтов. Копировать данный вручную бывает очень утомительно, поэтому имеет смысл применить для данной процедуры кое–какой код.

Преимущество «выскребания» заключается в том, что вы можете применить этот метод практически на любом сайте — от прогнозов погоды до правительственных расходов, даже если на этом сайте нет API для доступа к сырым данным.

Поделиться:
Популярные книги

Корпулентные достоинства, или Знатный переполох. Дилогия

Цвик Катерина Александровна
Фантастика:
юмористическая фантастика
7.53
рейтинг книги
Корпулентные достоинства, или Знатный переполох. Дилогия

Как я строил магическую империю 7

Зубов Константин
7. Как я строил магическую империю
Фантастика:
попаданцы
постапокалипсис
аниме
фантастика: прочее
5.00
рейтинг книги
Как я строил магическую империю 7

На границе империй. Том 9. Часть 5

INDIGO
18. Фортуна дама переменчивая
Фантастика:
космическая фантастика
попаданцы
5.00
рейтинг книги
На границе империй. Том 9. Часть 5

Хроники хвостатых: Ну мы же биджу...

Rana13
Фантастика:
фэнтези
5.00
рейтинг книги
Хроники хвостатых: Ну мы же биджу...

Мастер 8

Чащин Валерий
8. Мастер
Фантастика:
попаданцы
аниме
фэнтези
5.00
рейтинг книги
Мастер 8

Неомифы

Неделько Григорий Андреевич
Фантастика:
научная фантастика
5.00
рейтинг книги
Неомифы

Измена. Право на семью

Арская Арина
Любовные романы:
современные любовные романы
5.20
рейтинг книги
Измена. Право на семью

Последний Паладин. Том 2

Саваровский Роман
2. Путь Паладина
Фантастика:
фэнтези
попаданцы
аниме
5.00
рейтинг книги
Последний Паладин. Том 2

Хуррит

Рави Ивар
Фантастика:
героическая фантастика
попаданцы
альтернативная история
5.00
рейтинг книги
Хуррит

Голодные игры

Коллинз Сьюзен
1. Голодные игры
Фантастика:
социально-философская фантастика
боевая фантастика
9.48
рейтинг книги
Голодные игры

Чехов. Книга 2

Гоблин (MeXXanik)
2. Адвокат Чехов
Фантастика:
фэнтези
альтернативная история
аниме
5.00
рейтинг книги
Чехов. Книга 2

Сойка-пересмешница

Коллинз Сьюзен
3. Голодные игры
Фантастика:
социально-философская фантастика
боевая фантастика
9.25
рейтинг книги
Сойка-пересмешница

Купец III ранга

Вяч Павел
3. Купец
Фантастика:
фэнтези
попаданцы
аниме
5.00
рейтинг книги
Купец III ранга

Возвращение Безумного Бога

Тесленок Кирилл Геннадьевич
1. Возвращение Безумного Бога
Фантастика:
фэнтези
попаданцы
аниме
5.00
рейтинг книги
Возвращение Безумного Бога