Чтение онлайн

на главную - закладки

Жанры

Пособие по журналистике данных
Шрифт:

Помимо таблиц Google и Fusion мы используем в своей работе еще два инструмента. Первый – это планшет для визуализации многомерных массивов данных. Второй – это ManyEyes для быстрого анализа данных. Они, конечно, не совершенны, поэтому мы продолжаем искать более подходящие средства визуализации, которые понравятся нашим читателям.

The Guardian— Лиза Эванс

Буду ли я когда–нибудь программистом? Очень сомневаюсь! Не думаю, что журналистам обязательно уметь программировать. Но полезно представлять возможности программистов, чтобы уметь правильно поставить задачу.

На начальном этапе действуйте аккуратно. Сначала

нужно убедить коллег и редакторов, что для работы над статьей вам необходимы данные и игра стоит свеч. Когда они поймут ценность такого подхода, вы можете расширить свою работу до более сложных статей и проектов.

Рекомендую научиться работать в Excel, чтобы сначала выполнять простые операции с данными. Постепенно переходите к анализу баз данных и созданию теплокарт. В Excel столько можно сделать. Это очень полезный инструмент, и большинство людей не знают и половины его возможностей. При случае пойдите на курс работы в Excel для журналистов (такой, например, предлагают в Центре журналистских расследований).

Что касается интерпретации данных: все не так просто. Будьте внимательны ко всем деталям, подвергайте сомнению результаты. Записывайте наблюдения по работе с данными, храните копию оригинальных данных. Очень просто совершить ошибку. Я всегда провожу анализ два или три раза, причем практически с начала. Еще лучше – привлеките редактора или другого коллегу проанализировать данные отдельно от вас и сравните результаты.

Financial Times— Синтия О’Мурчу

Раньше от журналиста не требовалось одновременно уметь писать и так же быстро использовать сложные программы. Раньше работа с данными отнимала у журналистов гораздо больше времени. Все изменилось благодаря развитию двух открытых и бесплатных фреймворков: Django и Ruby on Rails, которые были разработаны в 2000–е годы.

Django, написанный на языке Python, разработал Адриан Головатый и журналисты оперативных выпусков The Lawrence Journal–World в г. Лоуренс, штат Канзас. Ruby on Rails был разработан в Чикаго Дэвидом Хайнемайером Ханссоном и компанией–разработчиком веб–приложений 37Signals.

Хотя фреймворки используют разные подходы к модели MVC, они оба отлично подходят для быстрой разработки даже очень сложных веб–приложений. Они освобождают от самой первичной работы по созданию приложений. В них уже встроены функции создания и переноса данных из баз, сопоставление URL с кодами в приложении, поэтому у разработчиков нет необходимости писать код для таких элементарных вещей.

Хотя в США не проводили официального опроса среди групп, работающих с новостными приложениями, общепринятая точка зрения заключается в том, что большинство использует один из этих двух фреймворков для новостных приложений с базой данных. В ProPublica мы используем Ruby on Rails.

С появлением инфраструктуры веб–сервисов (например, Amazon Web Services) также решило проблему замедленного использования веб–приложений.

Помимо этого, мы используем и стандартные инструменты для работы с данными: Google Refine и Microsoft Excel для очистки данных; SPSS и R для создания статистики; ArcGIS и QGIS для создания геоинформационных систем; Git для работы с исходным кодом; TextMate, Vim и Sublime Text для написания кода; и сочетание MySQL, PostgreSQL и SQL Server для работы с базами данных. Мы разработали свой собственный фреймворк Glass на JavaScript, он помогает очень быстро создавать сложные приложения на JavaScript для внешнего интерфейса.

ProPublica— Скотт Кляйн

Зачастую простейший

инструмент – лучший инструмент. Переоценить значение электронных таблиц сложно. Но когда все еще работали в DOS, электронные таблицы помогли мне понять сложную формулу партнерского соглашения для владельцев «Техасских рейнджеров» (тогда Джордж Буш еще был одним из них). С помощью электронной таблицы можно выявить резко отклоняющиеся значения или ошибки в вычислениях. Я могу написать скрипт для очистки данных – и многое другое. Для журналиста, работающего с данными, это основной инструмент. Мои любимые инструменты имеют еще больше возможностей: SPSS проводит статистический анализ, а программы для создания графиков позволяют увидеть географические закономерности.

Seattle Times— Шерил Филипс

Я очень люблю программировать на языке Python. Это отличный язык программирования с открытым исходным кодом, которым легко пользоваться (например, не нужно ставить точку с запятой в конце каждой строки). Более того, Python имеет огромный базовый контингент потребителей, поэтому есть плагины (расширения) практически для любых функций.

Мне кажется, журналисты редко пользуются Django. Это фреймворк для веб–приложений на языке Python, инструмент для создания больших приложений с базами данных. Для маленькой интерактивной инфографики это, конечно, чересчур.

Я также работал в QGis — это инструментарий в открытом доступе, который предлагает широкий набор функций для создания геоинформационных системы. Он будет полезен журналистам, которые периодически имеют дело с географическими данными. Если нужно преобразовать геопространственные данные из одного формата в другой, QGis — то что надо. Он может работать практически с любым существующим форматом геоданных (шейп–файлы, KML, GeoJSON и др.). Если нужно вырезать несколько регионов, с этим прекрасно справится QGis. К тому же, вокруг QGis сложилось огромное сообщество пользователей, поэтому в Сети вы найдете уйму ресурсов и рекомендацийпо работе с этой программой.

R создавался главным образом как инструмент визуализации научных данных. Вы вряд ли найдете метод визуализации или обработки данных, который не встроен в R. R содержит в себе все, это универсальное средство анализа визуальных данных. Единственный недостаток, о котором вам следует знать: вам придется выучить (еще один) язык программирования, так как R использует собственный язык. Но как только вы немного освоитесь, то поймете, что более мощного инструмента, чем R, нет. Подготовленные журналисты используют R для анализа огромных массивов данных, который выходит за пределы возможностей Excel (например, если вы работаете в таблице с миллионом строк).

Чем действительно хорош R, так это тем, что вы можете хранить точный «протокол» всех действий с данными на протяжении всего процесса, начиная с чтения CSV–файла до создания таблиц. В случае изменения данных, вы можете создать таблицу заново одним кликом мышки. Если кто–то усомнится в безошибочности вашей таблицы, вы сможете показать источник данных, который позволяет любому самостоятельно в точности воссоздать эту таблицу (или найти ваши ошибки, если они есть).

NumPy и MatPlotLib позволяют делать примерно то же самое, но на языке Python. Они подойдут вам, если вы уже хорошо программируете на Python. По сути NumPy и MatPlotLib — примеры ПО, созданного на Python. Их можно использовать для анализа и визуализации данных, но только для статической визуализации. В них нельзя создавать интерактивные графики с всплывающими подсказками и прочими наворотами.

Поделиться:
Популярные книги

Вадбольский

Никитин Юрий Александрович
1. Вадбольский
Фантастика:
попаданцы
5.00
рейтинг книги
Вадбольский

Москва – город проклятых

Кротков Антон Павлович
1. Неоновое солнце
Фантастика:
ужасы и мистика
постапокалипсис
5.00
рейтинг книги
Москва – город проклятых

Осколки (Трилогия)

Иванова Вероника Евгеньевна
78. В одном томе
Фантастика:
фэнтези
8.57
рейтинг книги
Осколки (Трилогия)

Черный маг императора 3

Герда Александр
3. Черный маг императора
Фантастика:
попаданцы
аниме
5.00
рейтинг книги
Черный маг императора 3

Господин моих ночей (Дилогия)

Ардова Алиса
Маги Лагора
Любовные романы:
любовно-фантастические романы
6.14
рейтинг книги
Господин моих ночей (Дилогия)

Санек

Седой Василий
1. Санек
Фантастика:
попаданцы
альтернативная история
4.00
рейтинг книги
Санек

Флеш Рояль

Тоцка Тала
Детективы:
триллеры
7.11
рейтинг книги
Флеш Рояль

Газлайтер. Том 4

Володин Григорий
4. История Телепата
Фантастика:
попаданцы
альтернативная история
аниме
5.00
рейтинг книги
Газлайтер. Том 4

На границе империй. Том 7

INDIGO
7. Фортуна дама переменчивая
Фантастика:
боевая фантастика
космическая фантастика
попаданцы
6.75
рейтинг книги
На границе империй. Том 7

Кодекс Охотника. Книга XVIII

Винокуров Юрий
18. Кодекс Охотника
Фантастика:
фэнтези
попаданцы
аниме
5.00
рейтинг книги
Кодекс Охотника. Книга XVIII

Мой личный враг

Устинова Татьяна Витальевна
Детективы:
прочие детективы
9.07
рейтинг книги
Мой личный враг

Кодекс Крови. Книга ХII

Борзых М.
12. РОС: Кодекс Крови
Фантастика:
боевая фантастика
попаданцы
5.00
рейтинг книги
Кодекс Крови. Книга ХII

Законы Рода. Том 8

Андрей Мельник
8. Граф Берестьев
Фантастика:
юмористическое фэнтези
аниме
фэнтези
5.00
рейтинг книги
Законы Рода. Том 8

Тагу. Рассказы и повести

Чиковани Григол Самсонович
Проза:
советская классическая проза
5.00
рейтинг книги
Тагу. Рассказы и повести