Чтение онлайн

на главную - закладки

Жанры

Пособие по журналистике данных
Шрифт:

Электронные таблицы: LibreOffice, Excel или Google Docs

Фреймворки для статистического программирования: R (r–project.org) или Pandas (pandas.pydata.org)

Геоинформационные системы (GIS): Quantum GIS, ArcGIS, GRASS

Библиотеки для визуализации: d3.js (mbostock.github.com/d3), Prefuse (prefuse.org), Flare (flare.prefuse.org)

Инструменты обработки данных: Google Refine, Datawrangler

Программы для визуализации без программирования: ManyEyes, Tableau Public (tableausoftware.com/products/public)

Примеры визуализаций в следующем разделе были созданы в фреймворке R. Он как швейцарский армейский нож со множеством лезвий — справится с чем угодно.

Пример: Взносы кандидатов

в президенты США

Возьмем для примера базу данных финансирования президентских выборов в США, которая содержит около 450 000 взносов для кандидатов в президенты. Файл CSV весит 60 Мб, поэтому он слишком большой для таких программ, как Excel.

Для начала я подробно опишу свои предположения об этой базе данных: * Обама получил больше всего взносов (т.к. он президент и пользуется большей популярностью) * С приближением даты выборов количество взносов увеличивается * Обама получил больше маленьких взносов, чем кандитаты–республиканцы.

Чтобы ответить на первый вопрос, нужно преобразовать данные. Необходимо суммировать все взносы и получить общую сумму по каждому кандидату. Изобразив результаты в виде отсортированной таблицы, мы можем доказать предположение о том, что Обама собрал больше всех средств:

Кандидат Сумма ($)
Обама, Барак 72,453,620.39
Ромни, Митт 50,372,334.87
Перри, Рик 18,529,490.47
Пол, Рон 11,844,361.96
Кейн, Герман 7,010,445.99
Гингрич, Ньют 6,311,193.03
Поуленти, Тимоти 4,202,769.03
Хантсмен, Джон 2,955,726.98
Бакманн, Мишель 2,607,916.06
Санторум, Рик 1,413,552.45
Джонсон, Гари Ирл 413,276.89
Рёмер, Чарльз Э. Бадди III 291,218.80
Маккоттер, Тадеус Дж. 37,030.00

Хотя в таблицу указаны суммы в порядке убывания, нам это мало говорит о закономерностях в ранжировании кандидатов. Рис 71демонстрирует иное представление данных – в виде графика или точечной диаграммы, на которой видны те же данные, что и в таблице, плюс закономерности внутри области. Например, точечная диаграмма позволяет быстро сравнить разрыв между Обамой и Ромни или между Ромни и Перри, не вычисляя разницу. (Примечание: точечная диаграмма была составлена в R. Ссылки на исходный код вы найдете в конце главы).

Рис 71. visualizations to spot underlying patterns (Gregor Aisch)

Теперь перейдем к более обширной картине массива данных. На первом этапе с помощью простого скрипта я визуализировал все взносы за период времени. Как видно, взносы почти всех кандидатов ничтожно малы по сравнению с тремя наиболее крупными значениями. Дальнейший анализ показывает, что эти огромные взносы пришли из «Фонда победы Обамы 2012» (по–другому «Супер ПАК»), а именно 29 июня ($450 тыс.), 29 сентября ($1,5 млн.) и 30 декабря ($1,9 млн.).

Рис 72. Three clear outliers (Gregor Aisch)

В

то время как сами взносы от «Супер ПАК» уже без сомнения дают отличный повод для написания статьи, можно взглянуть шире. Дело в том, что эти крупные взносы отвлекают наше внимание от маленьких взносов, сделанных частными лицами. Поэтому уберем их из поля зрения. Такое преобразование обычно называют исключением резко отклоняющихся значений. Вновь изобразив данные на графике, мы видим, что большинство взносов составляли от $10 тыс. до –$5 тыс.

Рис 73. Removing the outliers (Gregor Aisch)

Согласно «Закону о федеральной избирательной кампании», частные лица не могут делать взносы более $2 500 в пользу каждого кандидата. Как видно из графика, очень много взносов гораздо выше этого допустимого уровня. В частности, наше внимание привлекли два больших взноса, сделанных в мае. Складывается впечатление, что они, как в зеркале, отражены в отрицательных значениях (возвратах) в июне и июле. Дальнейший анализ данных выявил следующие транзакции:

10 мая Стивен Джеймс Дэвис из Сан–Франциско, юрисконсульт Banneker Partners, перечислил Обаме $25 800.

25 мая Синтия Мёрфи из Литл–Рок, специалист по связям с общественностью в Murphy Group, перечислила Обаме $33 300.

15 июня $30 800 было возвращено Синтии Мёрфи, в результате чего ее фактический взнос составил $2 500.

8 июля $25 800 было возвращено Стивену Джеймсу Дэвису, в результате чего его фактический взнос составил $0.

Что любопытного в этих цифрах? Деньги, возвращенные Синтии Мёрфи ($30 800), эквивалентны максимальному годовому взносу, который может внести частное лицо в пользу комитетов национальной партии. Возможно, она хотела объединить два взноса в одну транзакцию, но ей было отказано. Деньги, возвращенные Стивену Джеймсу Дэвису ($25 800) теоретически равны разнице между $30 800 и $5 000 (максимально возможный взнос в любой другой политический комитет).

Еще один любопытный вывод из последнего графика – это горизонтальная линия, показывающая взносы республиканским кандидатам: от $5 000 до $2 500. Для большей наглядности я изобразил только взносы кандидатам–республиканцам. Получившийся график – это отличный пример выявления закономерностей, которые иначе не удалось бы обнаружить.

Рис 74. Removing outliers 2 (Gregor Aisch)

Мы видим, что многие кандидаты–республиканцы получили взносы по $5 000. При более близком рассмотрении видно, что таких взносов 1234, т.е. только 0,3% от общего числа взносов. Но так как взносы равномерно распределены во времени, просматривается линия. Интересно то, что частные взносы ограничены суммой в $2 500. Следовательно, каждый доллар сверх лимита был возвращен спонсору, в результате чего возникла вторая линия на уровне –$2 500. Такая закономерность не прослеживается, если проанализировать взносы в пользу Барака Обамы.

Рис 75. Removing outliers 3 (Gregor Aisch)

Таким образом, было бы интересно выяснить, почему тысячи спонсоров кандидатов–республиканцев не знали об ограничении, существующем для частных взносов. Для дальнейшего анализа рассмотрим общее количество взносов в размере $5 000 на каждого кандидата.

Рис 76. Donations per candidate (Gregor Aisch)

Конечно, это не совсем точная картина, так как не учитывается общее количество взносов каждому кандидату. Следующий график показывают долю взносов в сумме $5 000 на каждого кандидата.

Поделиться:
Популярные книги

Вадбольский

Никитин Юрий Александрович
1. Вадбольский
Фантастика:
попаданцы
5.00
рейтинг книги
Вадбольский

Москва – город проклятых

Кротков Антон Павлович
1. Неоновое солнце
Фантастика:
ужасы и мистика
постапокалипсис
5.00
рейтинг книги
Москва – город проклятых

Осколки (Трилогия)

Иванова Вероника Евгеньевна
78. В одном томе
Фантастика:
фэнтези
8.57
рейтинг книги
Осколки (Трилогия)

Черный маг императора 3

Герда Александр
3. Черный маг императора
Фантастика:
попаданцы
аниме
5.00
рейтинг книги
Черный маг императора 3

Господин моих ночей (Дилогия)

Ардова Алиса
Маги Лагора
Любовные романы:
любовно-фантастические романы
6.14
рейтинг книги
Господин моих ночей (Дилогия)

Санек

Седой Василий
1. Санек
Фантастика:
попаданцы
альтернативная история
4.00
рейтинг книги
Санек

Флеш Рояль

Тоцка Тала
Детективы:
триллеры
7.11
рейтинг книги
Флеш Рояль

Газлайтер. Том 4

Володин Григорий
4. История Телепата
Фантастика:
попаданцы
альтернативная история
аниме
5.00
рейтинг книги
Газлайтер. Том 4

На границе империй. Том 7

INDIGO
7. Фортуна дама переменчивая
Фантастика:
боевая фантастика
космическая фантастика
попаданцы
6.75
рейтинг книги
На границе империй. Том 7

Кодекс Охотника. Книга XVIII

Винокуров Юрий
18. Кодекс Охотника
Фантастика:
фэнтези
попаданцы
аниме
5.00
рейтинг книги
Кодекс Охотника. Книга XVIII

Мой личный враг

Устинова Татьяна Витальевна
Детективы:
прочие детективы
9.07
рейтинг книги
Мой личный враг

Кодекс Крови. Книга ХII

Борзых М.
12. РОС: Кодекс Крови
Фантастика:
боевая фантастика
попаданцы
5.00
рейтинг книги
Кодекс Крови. Книга ХII

Законы Рода. Том 8

Андрей Мельник
8. Граф Берестьев
Фантастика:
юмористическое фэнтези
аниме
фэнтези
5.00
рейтинг книги
Законы Рода. Том 8

Тагу. Рассказы и повести

Чиковани Григол Самсонович
Проза:
советская классическая проза
5.00
рейтинг книги
Тагу. Рассказы и повести