Чтение онлайн

на главную - закладки

Жанры

Пособие по журналистике данных
Шрифт:

Чтобы более эффективно находить взаимосвязи в данных, очень помогают описанные ниже шаги:

Рис 68. Data insights: a visualization (Gregor Aisch)

Как визуализировать данные

Визуализация позволяет в совершенно новом свете увидеть данные. Наглядное представление может быть самым разным.

Если у вас сравнительно небольшое количество элементов, то очень наглядными будут таблицы. Они демонстрируют подписи и значения в наиболее структурированном и организованном виде,

раскрывая весь потенциал, а также позволяя сортировать и фильтровать данные. Кроме того, Эдвард Туфт предложил включить в колонки таблиц маленькие графики (одна графа на строку или линейный график – спарклайн). Те не менее, как было сказано во введении, у таблиц есть свои ограничения. Они отлично подходят для демонстрации одномерных значений, сильно отличающихся от других (например, первые 10), но когда дело доходит до сравнения нескольких измерений одновременно (например, изменение численности населения страны в течение времени), они мало полезны.

Рис 69. Tips from Tufte: Sparklines (Gregor Aisch)

В целом, графики позволяют изображать величины, придавая им визуальные характеристики геометрических фигур. Очень многое было написано об эффективности индивидуальных визуальных характеристик, но если суммировать коротко: с цветами работать сложно, ключевым является расположение. На диаграмме рассеяния, например, два измерения передаются координатами на осях x и y. Вы даже можете изобразить третье измерение – цветом или размером изображенных символов. Линейные графики особенно подходят для изображения изменений во времени, а гистограммы отлично подходят для сравнения категорийных данных. Можно накладывать элементы друг на друга. Если хотите сравнить небольшие группы данных, можно изобразить различные варианты одного графика (их также называют сетчатыми диаграммами). Во всех графиках можно использовать различные шкалы (линейную или логарифмическую, например), чтобы изучить данные с разных сторон.

На самом деле большинство данных, с которыми мы имеем дело, касаются реальных людей. Задача диаграмм – соотнести данные с нашим материальным миром. Представьте себе статистику преступлений, распределенную географически. Главное, что вы хотите увидеть – это места совершения преступлений. На диаграммах также можно обозначать географические связи между данными, например, изменение статистики в направлении с севера на юг или от городов к сельской местности.

Рис 70. Cloropeth (Gregor Aisch)

Что касается связей, четвертый по важности тип визуализации – это график. Графики показывают взаимосвязи (линии) между элементами данных (узлами). Расположение узлов высчитывается более–менее сложными алгоритмами разметки графиков, которые позволяют сразу же увидеть структуру внутри сети. Главное в визуализации с помощью графиков – найти верный способ моделирования самой сети. Не все массивы данных уже имеют встроенные связи, и даже в тех массивах, где они есть, это не самые интересные характеристики. Иногда журналисту приходится самому находить линии между узлами. Отличный пример — Социальный граф Сената США, где линии соединяют сенаторов, проголосовавших одинаково в 65% случаев.

Анализируйте и интерпретируйте то, что видите

После того, как вы наглядно изобразили данные, из созданной картинки можно почерпнуть информацию. Спросите себя:

Что я вижу на рисунке? То ли это, что я ожидал увидеть?

Просматриваются ли какие–то интересные закономерности?

Что это означает в контексте имеющихся данных?

Иногда может получиться изображение, которое, несмотря на внешнюю складность, не говорит вам ничего интересного. Но из любого изображения почти всегда можно что–то почерпнуть, каким бы обычным оно ни было.

Фиксируйте свои наблюдения и действия

Если представить весь процесс как плавание через массив данных, то фиксировать наблюдения – все равно что вести судовой журнал. Из него вы узнаете, где уже побывали, что увидели и почему решили взять курс на тот берег, куда теперь плывете. Вы даже можете начать фиксировать наблюдения еще до того, как впервые взглянете на данные.

В большинстве случаев, когда вы начинаете работать с новым массивом данных, у вас уже есть какие–то ожидания и предположения насчет данных. Обычно тот или иной массив данных интересует вас по конкретной причине. Неплохо начать ведение «журнала» с этих первоначальных предположений. Это поможет определиться с точкой зрения и уменьшит риск неверного истолкования данных только потому, что вы обнаружили то, что хотели найти.

Лично я считаю, что фиксирование шагов – наиболее важный этап всего процесса. И именно его почему–то многие упускают. Как вы увидите в ниже приведенном примере, описанный процесс подразумевает обширный анализ данных и нанесение их на схемы. Рассматривать 15 диаграмм, даже созданных вами, без пометок может быть очень затруднительно, особенно по прошествии времени. Эти схемы вообще представляют ценность (вами или тому, кто будет знакомиться с вашими изысканиями) исключительно в контексте исследования. Поэтому не сочтите за труд ответить на следующие вопросы:

Для чего создана диаграмма?

Как я обработал данные, чтобы получить ее?

Какую информацию сообщает диаграмма?

Преобразуйте данные

Естественно, выявив из уже имеющихся визуализаций взаимосвязи, вы будете примерно представлять, что хотите получить дальше. Возможно, вы найдете какую–то интересную закономерность в массиве данных, которую захотите исследовать подробно.

Возможные преобразования:

Увеличение

Чтобы рассмотреть какую–либо деталь на изображении

Группировка Чтобы соединить элементы в одну группу

Фильтрование

Чтобы (временно) удалить те элементы, которые не представляют интереса

Удаление резко отличных значений

Чтобы убрать отдельные точки, которые не отражают 99% массива данных.

Давайте представим, что вы изобразили график, но получился только набор точек, связанных сотнями линий (очень распространенный результат при визуализации так называемых сетей с множественными связями). Тогда разумным было бы отфильтровать линии. Если, например, линии отражают поток средств из стран–кредиторов в страны–получатели, можно удалить потоки ниже определенного уровня.

Какие инструменты использовать

Выбор инструмента — вопрос непростой. Каждый инструмент визуализации данных по–своему хорош. Визуализация и извлечение данных должны быть простыми и незатратными. Если у вас уходят часы на изменение параметров визуализации, вы не станете много экспериментировать. Это вовсе не означает, что вам не нужно учиться работать с этим инструментом. Но когда вы научитесь его использовать, он должен стать действительно полезным.

Нередко имеет смысл выбрать инструмент, который и обрабатывает, и визуализирует данные. Если разделить задачи между разными инструментами, то вам придется несколько раз импортировать и экспортировать данные. Вот несколько инструментов визуализации и обработки данных:

Поделиться:
Популярные книги

Вадбольский

Никитин Юрий Александрович
1. Вадбольский
Фантастика:
попаданцы
5.00
рейтинг книги
Вадбольский

Москва – город проклятых

Кротков Антон Павлович
1. Неоновое солнце
Фантастика:
ужасы и мистика
постапокалипсис
5.00
рейтинг книги
Москва – город проклятых

Осколки (Трилогия)

Иванова Вероника Евгеньевна
78. В одном томе
Фантастика:
фэнтези
8.57
рейтинг книги
Осколки (Трилогия)

Черный маг императора 3

Герда Александр
3. Черный маг императора
Фантастика:
попаданцы
аниме
5.00
рейтинг книги
Черный маг императора 3

Господин моих ночей (Дилогия)

Ардова Алиса
Маги Лагора
Любовные романы:
любовно-фантастические романы
6.14
рейтинг книги
Господин моих ночей (Дилогия)

Санек

Седой Василий
1. Санек
Фантастика:
попаданцы
альтернативная история
4.00
рейтинг книги
Санек

Флеш Рояль

Тоцка Тала
Детективы:
триллеры
7.11
рейтинг книги
Флеш Рояль

Газлайтер. Том 4

Володин Григорий
4. История Телепата
Фантастика:
попаданцы
альтернативная история
аниме
5.00
рейтинг книги
Газлайтер. Том 4

На границе империй. Том 7

INDIGO
7. Фортуна дама переменчивая
Фантастика:
боевая фантастика
космическая фантастика
попаданцы
6.75
рейтинг книги
На границе империй. Том 7

Кодекс Охотника. Книга XVIII

Винокуров Юрий
18. Кодекс Охотника
Фантастика:
фэнтези
попаданцы
аниме
5.00
рейтинг книги
Кодекс Охотника. Книга XVIII

Мой личный враг

Устинова Татьяна Витальевна
Детективы:
прочие детективы
9.07
рейтинг книги
Мой личный враг

Кодекс Крови. Книга ХII

Борзых М.
12. РОС: Кодекс Крови
Фантастика:
боевая фантастика
попаданцы
5.00
рейтинг книги
Кодекс Крови. Книга ХII

Законы Рода. Том 8

Андрей Мельник
8. Граф Берестьев
Фантастика:
юмористическое фэнтези
аниме
фэнтези
5.00
рейтинг книги
Законы Рода. Том 8

Тагу. Рассказы и повести

Чиковани Григол Самсонович
Проза:
советская классическая проза
5.00
рейтинг книги
Тагу. Рассказы и повести