Искусство статистики. Как находить ответы в данных
Шрифт:
Классическим примером того, как фрейминг меняет эмоциональное восприятие какого-нибудь показателя, стали плакаты, появившиеся в 2011 году в лондонском метро, которые гласили, что «99 % молодых лондонцев не совершают серьезных насильственных преступлений». Предполагалось, что такие заявления будут способствовать спокойствию пассажиров. Однако мы могли бы изменить их эмоциональное воздействие с помощью двух простых вещей. Во-первых, с помощью заявления, что 1 % молодых лондонцев совершают серьезные насильственные преступления. Во-вторых, учитывая, что население Лондона составляет около 9 миллионов человек, возраст примерно 1 миллиона из них – от 15 до 25 лет, и если считать эту категорию молодежью, то получается, что в городе проживает 1 % от миллиона, или 10 тысяч агрессивно настроенных молодых людей. А такая цифра звучит удручающе и уж вовсе не ободряет. Обратите внимание на две хитрости, используемые для манипулирования воздействием таких статистических данных:
В идеале – если мы хотим беспристрастной подачи информации – нужно давать как положительные, так и отрицательные значения, хотя даже порядок столбцов в таблице может влиять на интерпретацию. Необходимо тщательно продумывать и порядок строк. Например, в табл. 1.1 больницы распределены в порядке увеличения количества проведенных операций, но если их упорядочить, например, в порядке убывания смертности (с наибольшим значением в верхней части таблицы), то это может создать впечатление, что перед нами правильный и важный способ сравнения больниц. Такие рейтинговые таблицы любят средства массовой информации и некоторые политики, однако они могут вводить в заблуждение, причем не только потому, что различия бывают вызваны случайными отклонениями, но и потому, что больницы принимают пациентов с заболеваниями разной степени тяжести. Например, по данным табл. 1.1 можно заподозрить, что больница в Бирмингеме – одна из крупнейших и наиболее известных детских больниц – берет наиболее тяжелые случаи. Поэтому было бы несправедливо говорить, что у нее не самые впечатляющие показатели выживаемости [27] .
27
Оказывается, нет никаких веских доказательств каких-либо принципиальных различий между этими больницами, если учитывать степень серьезности случаев.
Показатели выживаемости можно представить и в виде горизонтальной столбчатой диаграммы, как на рис. 1.1. Главное – решить, где начинать горизонтальную ось: если с 0 %, то полосы займут практически всю ширину диаграммы, что покажет необычайно высокий уровень выживаемости во всех больницах, но полосы между собой будет трудно различить. Гораздо хуже старый трюк, использующийся для обмана, – начать, например, с 95 %. Тогда все больницы будут резко отличаться, даже если на самом деле разница в показателях объясняется чистой случайностью.
Рис. 1.1
Горизонтальная гистограмма уровня выживаемости за 30 дней в тринадцати больницах. Выбор начала горизонтальной оси (в данном случае 86 %) может существенно сказаться на впечатлении, вызываемом графиком. Если ось начинается с 0 %, все больницы выглядят неразличимыми; если же начать с 95 %, разница будет обманчиво драматичной
Следовательно, выбор начала оси представляет собой дилемму. Альберто Каиро, автор авторитетных книг по визуализации данных [28] , предлагает всегда начинать с «логической и взвешенной точки отсчета», которую в нашем случае трудно определить. Мой собственный произвольный выбор – 86 %, что примерно отражает недопустимо низкий уровень выживаемости в Бристольской больнице двадцатью годами ранее.
28
См. A. Cairo, The Truthful Art: Data, Charts, and Maps for Communication (New Riders, 2016), и The Functional Art: An Introduction to Information Graphics and Visualization (New Riders, 2012).
Я начал книгу цитатой Нейта Сильвера, основателя цифровой платформы FiveThirtyEight и автора точного прогноза президентских выборов 2008 года в США. Он красноречиво высказал идею, что цифры не говорят сами за себя – это мы наполняем их смыслом. А значит, коммуникации – ключевая часть цикла решения проблем, и в этом разделе я показал, как способ представления данных может влиять на наше восприятие.
Теперь нам нужно ввести важное и удобное понятие, которое поможет выйти за рамки простых вопросов типа «да/нет».
Качественные переменные
Переменной называется любая величина, которая может принимать различные значения в разных обстоятельствах; это очень полезный сокращенный термин для всех видов наблюдений, содержащих данные. Бинарные переменные могут принимать только два значения (да/нет) – например, жив человек или мертв, женщина он или мужчина. Значения могут отличаться у разных людей и даже у одного человека в разные моменты жизни. Качественная (или категорийная) переменная –
• неупорядоченными: страна рождения человека, цвет автомобиля или больница, где делали операцию;
• упорядоченными: воинские звания;
• сгруппированными числами: степени ожирения, которые часто определяются в терминах пороговых значений по индексу массы тела (ИМТ) [29] .
Для отображения качественных данных часто используются круговые диаграммы, что позволяет составить представление о размере каждой категории по занимаемой ею части круга. Однако здесь вероятны проблемы с наглядностью, например при попытке изобразить на одной диаграмме слишком много категорий или использовать трехмерное представление, искажающее площади. Рис. 1.2 показывает весьма уродливый пример, смоделированный с помощью Microsoft Excel, где представлены данные из табл. 1.1 о результатах операций на сердце для 12 933 детей.
29
Индекс массы тела разработан бельгийским статистиком и социологом Адольфом Кетле в 1830-х годах. Он определяется так: ИМТ = масса (кг) / рост2 (м). Используются самые разные способы группирования людей по этому параметру; в настоящее время в Великобритании применяются такие категории: недостаточная масса (ИМТ < 18,5), нормальная масса (ИМТ от 18,5 до 25), избыточная масса (от 25 до 30), ожирение (от 30 до 35), болезненное ожирение (свыше 35).
Сам термин «индекс массы тела» появился намного позднее, в статье Анселя Киза с соавторами, опубликованной в 1972 году в Journal of Chronic Diseases. Прим. пер.
Рис. 1.2
Процентные доли операций на сердце у детей в каждой больнице, отображенные на круговой 3D-диаграмме из Excel. Это крайне неудачное представление данных зрительно увеличивает категории на переднем плане, делая невозможным визуальное сравнение между больницами
Использование сразу нескольких круговых диаграмм, как правило, не очень хорошая идея, поскольку это затрудняет сравнение относительных размеров областей разной формы. Сравнения лучше проводить с помощью гистограмм (столбчатых диаграмм) – при этом хорошо видна разница в высоте или длине. Рис. 1.3 – более простой и понятный пример горизонтальной гистограммы, где длина горизонтальной полосы отражает долю операций каждой больницы.
Рис. 1.3
Процентные доли всех операций на сердце у детей, проведенных в каждой больнице: более четкое представление с помощью горизонтальной гистограммы
Сравнение двух долей
Итак, увидев, как с помощью гистограммы можно элегантно сравнить несколько пропорциональных долей, было бы логично полагать, что сравнение двух долей вообще тривиальное дело. Однако когда эти доли представляют собой оценку рисков причинения какого-либо вреда, метод их сравнения становится серьезным, дискуссионным вопросом. Типичный пример:
Каков риск развития рака от употребления сэндвичей с беконом?
Каждому из нас знакомы громкие заголовки в СМИ, предупреждающие о том, что какая-то вполне обыденная вещь увеличивает риск возникновения чего-нибудь плохого. Я обычно называю такие истории «кошки вызывают рак». Например, в ноябре 2015 года Международное агентство по изучению рака (МАИР) Всемирной организации здравоохранения объявило обработанное мясо «канцерогеном группы I», то есть отнесло его к той же категории, что сигареты и асбест. Естественно, это привело к появлению устрашающих заголовков. Так, Daily Record написала, что «по мнению экспертов, бекон, ветчина и сосиски подвергают такому же риску развития рака, как и сигареты» [30] .
30
Информацию Всемирной организации здравоохранения о канцерогенности потребления красного мяса и обработанного мяса см. http://www.who.int/features/qa/cancer-red-meat/en/. ‘Bacon, Ham and Sausages Have the Same Cancer Risk as Cigarettes Warn Experts’, Daily Record, 23 October 2015.