Искусство статистики. Как находить ответы в данных
Шрифт:
МАИР попыталось подавить панику, подчеркнув, что попадание в группу I всего лишь говорит о существовании повышенного риска рака, а не о реальной величине самого риска. В пресс-релизе МАИР сообщалось, что ежедневное употребление 50 граммов обработанного мяса связано с повышением риска развития рака кишечника на 18 %. Звучит тревожно, но так ли это на самом деле?
Величина 18 % известна как относительный риск, который отражает разницу в опасности развития рака кишечника (колоректального рака) у двух групп людей: ежедневно употребляющих 50 граммов обработанного мяса (например, сэндвич с двумя ломтиками бекона) и тех, кто его не ест. Статистики наложили этот относительный показатель на каждую отдельную группу риска и посмотрели, какие абсолютные значения он принимает в каждом случае, что позволило выявить абсолютный риск этого исхода для каждой группы. Они пришли к выводу, что при нормальном ходе вещей примерно 6 из каждых 100 человек, которые не едят бекон ежедневно, заболеют раком кишечника. Если же 100
31
Строго говоря, относительное увеличение на 18 % дает 6 x 1,18 = 7,08 процента, но для наших целей округления до 7 % вполне достаточно.
32
Это было любимое наблюдение Ханса Рослинга, см. следующую главу.
Пример с сэндвичем показывает, что риски полезно выражать в ожидаемых частотах, то есть вместо того, чтобы обсуждать доли или вероятности, просто спросить: «А что это означает для группы в 100 (или 1000) человек?» Психологические исследования продемонстрировали, что такой метод улучшает понимание: утверждение, что потребление мяса приводит к «18-процентному повышению риска», можно считать манипулятивным, поскольку мы знаем, что такая форма подачи информации создает преувеличенное впечатление о степени опасности [33] . На рис. 1.4 представлена ожидаемая частота случаев рака кишечника в группе из 100 человек в виде пиктографической диаграммы.
33
E. A. Akl et al., ‘Using Alternative Statistical Formats for Presenting Risks and Risk Reductions’, Cochrane Database of Systematic Reviews 3 (2011).
Рис. 1.4
Пример с сэндвичем в виде двух пиктографических диаграмм, где люди с раком кишечника случайно рассеяны в общей группе. При нормальных обстоятельствах в группе из 100 человек, не употребляющих бекон, рак кишечника развивается у 6 человек (выделены темным на первой диаграмме). В группе из 100 человек, которые ежедневно едят бекон (вторая диаграмма), выявляется один дополнительный случай заболевания (заштрихованная пиктограмма) [34]
34
Строго говоря, шесть темных фигурок в обеих частях рисунка следовало бы разместить по-разному, поскольку диаграммы представляют разные группы из 100 человек. Но это затруднило бы их сравнение.
На рис. 1.4 «раковые» пиктограммы случайным образом разбросаны среди 100 изображений. Хотя было продемонстрировано, что такое рассеяние усиливает впечатление непредсказуемости, его следует использовать только в случае одной дополнительной выделенной пиктограммы, тогда для быстрого визуального сравнения не нужно будет их считать.
Еще несколько способов сравнить две доли представлены в табл. 1.2, отражающей те же риски для людей, которые едят и не едят бекон.
Таблица 1.2
Примеры способов информирования о риске развития рака кишечника при ежедневном употреблении сэндвича с беконом и без него. «Число больных, которых нужно лечить», – это число людей, которые должны всю жизнь ежедневно съедать сэндвич с беконом, чтобы можно было ожидать один дополнительный случай рака кишечника (поэтому, пожалуй, этот параметр лучше назвать «числом людей, которые должны есть»)
* Число больных, которых нужно лечить (ЧБНЛ), – один из важных параметров в здравоохранении. В обычном смысле это среднее число пациентов, которых необходимо лечить, чтобы предотвратить один неблагоприятный исход или добиться какого-то благоприятного исхода, по сравнению с контрольной группой. Автор использует понятие в более широком смысле. Прим. пер.
Обычно риск выражают фразой «1 из х», то есть «1 из 16 человек» означает 6-процентный риск. Однако использовать несколько выражений «1 из…» не рекомендуется,
Под шансами на событие понимается отношение вероятности его наступления к вероятности того, что оно не произойдет. Например, из 100 человек, не употребляющих бекон, у 6 будет выявлен колоректальный рак, а у 94 – нет, а значит, шансы заболеть раком у людей в этой группе составляют 6/94, что читается как «6 к 94» [35] . Шансы обычно используют в различных ставках, но они также широко применяются в статистическом моделировании долей, а это означает, что медицинские исследования обычно выражают эффекты, связанные с лечением или поведением, именно в отношении шансов.
35
Подчеркиваем, что в данном случае вовсе не подразумевается, что вероятность рака равна 6/94. Объясним это на простом примере. Когда говорят о «шансах 1 к 2», то вероятность не равна 1/2. Это означает, что в вашу пользу один возможный исход, а против вас – два исхода. Следовательно, «шансы 1 к 2» означают один удачный исход из трех возможных, то есть вероятность успеха равна 1/3. Аналогично, в нашем случае вероятность рака равна 6/100, а число 6/94 – это отношение вероятности рака к вероятности его отсутствия: (6/100) / (94/100) = 6/94. Прим. пер.
Несмотря на то что отношение шансов часто встречается в исследовательской литературе, это не всегда подходящий способ показать разницу в рисках. Если события происходят достаточно редко, то такие отношения будут численно близки к относительным рискам, как в случае сэндвичей с беконом, но для распространенных событий отношения шансов могут сильно отличаться от относительных рисков, и следующий пример показывает, как это может запутать журналистов (и остальных людей).
Как можно рост с 85 до 87 % назвать 20-процентным повышением?
Статины широко используются для снижения уровня холестерина и риска инфарктов и инсультов, однако некоторых врачей беспокоят побочные эффекты их применения. Исследование, опубликованное в 2013 году, установило, что 87 % людей, принимавших статины, сообщали о мышечных болях – по сравнению с 85 % тех, кто их не принимал. Если посмотреть на способы сравнения рисков, представленные в табл. 1.2, то можно сказать либо об увеличении абсолютного риска на 2 %, либо о примерно таком же увеличении относительного риска: 0,87 / 0,85 1,02. Шансы для обеих групп равны, соответственно 0,87 / 0,13 = 6,7 и 0,85 / 0,15 = 5,7, а значит, их отношение составляет 6,7 / 5,7 = 1,18. Получилось такое же значение, как и у сэндвичей с беконом, хотя при совершенно других абсолютных рисках.
Газета Daily Mail неправильно интерпретировала это отношение шансов 1,18 как относительный риск и напечатала статью под заголовком: «Статины повышают риск на 20 %», что является серьезным искажением результатов исследования. Однако винить надо не только журналистов: в кратком содержании статьи было указано лишь отношение шансов – без упоминания о том, что оно соответствует разнице между абсолютными рисками в 87 и 85 % [36] .
Это подчеркивает опасность применения отношения шансов в любом контексте, кроме научного. Всегда лучше сообщать аудитории о понятных ей абсолютных рисках вне зависимости от того, касаются они бекона, статинов или чего-то другого.
36
‘Statins Can Weaken Muscles and Joints: Cholesterol Drug Raises Risk of Problems by up to 20 per cent’, Mail Online, 3 June 2013. Исходная работа: I. Mansi et al., ‘Statins and Musculoskeletal Conditions, Arthropathies, and Injuries’, JAMA Internal Medicine 173 (2013), 1318–26.
Примеры в этой главе продемонстрировали, как кажущаяся простой задача по вычислению и выражению величины долей может превратиться в довольно сложную, и здесь нужно проявлять осторожность. Психологи все активнее изучают воздействие различных форматов числовых и графических данных на наше восприятие. Коммуникации – важная часть цикла решения проблем, и она не должна зависеть от личных предпочтений.
Выводы
• Бинарные переменные принимают только два значения: да и нет. Информацию о нескольких таких переменных можно выражать в виде доли случаев, которую составляет какая-то из них.
• Положительный или отрицательный фрейминг может повлиять на эмоциональное восприятие данных.
• Относительные риски склонны преувеличивать важность, поэтому для полноты картины следует предоставлять информацию об абсолютных рисках.
• Ожидаемая частота обеспечивает понимание и правильное представление о важности.
• Отношения шансов можно оценивать в научных работах, но их не стоит использовать в обычных публикациях.
• Визуальное представление информации должно быть тщательно продумано с учетом особенностей его восприятия.