Сигнал и шум. Почему одни прогнозы сбываются, а другие - нет, Сильвер Нейт

Сигнал и шум. Почему одни прогнозы сбываются, а другие - нет

на обложку

Сильвер Нейт

Шрифт:

Рис. 8.3. Графическое отображение ложноположительного срабатывания

К сожалению, как выяснил Иоаннидис, состояние опубликованных исследований в большинстве областей, по которым проводилось статистическое тестирование, напоминает ту картину, что можно увидеть на рис. 8.3 [110] .

Почему же доля ошибок так велика? До определенной степени вся данная книга представляет собой ответ на этот вопрос. Причин можно назвать много: отчасти они связаны с нашими психологическими предубеждениями, отчасти – с распространенными методологическими ошибками, а отчасти – с неправильно выстроенными стимулами.

110

Отличие состоит в том, что негативные выводы часто прячутся в ящиках столов, а не публикуются (около 90 %

публикаций содержат позитивные выводы). Однако при этом никуда не девается проблема фальшивых позитивных выводов в работах, доходящих до публикации. – Прим. авт.

Однако основная проблема лежит в том, что тип статистического мышления, который используют различные исследователи, является ошибочным по своей сути.

Когда статистика отклонилась от принципов Байеса

Английский статистик и биолог по имени Рональд Эймлер (Р. A.) Фишер был, возможно, основным интеллектуальным соперником Томаса Байеса, несмотря на то что он родился в 1890 г., почти через 120 лет после его смерти. Он проявил себя еще более яркой личностью, чем Байес, и таким же олицетворением английской интеллектуальной традиции своего времени, каким в наши дни стал Кристофер Хитченс. Он был миловидным, но неопрятно одетым человеком {579} , постоянно курил трубку или сигареты и вел непрекращающийся бой с реальными и вымышленными соперниками.

579

McGrayne, The Theory That Would Not Die, Kindle location 46.

Посредственный лектор, но в то же время проницательный писатель, обладавший чутьем к драматическим сюжетам, он оставался отличным и востребованным собеседником за обедом. Интересы Фишера были невероятно широкими. Один из лучших биологов и генетиков своего времени, но при этом беззастенчивый сторонник элитизма, он искренне оплакивал тот факт, что у представителей бедных классов имелось значительно больше потомства, чем у интеллектуалов {580} (сам Фишер, следуя собственным убеждениям, с осознанием собственного долга дал жизнь восьмерым отпрыскам).

580

Paul D. Stolley, «When Genius Errs: R. A. Fisher and the Lung Cancer Controversy», American Journal of Epidemiology, 133, 5, 1991. http://www.epidemiology.ch/history/PDF%20bg/Stolley%20PD%201991%20when%20genius%20errs%20-%20RA%20fisher%20and%20the%20lung%20cancer.pdf.

Возможно, Фишер в большей степени, чем кто-либо еще, отвечает за то, какими статистическими методами мы широко пользуемся в настоящее время. Он разработал терминологию проверки статистической значимости и значительную часть соответствующей методологии. Он не относился к числу больших поклонников Байеса и Лапласа, но именно он впервые использовал термин «байесовский» (Bayesian) в опубликованной статье, причем довольно уничижительным образом {581} , а в другой статье утверждал, что теория Байеса «должна быть полностью отвергнута» {582} .

581

Alan Agresti and David B. Hitchcock, «Bayesian Inference for Categorical Data Analysis», Statistical Methods & Applications, 14 (2005), pp. 297–330. http://www.stat.ufl.edu/~aa/articles/agresti_hitchcock_2005.pdf.

582

John Aldrich, «R. A. Fisher on Bayes and Bayes’ Theorem», Bayesian Analysis, 3, no. 1 (2008), pp. 161–170. http://ba.stat.cmu.edu/journal/2008/vol03/issue01/aldrich.pdf.

Фишер и его современники не видели проблемы в формуле, называемой теоремой Байеса, как таковой, поскольку это обычное математическое выражение. Скорее, они беспокоились о том, как следует ее применять. В частности, у них вызывало вопросы понятие байесовского априорного значения {583} . Оно казалось им слишком субъективным: мы должны заранее предусмотреть, насколько вероятным мы считаем какое-то событие, прежде чем пуститься в эксперименты? Не противоречит ли это понятиям объективной науки?

583

McGrayne, The Theory That Would Not Die, Kindle location 48.

Поэтому Фишер и его современники решили разработать набор статистических методов, которые, как они надеялись, освободят нас от любого возможного негативного влияния предубеждений и искажений. Это направление статистики обычно называется «фреквентизм» (frequentism), хотя также его называют «фишеровской статистикой» (в противовес байесовской) {584} .

Идея фреквентизма состоит в том, что неопределенность в статистической проблеме возникает исключительно из-за того, что сбор данных производится на выборке, а не на всей популяции. Это имеет вполне разумные основания, когда мы изучаем, допустим, результаты политических опросов. Например, при проведении опросов в Калифорнии выборка составляет всего 800 человек, а не 8 млн, которые придут голосовать на очередных выборах, в результате возникает так называемая ошибка выборки. Величина ошибки, которую вы видите в описании

политических опросов, измеряет именно это – насколько велика вероятность ошибки из-за того, что вы опрашиваете 800 представителей популяции из 8 млн? Методы фреквентистов как раз и призваны дать этому параметру количественную оценку.

584

Tore Schweder, «Fisherian or Bayesian Methods of Integrating Diverse Statistical Information?» Fisheries Research, 37, 1–3 (August 1998), pp. 61–75. http://www.sciencedirect.com/science/article/pii/S0165783698001271.

Однако даже в контексте политических выборов ошибки выборки не всегда позволяют рассказать всю историю. В течение короткого интервала между конференцией демократической партии в Айове и первичными выборами демократической партии в Нью-Гемпшире в 2008 г. в последнем штате было опрошено около 15 тыс. человек {585} – невероятно много для столь небольшого штата, притом что предел погрешности теоретически составлял ±0,8 %. Однако реальная ошибка оказалась в 10 раз выше: Хиллари Клинтон выиграла выборы в штате с перевесом в 3 %, хотя, по данным опросов, уступала Бараку Обаме 8 %. Ошибка выборки – единственный тип ошибки, которому фреквентисты дают право на существование, – была, пожалуй, меньшей из проблем, возникшей при проведении опросов в Нью-Гемпшире.

585

Данные о первичных выборах 2008 г. демократической партии, RealClearPolitics.com. http://www.realclearpolitics.com/epolls/2008/president/nh/new_hampshire_democratic_primary-194.html.

Кроме того, некоторые организации, занимающиеся опросами, стабильно демонстрируют искажение в сторону той или иной партии {586} . С тем же успехом они могли бы опросить все 200 млн взрослых американцев и все равно получить неверные результаты. Байес разобрался с этими проблемами уже 250 лет назад. Если вы используете искаженный инструмент, то не важно, как много измерений вы произведете, вы неправильно сформулировали цель.

По сути, фреквентистский подход к статистике пытается изо всех сил утвердиться в мысли о том, что частая причина неверных предсказаний – это человеческая ошибка. Этот подход рассматривает неопределенность как нечто, присущее эксперименту, а не нашей способности понимать реальный мир. Фреквентистский метод также предполагает, что чем больше данных мы собираем, тем меньше становится ошибка. Со временем она приблизится к нулю. Таким образом, наличие данных считается необходимым и достаточным для решения любой проблемы. Многие из куда более проблемных вопросов предсказания, описанных в этой книге, связаны с областями, в которых полезные данные встречаются крайне редко, и порой их сбор действительно является важным и ценным делом. Однако неправильное использование этого метода вряд ли поставит вас на верный путь к статистическому совершенству. Как заметил Иоаннидис, эра Больших данных лишь ухудшает проблемы ложных позитивных выводов в исследовательской литературе.

586

Nate Silver, «Rasmussen Polls Were Biased and Inaccurate; Quinnipiac, SurveyUSA Performed Strongly», FiveThirtyEight, New York Times, November 4, 2010. http://fivethirtyeight.blogs.nytimes.com/2010/11/04/rasmussen-polls-were-biased-and-inaccurate-quinnipiac-surveyusa-performed-strongly/.

Фреквентистский метод нельзя считать особенно объективным ни в теории, ни на практике. Напротив, он полагается на целый ряд предположений. Например, обычно предполагается, что неопределенность в измерении следует колоколообразной кривой или нормальному распределению. Часто это предположение достаточно хорошо описывает ситуацию, но не в случае таких вещей, как колебания на фондовом рынке. Фреквентистский подход требует определения выборки, которая будет выглядеть достаточно прямолинейно, когда дело касается политического опроса, но довольно неоднородно во многих других областях практического применения.

Какую «выборку из популяции» можно было бы выбрать в случае атаки 11 сентября?

Однако еще большая проблема состоит в том, что фреквентистские методы – в своем стремлении создать безупречные статистические процедуры, которые не могут быть испорчены предубеждениями самого исследователя, – вынуждают его герметично закрываться от реального мира. Эти методы не позволяют такому исследователю изучить глубокий контекст или ущербные черты своей гипотезы, то есть то, чего требует байесовский метод в форме априорной вероятности. В результате можно увидеть, на первый взгляд, серьезные научные работы о том, как жабы могут предсказывать землетрясения {587} , или о том, как оптовые магазины типа Target стимулируют создание нетерпимости в обществе {588} . В подобных исследованиях фреквентистские тесты применяются для создания «статистически значимых» (однако, по сути, бессмысленных и даже возмутительных) выводов.

587

R. A. Grant and T. Halliday, «Predicting the Unpredictable: Evidence of Pre-Seismic Anticipatory Behaviour in the Common Toad», Journal of Zoology, 700, January 25, 2010. http://image.guardian.co.uk/sys-f%D0%B0iles/Environment/documents/2010/03/30/toads.pdf.

588

«Hate Group Formation Associated with Big-Box Stores», ScienceNewsline.com, April 11, 2012. http://www.sciencenewsline.com/psychology/2012041121000031.html.