Сигнал и шум. Почему одни прогнозы сбываются, а другие - нет
Шрифт:
Остерегайтесь чудодейственных прогнозов
В преддверии выборов 2000 г. экономист Дуглас Хиббс опубликовал модель прогнозирования и заявил, что при ее использовании можно невероятно точно предсказывать итоги президентских выборов, учитывая всего лишь две переменных. Одна из них была связана с экономическим ростом, а вторая – с военными потерями {177} . Хиббс сделал ряд смелых заявлений в стиле «ежа». Он сказал, что рейтинг одобрения деятельности президента (исторически считавшийся надежным индикатором возможности переизбрания) никак не улучшал его прогнозы. Не имели значения ни уровень инфляции, ни уровень безработицы. Не важны были и личности кандидатов – партия могла выдвинуть как идеолога типа Джорджа Макговерна, так и центриста и героя войны наподобие Дуайта Д. Эйхенхауэра. Хиббс утверждал, что вместо всех этих показателей главным критерием выступает довольно туманная экономическая переменная, названная им «реальным располагаемым доходом на душу населения».
177
Douglas A. Hibbs Jr.,
Какие результаты показала эта модель? Она предсказала убедительную победу Ала Гора с перевесом в девять пунктов. Однако выборы после пересчета голосов во Флориде выиграл Джордж У. Буш. Гор доказал свою популярность, однако из модели следовало, что результат будет совершенно иным. Согласно ей, вероятность тех событий, которые произошли на самом деле, составляла лишь 1 к 80 {178} .
Аналогичный подход был использован и в некоторых других моделях. Их создатели утверждали, что смогли свести столь сложный вопрос как президентские выборы, к формуле с двумя переменными (как ни странно, никто из авторов не использовал одни и те же две переменные). Некоторые из них показали еще более неточные результаты, чем метод Хиббса. В 2000 г. одна из этих моделей предсказала победу для Гора с перевесом в 19 пунктов, а шансы на реальный исход составили, согласно ей, всего один к миллиарду {179} .
178
Модель Хиббса предсказывала, что Ал Гор выиграет двухпартийное голосование (то есть голосование, в котором исключены кандидаты третьих партий) с результатом 54,8 %. На самом деле Гор выиграл с результатом 50,3 %. То есть величина ошибки составила 4,5 %. Утверждалось, что его модель имеет стандартную ошибку в пределах 2 пунктов при прогнозировании количества голосов за любого кандидата (или около 4 пунктов при прогнозировании разрыва между ними). Таким образом, прогноз переоценил положение Гора на величину 2,25 стандартного отклонения, что при нормальном распределении возникает лишь 1 раз в 80 случаях.
179
James E. Campbell, «The Referendum That Didn’t Happen: The Forecasts of the 2000 Presidential Election», PS: Political Science & Politics (March 2001). http://cas.buffalo.edu/classes/psc/fczagare/PSC%20504/Campbell.pdf.
Такие модели стали популярными после выборов 1988 г., когда казалось, что фундаментальные показатели на стороне Джорджа Х. У. Буша – экономика пребывала в хорошем состоянии, а уровень популярности республиканского предшественника Буша, Рональда Рейгана, был достаточно высоким, – однако результаты опросов говорили о предпочтении Майкла Дукакиса до последних дней гонки {180} . В конечном счете, Буш одержал легкую победу.
Поскольку эти модели были доступны широкой публике для изучения, их последующие результаты оказались не менее плачевными. В среднем в ходе пяти президентских выборов после 1992 г. типичная модель, основанная на «фундаментальных факторах», – то есть модель, игнорирующая результаты опросов и заявляющая, что способна определить поведение избирателей без их учета, – ошибалась в величине разрыва между основными кандидатами почти на семь пунктов {181} . Модели, основанные на «лисьем» подходе, то есть совмещавшие экономические данные с данными опросов и других источников информации, показали более надежные результаты.
180
Andrew Gelman and Gary King, «Why Are American Presidential Election Campaign Polls So Predictable?» British Journal of Political Science 23, no. 4 (October 1993). http://www.rochester.edu/College/faculty/mperess/ada2007/Gelman_King.pdf.
181
Nate Silver, «Models Based on ‘Fundamentals’ Have Failed at Predicting Presidential Elections», FiveThirtyEight, New York Times, March 26, 2012.
Взвешивайте качественную информацию
Все эти чудодейственные модели прогнозирования провалились, даже несмотря на то что они были количественными и основывались на опубликованной экономической статистике. К количественным относятся и некоторые из самых неудачных прогнозов, описанных мной в этой книге. Например, модели рейтинговых агентств, которые должны быть точными и использовать управляемые данные [27] , оценивали вероятность дефолта, учитывая невыполненные обязательства. Эти модели были неверными и опасными, поскольку основывались на довольно своекорыстном допущении, заключавшемся в том, что риск дефолта для различных закладных не зависит друг от друга, но это предположение не имело никакого смысла при образовании пузырей на рынках жилья и кредитов. Сразу скажу, что я предпочитаю при создании своих прогнозов именно количественный подход. При этом «ежи» берут любую информацию и используют ее для подкрепления своих предубеждений, а «лисы», умеющие взвешивать различные типы информации, могут извлечь немалую пользу из сочетания качественных и количественных факторов.
27
Об управляемых данных говорят, когда вычислительный процесс синхронизируется
Очень мало найдется политических аналитиков, имеющих такое большое количество свидетельств успеха, как дружная команда, управляющая Cook Political Report. Эта группа, созданная в 1984 г. гениальным Чарли Куком, круглолицым уроженцем Луизианы, почти неизвестна за пределами вашингтонских политических кругов. Однако истинные любители политики годами полагаются на прогнозы Кука, и у них редко возникают основания испытать разочарование.
Кук и его команда работают над реализацией одной конкретной миссии – предсказать исход выборов в США, в частности в Конгресс. Это значит, что они выдают прогнозы для всех 435 избирательных кампаний в Конгресс США, а также примерно для 35 кампаний по выборам в Сенат США, проходящих раз в два года.
Предсказание исхода выборов в Сенат или губернаторских выборов – процесс сравнительно простой. Обычно кандидаты достаточно хорошо известны избирателям, а самые важные кампании привлекают широкое внимание и оцениваются многими уважаемыми аналитиками. В этих обстоятельствах представляется довольно сложным предложить более хороший метод объединения результатов опросов, наподобие предложенного мной в модели FiveThirtyEight.
Однако выборы в Конгресс – это совсем иное дело. Кандидаты часто появляются практически из ниоткуда – то могут быть члены городских собраний или владельцы небольших бизнесов, решившие попробовать себя в национальной политике. В некоторых случаях они почти неизвестны избирателям еще за несколько дней перед выборами. При этом избирательные участки размещаются буквально в каждом уголке страны, что сопровождается проявлением огромного количества демографических особенностей. Зачастую опросы на избирательных участках в Конгресс не происходят, а даже если это и бывает, то крайне несистемно и запутанно {182} .
182
В период между 1998 и 2008 гг. ошибка обычного опроса по результатам выборов в Сенат США, проведенного в последние три недели кампании, достигала 5 пунктов, а по результатам выборов в Конгресс США – 5,8 пункта.
Но это не значит, что у аналитиков типа Кука нет вообще никакой информации. На самом деле ее можно найти в изобилии: помимо результатов опросов имеются и демографические сводки по району, и информация о том, как его избиратели голосовали на прошедших выборах. Существуют данные и об общих тенденциях и склонностях к предпочтению той или иной партии по всей стране (в том числе рейтинги одобрения тех или иных кандидатов в президенты). Есть информация и о том, сколько собрано средств, так как об этом партии должны подавать детальную отчетность в Федеральную избирательную комиссию.
Другие типы информации носят более качественный характер, но тем не менее могут быть потенциально полезными. Может ли кандидат считаться хорошим оратором? Насколько пересекается его платформа с особенностями избирательного района? Какой тип рекламных роликов он использует? Политическая кампания представляет собой, по сути, небольшой бизнес, и важный вопрос состоит в том, насколько хорошо кандидат управляет людьми.
Разумеется, если бы вы были «ежом», не умеющим тщательно взвешивать информацию, она бы вся показалась вам лишь источником дополнительных проблем. Однако компания Cook Political имеет немалый опыт в создании прогнозов, а ее прогнозы довольно часто оказываются правильными.
Cook Political оценивает предвыборные кампании по семибалльной шкале, начиная от «Солидного преимущества республиканцев» (это означает, что данную кампанию почти гарантированно выиграет республиканский кандидат) до «Солидного преимущества демократов» (с обратным исходом). За период между 1998 и 2010 гг. кампании, отнесенные Cook к группе «Солидное преимущество республиканцев», действительно были выиграны республиканскими кандидатами 1205 раз из 1207 – то есть более чем в 99 % случаев. Аналогично, кампании, которые они отнесли к группе «Солидное преимущество демократов», были выиграны демократами в 1226 из 1229 случаев.
Большинство кампаний, которые Cook относит к группам «Солидного преимущества», происходят в районах, где одна и та же партия каждый год выигрывает со значительным перевесом, – их исход несложно предсказать. Однако Cook Political удается добиваться отличных результатов даже тогда, когда в ходе кампаний прогнозирование результатов требует значительно более серьезных навыков. Например, кампании, которые можно было назвать «склоняющимися» в сторону республиканских кандидатов, были выиграны республиканцами примерно в 95 % случаев. Аналогичным образом, «склоняющаяся» в сторону демократов кампания приводила к выигрышу демократов в 92 % случаев {183} . Более того, Cook удается спрогнозировать правильный результат даже тогда, когда он расходится с такими количественными индикаторами, как опросы {184} .
183
В качестве достаточно мягкого критического замечания можно сказать, что Cook Political относит к категории неопределенных слишком много кампаний, даже когда имеется достаточное количество свидетельств об умеренном превосходстве того или иного кандидата. Методология FiveThirtyEight, определяющая номинального фаворита во всех гонках вне зависимости от величины превосходства, позволила точно выявить победителя в 38 из 50 кампаний (76 %), которые Cook Political в 2010 г. охарактеризовала как неопределенные.
184
В период между 1998 и 2010 гг. имелось 17 примеров, в которых Cook классифицировала кампанию одним образом (например, отдавая предпочтение демократу), хотя среднее по итогам опросов приходило к обратному заключению (иногда демонстрируя незначительное превосходство республиканца). Прогнозы Cook оказались правильными в 13 из 17 таких случаев.