Сигнал и шум. Почему одни прогнозы сбываются, а другие - нет
Шрифт:
Однако крупного землетрясения в пустыне Мохаве не произошло ни в тот год, ни в последующее десятилетие. Команда Кейлиса-Борока продолжала выступать со своими предсказаниями землетрясений в Калифорнии, Италии и Японии, но без особого успеха: проведенный в 2010 г. анализ показал, что прогнозы оказались точными лишь в трех случаях, а в 23 были ошибочными {351} .
Суматра, Индонезия
Но в предсказаниях землетрясений встречаются ошибки и иного рода: прогнозируется, что в каком-то регионе землетрясение заданной магнитуды маловероятно или невозможно, – а затем оно вдруг происходит. Дэвид Боумэн, бывший ученик Кейлиса-Борока, возглавляющий в настоящее время департамент геологических наук в Университете
351
Zechar and Zhuang, «Risk and Return: Evaluating Reverse Tracing of Precursors Earthquake Predictions».
Методика Боумэна (как и Кейлиса-Борока) базировалась на серьезном математическом аппарате и использовала землетрясения средней силы для предсказаний более значительных {352} . Однако это был более элегантный и амбициозный подход. Боумэн предложил теорию, в рамках которой попытался дать количественную оценку величине напряжения в различных точках в системе разломов. В отличие от подхода Кейлиса-Борока, метод Боумэна позволял предсказывать вероятность землетрясения в любой части разлома. Таким образом, он мог предсказать не только где может произойти землетрясение, но и те участки земной поверхности, где его возникновение было бы маловероятным.
352
Arnaud Mignan, Geoffrey King, and David Bowman, «A Mathematical Formulation of Accelerating Moment Release Based on the Stress Accumulation Model», Journal of Geophysical Research 112, BO7308 (July 10, 2007). http://geology.fullerton.edu/dbowman/Site/Publications_files/Mignan_etal_JGR2007_1.pdf.
Поначалу Боумэн и его команда достигли определенного успеха; его метод позволил выявить зону риска на Суматре, в эпицентре которой в марте 2005 г. произошел серьезный афтершок с измеренной магнитудой 8,6 балла. Однако в научной работе, которую он опубликовал в 2006 г., было высказано предположение, что риск землетрясений в другой части разлома, в Индийском океане недалеко от индонезийской провинции Бенкулу особенно мал {353} . Но уже через год, в сентябре 2007 г., целый ряд землетрясений произошел именно в этой области, причем магнитуда самого сильного из них достигала 8,5 балла. К счастью, землетрясения произошли достаточно далеко от берега и привели к незначительным жертвам. Однако они оказались разрушительными для теории Боумэна.
353
Arnaud Mignan, Geoffrey King, David Bowman, Robin Lacassin, and Renata Dmowska, «Seismic Activity in the Sumatra-Java Region Prior to the December 26, 2004 (Mw=9.0–9.3) and March 28, 2005 (Mw=8.7) Earthquakes», Earth and Planetary Science Letters 244 (March 13, 2006). http://esag.harvard.edu/dmowska/MignanKingBoLaDm_SumatAMR_EPSL06.pdf.
Между молотом и наковальней
После того как его модель потерпела фиаско, в 2007 г. Боумэн поступил так, как редко делают прогнозисты. Вместо того чтобы возложить всю вину на неудачу (его модель допускала некоторую возможность землетрясения около Бенкулу, однако незначительную), он еще раз изучил ее и решил, что его подход к предсказанию землетрясений был фундаментально ошибочным, – после чего сдался.
«Я – несостоявшийся прогнозист, – рассказывал мне Боумэн в 2010 г. – Я совершил смелый и глупый поступок – выступил с предсказанием, которое можно проверить. Именно это, в принципе, мы и должны делать, но, когда предсказания оказываются ошибочными, это приносит боль».
Идея Боумэна заключалась в том, чтобы выделить основополагающие причины землетрясений – и на их основе формулировать прогнозы. В сущности, он хотел понять, каким образом изменяется и распространяется напряжение во всей системе. В основе его подхода лежала теория хаоса.
Сама по себе теория
У сейсмологов нет такого преимущества. «Анализировать климатические системы просто, – размышлял Боумэн. – Если они хотят увидеть, что происходит в атмосфере, им нужно просто посмотреть наверх. Мы же смотрим на лежащий под ногами камень. Большинство событий происходит на глубине 15 м под землей. Если отвлечься от того, что показывают в фантастических фильмах, у нас нет никакой надежды туда попасть. Это – фундаментальная проблема. Нет такого способа, используя который можно было бы напрямую измерить напряжение».
Не обладая теоретическим пониманием, подобным тому, что есть у синоптиков, сейсмологи вынуждены полагаться исключительно на статистические методы предсказания землетрясения. Вы можете ввести статистическую переменную под названием «напряжение» в свою модель, как попытался сделать Боумэн. Однако, поскольку величину этой переменной невозможно измерить напрямую, она может быть выражена исключительно в виде математической функции от параметров прошлых землетрясений. Боумэн полагает, что исключительно статистические подходы подобного рода, с большой долей вероятности, не сработают. «Набор данных содержит огромную долю шума, – полагает он. – При тестировании гипотез мы просто не можем получить статистически значимые результаты».
Процесс, происходящий в системах, основанных на данных с большой долей шума и на не до конца разработанной теории (а таковыми являются предсказания землетрясений или отдельные области экономики и политики), состоит из двух этапов. Сначала люди начинают ошибочно принимать шум за сигнал. После этого возникший шум заполняет журналы, блоги и новости ложными сигналами, подрывающими научное развитие и мешающими нам понимать, как на самом деле работает система.
Оверфиттинг: самая важная научная проблема, о которой вы никогда не слышали
Когда статистики ошибаются и принимают шумы за сигнал, они называют это оверфиттингом [78] . Представьте себе, что вы – мелкий уголовник, а я – ваш босс. Я поручаю вам найти хороший метод подбора цифровых комбинаций для цифровых замков, аналогичных тем, что можно найти в школьных шкафчиках (возможно, мы хотим стащить у школьников деньги, припасенные на обед). Я хочу, чтобы вы нашли способ, позволяющий с высокой вероятностью подобрать нужную комбинацию замков в любое время и в любом месте. Для практики я даю вам три замка – красный, черный и синий.
78
Оверфиттинг (англ. overfitting – сверхточность или сверхподгонка) – в математике так называют явление, когда при построении алгоритма классификации получается алгоритм, который слишком хорошо работает на тестовых примерах, но плохо работает вообще; в статистике так называют статистическую модель, которая слишком хорошо работает на одном массиве данных и плохо на других, в то время как она должна описывать общие закономерности для всех массивов.
Поэкспериментировав с замками в течение нескольких дней, вы возвращаетесь ко мне и рассказываете, что смогли найти ошибкоустойчивое решение. По вашим словам, если замок красный, то правильная комбинация – 27–12–31. Если он черный, то нужно использовать цифры 44–14–19, а если синий – 10–3–32.
На все это я могу сказать только то, что вы не справились с заданием. Очевидно, что вы вычислили, как открыть эти три конкретных замка. Однако вы ничего не сделали для создания теории, позволяющей открывать замки, когда комбинация неизвестна нам заранее. Допустим, я бы хотел узнать, можно ли открывать эти замки с помощью скрепки из хорошей стали или же следует воспользоваться каким-то присущим им механическим дефектом. Даже если бы это вам не удалось, вы могли бы найти какой-то обходной маневр – например, какие-то цифры, которые появляются в комбинациях чаще других. Вы же дали мне слишком конкретное решение для общей проблемы. Это и есть оверфиттинг, и он способен привести к ухудшению любых прогнозов.