Чтение онлайн

на главную - закладки

Жанры

Сигнал и шум. Почему одни прогнозы сбываются, а другие - нет

Сильвер Нейт

Шрифт:

Но, чтобы войти в число элитных игроков в бейсбол, человек должен обладать широким диапазоном физических и ментальных навыков: мышечной памятью, физической силой, координацией между глазами и руками, скоростью удара битой, распознаванием направления полета мяча и силой воли, позволяющей сохранять концентрацию даже в сложные для команды периоды. Понятие о существовании различных видов кривых старения, вытекающее из созданных системой Vladimir, казалось, более точно отражало всю сложность, присущую человеческой природе.

При разработке PECOTA я попытался заимствовать некоторые элементы у Хакебея, а некоторые – у Билла Джеймса. В выпуске Baseball Abstract за 1986 г. Джеймс представил так называемые оценки подобия, которые (как и предполагает их название) были призваны выявить статистическое подобие между статистикой карьеры любых двух игроков

основной лиги. Концепция была сравнительно простой. Для начала каждому из двух игроков присваивалось по 1000 баллов, а затем при наличии между игроками различий по тому или иному параметру соответствующие баллы вычитались {205} . У игроков с высокой степенью подобия итоговый балл мог составлять 950 или даже 975, однако в других случаях расхождения накапливались достаточно быстро.

205

Bill James, «Whatever Happened to the Hall of Fame», Fireside (1995): p. 89.

Оценки подобия могут оказаться невероятно полезными любому человеку с хорошим знанием истории бейсбола. Вместо того чтобы изучать статистику игрока в вакууме, специалисты могут оценить исторический контекст происходящего. Например, статистические результаты Педройи до достижения им возраста 25 лет были идентичны результатам Рода Кэрью, великого игрока из Панамы, возглавлявшего Minnesota Twins в 1970-х, или результатам Чарли Герингера, звезде команды Tigers времен Великой депрессии. Оценки подобия Джеймса позволяют проводить ретроспективный анализ, предоставляя возможность оценивать прошлые события. Например, с его помощью можно проанализировать, насколько игрок заслуживает, чтобы его приняли в Зал славы.

Если вы считали, что ваш любимый игрок действительно заслуживает это, и могли увидеть, что это удалось 9 из 10 игрокам с идентичной статистикой, то у вас были все шансы верить в успех.

Но можно ли использовать оценки подобия и для предсказания? Например, если мы могли выявить сотню игроков, наиболее сопоставимых с Педройей по возрастным критериям, то в какой степени результаты этих игроков за всю карьеру могли подсказать нам, как будет развиваться карьера Педройи?

Меня заинтересовала эта идея, и так, понемногу, PECOTA начала свое существование в те долгие дни, которые я проводил в KPMG в 2002 г. Она приобрела форму гигантской и разноцветной электронной таблицы Excel. Этот выбор был довольно случайным, поскольку именно Excel был одним из моих основных рабочих инструментов в KPMG (каждый раз, когда мимо моего стола проходил кто-то из начальников, он предполагал, что я усердно тружусь над какой-то особенно сложной моделью для одного из наших клиентов {206} ).

206

Следует, однако, отметить, что для обработки значительного объема фоновых данных PECOTA использовался статистический язык STATA.

Постепенно, отнимая пару часов от работы и по нескольку часов от сна, я смог разработать базу данных, включавшую более чем 10 000 позиций «игрок – сезон» (я учел каждый сезон основной лиги, начиная со времен Второй мировой войны {207} ). Кроме этого, я разработал алгоритм, позволяющий сравнивать любого игрока с другим. Алгоритм был чуть более сложным, чем алгоритм Джеймса, и предполагалось, что он сможет в полной мере воспользоваться изобилием данных, присущих бейсболу. В нем был заложен иной метод сравнения набора игроков, метод, называемый на техническом языке метод ближайшего соседа [44] . Также он учитывал более широкий набор факторов, включая рост и вес игрока, которые обычно принимаются во внимание лишь скаутами.

207

Я выбрал в качестве точки отсечения период Второй мировой войны, поскольку вскоре после нее возник целый ряд нововведений, придавших профессиональному бейсболу нынешний вид. В него стали играть представители других рас, начиная с Джеки Робинсона (1947);

чемпионат был показан по телевидению (1947); команды переместились на Западное побережье (1957); широкое развитие получили ночные матчи, которые появились еще в 1935 г., однако обрели большую популярность во время войны, когда рабочие проводили долгие смены на производстве и хотели как-то расслабиться по ночам.

44

Метод ближайшего соседа относится к классу методов, основанных на хранении данных в памяти для сравнения с новыми элементами. При появлении новой записи для прогнозирования находятся отклонения между этой записью и подобными наборами данных, и наиболее подобная (или ближний сосед) идентифицируется.

Как и система Хакебея, PECOTA предполагала, что различные типы игроков могут стареть по-разному. Однако я не стремился сопоставить игру каждого бейсболиста с одной из 26 кривых развития; более того, сопоставление происходило естественным образом с помощью поиска похожих игроков где-то далеко в статистической галактике бейсбола.

Если, допустим, обнаруживалось, что очень многие игроки, статистические параметры игры которых сопоставимы с данными Дастина Педройи, становились сильными игроками основной лиги, то это давало основания надеяться на успех и самого Педройи.

Однако чаще всего мне не удавалось найти однозначно сопоставимые результаты; пути игроков, имевших одинаковую статистику в определенные периоды их карьеры, могли значительно расходиться после этого. Я уже упоминал, что по оценкам подобия, созданным Джеймсом, Педройя был идентичен Чарли Гейгеру и Роду Кэрью, двум игрокам, имевшим долгую и яркую карьеру и попавшим в конце концов в Зал славы. Однако статистика Педройи за этот период была также идентична статистическим данным Хосе Видро, ничем не примечательного игрока второй базы команды Montreal Expos.

Еще сильнее различия могут проявляться у игроков низших лиг [45] . В 2009 г. среди игроков, которые выявила PECOTA для сопоставления с Джейсоном Хейвардом, 19-летним кандидатом на позицию в команде Atlanta Braves, можно было найти и участника Зала славы, и жертву убийства. Чиппер Джонс, один из близких по показателям к Хейварду игроков, был примером первого варианта. Это один из величайших игроков Atlanta Braves за все времена, он отыграл с клубом 17 сезонов, и его показатель результативности за всю карьеру в среднем составил 0,304. Он принес команде более 450 хоумранов. С другой стороны, система выдала мне имя Дернелла Стенсона, многообещающего молодого человека, чьи показатели были также идентичны цифрам Хейварда. В 2003 г. после одной из тренировочных игр в Аризоне неизвестные связали его, а потом застрелили, угнав при этом его внедорожник. Судя по всему, произошел случайный акт насилия.

45

Низшая лига – лига профессиональных клубов, которые не входят ни в одну из двух высших лиг.

Все сопоставимые с Хейвардом игроки были крупными, сильными спортсменами; они обладали множеством талантов, имели отличные задатки и демонстрировали развитие навыков при играх в небольших лигах. Однако судьба их сложилась совершенно по-разному. Инновационный характер PECOTA был призван признать этот факт: система выдавала диапазон возможных исходов для каждого игрока, основанный на прецедентах с сопоставимыми игроками. По сути, это были наилучший, наихудший и наиболее вероятный сценарий. Но нужно помнить, что каждый раз при попытках предсказать развитие человека нам придется сталкиваться с бесконечным диапазоном возможных исходов.

Пока что для Хейварда все складывалось ни шатко ни валко. После удачного для него 2009 г., когда он был назван «Игроком года в низшей лиге», Хейвард дебютировал в команде Braves в 2010 г. и обеспечил своей команде восемь хоумранов в первых 30 играх в основной лиге. После этого он вошел в состав «Звездной команды», превзойдя все ожидания. Однако сезон 2011 г. оказался для него более сложным, и его результат не превысил 0,227. Хорошая система статистического прогнозирования позволяет сохранять оптимизм даже после выступления Хейварда в сезоне 2011 г. – все его показатели были, по сути, теми же, если не считать результативности ударов по мячу, а этот показатель зависит от удачи значительно больше, чем другие.

Поделиться:
Популярные книги

Возвышение Меркурия. Книга 7

Кронос Александр
7. Меркурий
Фантастика:
героическая фантастика
попаданцы
аниме
5.00
рейтинг книги
Возвышение Меркурия. Книга 7

Темный Лекарь 4

Токсик Саша
4. Темный Лекарь
Фантастика:
фэнтези
аниме
5.00
рейтинг книги
Темный Лекарь 4

Неправильный боец РККА Забабашкин 3

Арх Максим
3. Неправильный солдат Забабашкин
Фантастика:
попаданцы
альтернативная история
5.00
рейтинг книги
Неправильный боец РККА Забабашкин 3

Краш-тест для майора

Рам Янка
3. Серьёзные мальчики в форме
Любовные романы:
современные любовные романы
эро литература
6.25
рейтинг книги
Краш-тест для майора

Позывной "Князь"

Котляров Лев
1. Князь Эгерман
Фантастика:
фэнтези
попаданцы
аниме
5.00
рейтинг книги
Позывной Князь

Имя нам Легион. Том 5

Дорничев Дмитрий
5. Меж двух миров
Фантастика:
боевая фантастика
рпг
аниме
5.00
рейтинг книги
Имя нам Легион. Том 5

Убивать чтобы жить 9

Бор Жорж
9. УЧЖ
Фантастика:
героическая фантастика
боевая фантастика
рпг
5.00
рейтинг книги
Убивать чтобы жить 9

Кодекс Крови. Книга IV

Борзых М.
4. РОС: Кодекс Крови
Фантастика:
фэнтези
попаданцы
аниме
5.00
рейтинг книги
Кодекс Крови. Книга IV

Запечатанный во тьме. Том 1. Тысячи лет кача

NikL
1. Хроники Арнея
Фантастика:
уся
эпическая фантастика
фэнтези
5.00
рейтинг книги
Запечатанный во тьме. Том 1. Тысячи лет кача

Я снова граф. Книга XI

Дрейк Сириус
11. Дорогой барон!
Фантастика:
боевая фантастика
попаданцы
аниме
5.00
рейтинг книги
Я снова граф. Книга XI

Студиозус

Шмаков Алексей Семенович
3. Светлая Тьма
Фантастика:
юмористическое фэнтези
городское фэнтези
аниме
5.00
рейтинг книги
Студиозус

Часовое имя

Щерба Наталья Васильевна
4. Часодеи
Детские:
детская фантастика
9.56
рейтинг книги
Часовое имя

Пустоцвет

Зика Натаэль
Любовные романы:
современные любовные романы
7.73
рейтинг книги
Пустоцвет

Невеста напрокат

Завгородняя Анна Александровна
Любовные романы:
любовно-фантастические романы
6.20
рейтинг книги
Невеста напрокат