Чтение онлайн

на главную - закладки

Жанры

Сигнал и шум. Почему одни прогнозы сбываются, а другие - нет

Сильвер Нейт

Шрифт:

Создание системы прогнозирования для бейсбола

Сколько я себя помню, я всегда был фанатом бейсбола и бейсбольной статистики. Когда мне было шесть лет, команда из моего города – Detroit Tigers – выиграла World Series в 1984 г. Будучи маленьким математическим вундеркиндом, я очень интересовался цифрами, связанными с игрой. В семилетнем возрасте я купил свою первую бейсбольную карточку, в 10 – прочитал первый выпуск Elias Baseball Analyst, а в 12 лет начал создавать свои собственные статистические таблицы (довольно странные – по моим данным выходило, что не полностью проявивший себя игрок Red Sox Тим Найринг был чуть ли не лучшим по итогам нескольких игр).

Мой интерес достиг своего пика в 2002 г. В это время Майкл Льюис напряженно работал над книгой «Moneyball», которой было суждено вскоре стать национальным бестселлером. В этой книге

приводилась хроника жизни команды Oakland Athletics и рассказывалось о ее умеющим использовать статистические данные менеджере Билли Бине.

Примерно в то же время на должность консультанта Red Sox был приглашен Билл Джеймс, который 25 годами ранее открыл эру «Sabermetric» [38] , начав публиковать альманах под названием «Bill James Baseball Abstract». Нездоровая одержимость бейсбольной статистикой внезапно оказалась чем-то большим, чем простое хобби, – и как только я это понял, то сразу же принялся искать новую работу.

38

Джеймс придумал специальный термин «sabermetrics» для описания систематического изучения бейсбола, в первую очередь с помощью статистики. Термин произошел от аббревиатуры SABR (Society of American Baseball Research), названия организации, которая сыграла значительную роль в популяризации работы Джеймса. – Прим. авт.

В течение двух лет после окончания колледжа я жил в Чикаго и работал консультантом по трансфертному ценообразованию в бухгалтерской компании KPMG. Работа довольно неплохая. Мои начальники и коллеги оказались дружелюбными и профессиональными, зарплата вполне достойной, и я чувствовал себя в безопасности.

Однако мое личное представление о по-настоящему вдохновляющей работе заключалось отнюдь не в том, чтобы рассказывать клиентам, как устанавливать цены на фабрике по производству телефонов в Малайзии, чтобы снизить размер налогов, или отправляться в шесть часов утра на самолет в Сен-Луи, чтобы оценить качество контрактов, использовавшихся в работе горнодобывающей компанией.

В этой работе было слишком мало риска, она оказалась чересчур разумной и рутинной для неугомонного 24-летнего человека, и мне стало скучно как никогда. Однако одно из ее преимуществ состояло в том, что у меня оставалась куча свободного времени. Поэтому в свое свободное время я начал создавать разноцветную таблицу, заполняя ее бейсбольной статистикой. Впоследствии именно она легла в основу PECOTA.

Во время учебы в колледже я также начал читать ежегодник «Baseball Prospectus», основанный в 1996 г. Гэри Хакебеем. Этот рыжий человек с неимоверными запасами энергии и сарказма пригласил на работу команду авторов новостной группы newsgroup rec.sport.baseball (бывшей в первые годы интернета авангардом статистического анализа спорта). Хакебей почуял возможность, которую предоставлял в то время рынок: Билл Джеймс перестал публиковать свои Abstracts в 1988 г., а большинство продуктов, призванных его заменить, либо были недостаточно хороши, либо прекратили свое существование во время длительных забастовок бейсболистов в 1994–1995 гг. Первый выпуск «Baseball Prospectus», опубликованный в 1996 г., распечатывался на лазерном принтере, из него по ошибке исчезла вся информация о клубе St. Louis Cardinals, и продано было всего 75 экземпляров. Однако у «Baseball Prospectus» быстро появились свои поклонники, а продажи начали расти в геометрической прогрессии практически каждый год.

«Baseball Prospectus» был настоящей сладостной мечтой любого фаната статистики. В нем собиралось неимоверное количество цифр, не только по игрокам основной лиги, но и по потенциальным игрокам, игравшим во второстепенных командах.

Тексты в бюллетене порой носили эзотерический характер, там часто упоминались герои мультсериала «Симпсоны», допускались шутки о полузабытых порнофильмах 1980-х гг. и даже саркастические оценки нелюбимых издателем менеджеров различных команд.

Однако самыми важными публикациями этого издания были предсказания о том, как будет играть каждый игрок в следующем сезоне. Для этого Хакебей использовал созданную им самим систему под названием Vladimir. Казалось, что она будет следующим шагом в начатой Джеймсом революции.

Хорошая система бейсбольных прогнозов должна выполнять три основные задачи.

1. Принимать во внимание текущий статус статистики игрока.

2. Разделять навыки

и удачу.

3. Понимать, каким образом изменяется результативность игрока по мере его взросления – эта закономерность известна под названием кривой старения.

Первая задача сравнительно проста. Бейсбольные соревнования, наиболее уникальные из основных американских видов спорта, всегда проводились на полях с нестандартными размерами. Среднему игроку значительно проще показывать хорошие результаты в уютном квадратном Фенвей-парке (контуры которого заданы компактными улицами Новой Англии), чем на напоминающем пещеру стадионе «Доджер», окруженном огромными парковками. Наблюдая за тем, как ведут себя игроки при игре дома и в гостях, мы можем рассчитать так называемый фактор парка, позволяющий учитывать степень сложности, с которой сталкивается игрок. Например, Фред Линн, основной игрок Red Sox в 1970-е гг., добивался результата 0,347 во время игр в Фенвей-парке, но его результат на любом другом стадионе был равен лишь 0,264. Аналогичным образом, наблюдая за результатами игроков после перехода из Национальной лиги в Американскую лигу, мы можем довольно четко сказать, какая лига лучше, и оценить силу конкурентной позиции игрока.

Самый масштабный набор данных в мире

Решить вторую задачу – то есть разделить навыки и удачу – намного сложнее. Бейсбол выстроен таким образом, что в краткосрочной перспективе удача играет большую роль – даже лучшие команды проигрывают до трети матчей, и даже лучшие подающие не могут добраться до базы каждые три раза из пяти. Иногда удача не позволяет распознать подлинный уровень навыков игрока даже за целый год. Во время любого сезона бьющий, объективный результат которого 0,275, с вероятностью 10 % может добиться результата 0,300 и, соответственно, с той же вероятностью иметь результат 0,250. И это зависит только от одной лишь удачи {197} .

197

Этот расчет основан на биномиальном распределении, и предполагается, что игрок получает 500 «выходов к бите».

Хорошо продуманная система прогнозирования может оценить, какие статистические показатели сильнее зависят от удачи. Например, среднее количество попаданий битой по мячу более подвержено влиянию ошибок, чем количество хоумранов. Это особенно важно для питчеров [39] , статистика которых невероятно непоследовательна. Если вы хотите предсказать, насколько успешной будет игра питчера, то вам стоит смотреть на количество страйкаутов [40] и уолков [41] , а не на данные о его выигрышах и проигрышах в предыдущем сезоне, поскольку первый набор статистических данных выглядит более последовательным от года к году.

39

Питчер (pitcher) – игрок защищающейся команды, подающий мяч.

40

Страйк (strike) – ситуация в бейсболе, когда бэттер (бьющий) не нанес удара при подаче. Если бьющий набирает три страйка – это называется страйк-аут (strike-out), – бьющий выбывает из игры.

41

Уолк (walk), он же бейс он болс (Base on balls), – количество раз, когда бэттер набирает четыре бола и проходил на первую базу. Бол (ball) – подача, осуществленная питчером, не попавшая в страйк-зону.

Как и при разработке любого прогноза, цель в данном случае состоит в выявлении основополагающей причины – выбивание в аут не позволяет отбивающим игрокам команды соперника добраться до базы, что, в свою очередь, не дает им получить дополнительные очки, а значит – и выиграть матч. Однако чем глубже вы копаете, тем больше шума окажется в системе: результаты питчера определяются не только качеством его ударов, но и факторами, которые он не в состоянии контролировать. Так, отличный питчер команды Seattle Mariners Феликс Эрнандес имел по итогам 2009 г. показатель выигрышей и поражений на уровне 19:5, а в 2010 г. этот показатель был 13:12 – и не потому, что Эрнандес плохо делал свою работу, а потому, что у Mariners’ в 2010 г. был на редкость неудачный состав подающих.

Поделиться:
Популярные книги

Плохой парень, Купидон и я

Уильямс Хасти
Любовные романы:
современные любовные романы
5.00
рейтинг книги
Плохой парень, Купидон и я

Имя нам Легион. Том 8

Дорничев Дмитрий
8. Меж двух миров
Фантастика:
боевая фантастика
рпг
аниме
5.00
рейтинг книги
Имя нам Легион. Том 8

Герцог и я

Куин Джулия
1. Бриджертоны
Любовные романы:
исторические любовные романы
8.92
рейтинг книги
Герцог и я

На границе империй. Том 2

INDIGO
2. Фортуна дама переменчивая
Фантастика:
космическая фантастика
7.35
рейтинг книги
На границе империй. Том 2

Холодный ветер перемен

Иванов Дмитрий
7. Девяностые
Фантастика:
попаданцы
альтернативная история
6.80
рейтинг книги
Холодный ветер перемен

Хозяйка усадьбы, или Графиня поневоле

Рамис Кира
Любовные романы:
любовно-фантастические романы
5.50
рейтинг книги
Хозяйка усадьбы, или Графиня поневоле

Курсант: назад в СССР

Дамиров Рафаэль
1. Курсант
Фантастика:
попаданцы
альтернативная история
7.33
рейтинг книги
Курсант: назад в СССР

Газлайтер. Том 17

Володин Григорий Григорьевич
17. История Телепата
Фантастика:
боевая фантастика
попаданцы
аниме
5.00
рейтинг книги
Газлайтер. Том 17

Последняя Арена 6

Греков Сергей
6. Последняя Арена
Фантастика:
рпг
постапокалипсис
5.00
рейтинг книги
Последняя Арена 6

Последнее желание

Сапковский Анджей
1. Ведьмак
Фантастика:
фэнтези
9.43
рейтинг книги
Последнее желание

Камень Книга двенадцатая

Минин Станислав
12. Камень
Фантастика:
боевая фантастика
городское фэнтези
аниме
фэнтези
5.00
рейтинг книги
Камень Книга двенадцатая

LIVE-RPG. Эволюция-1

Кронос Александр
1. Эволюция. Live-RPG
Фантастика:
социально-философская фантастика
героическая фантастика
киберпанк
7.06
рейтинг книги
LIVE-RPG. Эволюция-1

Двойник Короля

Скабер Артемий
1. Двойник Короля
Фантастика:
попаданцы
аниме
фэнтези
фантастика: прочее
5.00
рейтинг книги
Двойник Короля

Офицер империи

Земляной Андрей Борисович
2. Страж [Земляной]
Фантастика:
боевая фантастика
попаданцы
альтернативная история
6.50
рейтинг книги
Офицер империи