Чтение онлайн

на главную - закладки

Жанры

Все лгут. Поисковики, Big Data и Интернет знают о вас всё
Шрифт:

Однажды вечером Джефф пригласил меня в свой номер в отеле «Хилтон» в Окале. Там он рассказал мне о своих детстве, семье и карьере. Показал фотографии жены, дочери и сына. Сказал, что был одним из трех еврейских учеников, перешедших в старшие классы в школе в Филадельфии, и что по окончании школы его рост был 145 см (позже, в колледже, он вырос до 173 см). Рассказал о своей любимой лошади Pinky Pizwaanski. Седер купил и назвал ее в честь одного гея-жокея. Он чувствовал, что Pinky-конь всегда старался изо всех сил, даже если и не был самым успешным.

И наконец, Седер показал мне файл, в котором содержались все данные о коне № 85, – файл, ставший наиболее успешным прогнозом в его карьере. Он разглашал свой секрет? Возможно. Но Джефф сказал, что

его это не волнует. Важнее сохранения секрета для него было доказать свою правоту, показать всему миру, что эти 20 лет копания во внутренностях, выгребания навоза и таскания с собой аппарата УЗИ принесли наконец результат.

Вот некоторые сведения о лошади № 85.

№ 85 (позже Американский Фараон), однолетка

Здесь четко и ясно видно, почему Седер и его команда так одержимо рекомендовали № 85. Процентиль его левого желудочка составлял 99,61!

Не только левый желудочек, но и все остальные важные органы, включая сердце и селезенку, были исключительно крупными. Вообще говоря, Седер обнаружил: когда дело касается скачек, чем больше левый желудочек, тем лучше. Но его размер может быть и признаком болезни – если другие органы невелики. У Американского Фараона все наиболее важные органы были больше среднего размера, а левый желудочек был просто огромен. Данные кричали о том, что № 85 уникален, таких лошадей была одна на 100 тысяч или даже на миллион.

Какую информацию ученые могут извлечь из проекта Седера?

Первое и, пожалуй, самое главное. Если вы собираетесь попробовать использовать новые данные для революционного улучшения ситуации, лучше сперва задаться вопросом: где не срабатывают старые методы? Одержимость агентов-лошадников родословными оставила Седеру достаточно места для маневра. То же самое можно сказать и о победе Google над поисковыми системами, одержимыми подсчетом слов.

Одним из недостатков в попытке Google предсказать приближение эпидемии гриппа {56} , используя данные поисковых запросов, было то, что вы можете сделать это очень хорошо и сами – просто используя данные прошлой недели и добавив сезонные корректировки. До сих пор ведутся споры о том, насколько сведения, полученные на основании поисковых запросов, лучше простой, но мощной модели. На мой взгляд, поиск в Google практичнее для измерения состояний, для которых существующие данные не столь показательны. Поэтому Google STD в долгосрочной перспективе может оказаться более полезным, чем Google Flu.

56

См. Sherry Ross, «Малышка на 16 миллионов», New York Daily News, 12 марта 2006 года, и Jay Privman, «The Green Monkey, Who Sold for $16M, Retired» («Зеленая мартышка, которая была продана за 16 млн долларов, отправилась на отдых»), ESPN.com, 12 февраля 2008 года,Видео аукциона «Лошадь за 16 млн долларов», видео на Ютуб, опубликовано 1 ноября 2008 года, https://www.youtube.com/watch?v=EyggMC85Zsg.

Второй урок заключается в том, что при попытке сделать прогноз не нужно всерьез задаваться вопросом, почему ваша модель работает. Седер не может полностью объяснить, почему левый желудочек имеет столь важное значение при прогнозировании успеха лошади. Он также не в состоянии точно сказать, почему на успех влияет именно величина селезенки. Возможно, когда-нибудь лошадиные кардиологи и гематологи и дадут ответ на эти вопросы. Но сейчас это не важно. Седер занимается прогнозированием успеха, а не его объяснением. То есть вы просто должны знать, что это работает, и не пытаться понять почему.

Например, Walmart

использует данные о продажах во всех своих магазинах, чтобы знать, какие продукты следует пока отложить. До урагана Фрэнсис – разрушительного шторма, обрушившегося на юго-восток США в 2004 году, – компания Walmart подозревала (и совершенно справедливо), что, когда город переживет удар стихии, покупательские привычки людей могут измениться. Эксперты компании изучили данные по продажам после предыдущих ураганов, стараясь понять, что именно люди, возможно, захотят купить. Какой товар оказался самым популярным? Клубничное печенье. За несколько дней до урагана этот продукт продается в семь раз быстрее, чем обычно.

На основе проведенного анализа в супермаркеты вдоль 95-го шоссе (по пути урагана) поехали грузовики с клубничным печеньем «Поп-Тартс» {57} . И действительно: в эти дни оно продавалось особенно хорошо.

Почему печенье «Поп-Тартс»? Наверное, потому, что оно не требует охлаждения или приготовления.

Почему клубничное? Понятия не имею. Но когда проносятся ураганы, люди сметают клубничное печенье.

Поэтому теперь за несколько дней до очередного урагана Walmart обязательно увеличивает количество этого продукта на полках. Причина взаимосвязи урагана с клубничным вкусом не имеет значения. Важно само ее наличие. Возможно, однажды ученые-диетологи выяснят связь между ураганами и выпечкой с начинкой из клубничного джема. Однако пока мы ждем объяснений, при приближении ураганов Walmart будет по-прежнему заполнять свои полки клубничным «Поп-Тартс» и приберегать рисовые хлебцы для солнечных дней.

57

Sharad Goel, Jake M. Hofman, Sebastien Lahaie, David M. Pennock, and Duncan J. Watts, «Predicting Consumer Behavior with Web Search» («Прогнозирование поведения потребителя на базе веб-поиска»), Proceedings of the National Academy of Sciences 107, no. 41 (2010).

Такой же вывод можно сделать и из истории экономиста из Принстона Орли Эшенфелтера. То, чем для Седера были лошади, для Эшенфелтера было вино.

Немногим более 10 лет назад Эшенфелтер испытывал сильное раздражение. Он покупал много красного вина из региона Бордо во Франции. Иногда оно было вкусным и достойным своей высокой цены, но неоднократно случалось так, что оно вызывало сильное разочарование.

Почему, спрашивал Эшенфелтер, он должен платить одну и ту же цену за вино, вкус которого так сильно разнится?

Однажды Орли получил совет от знакомого журналиста и знатока вин. Существует способ выяснить, будет ли вино хорошим. Ключевым моментом, сказал друг Эшенфелтера, является погода во время вегетации винограда.

Орли заинтересовался. И начал выяснять, правда это или нет и не может ли он всегда покупать самое лучшее вино. Он скачал данные о погоде в Бордо за 30 лет. Собрал аукционные цены на вина: аукционы, проходящие через много лет после первой продажи вина, показывают, каким оно на самом деле было.

Результат оказался просто удивительным. Действительно, по большей части, качество вина может быть объяснено погодой во время вегетации. Фактически же его можно определить с помощью простой формулы, которую мы могли бы назвать первым законом виноградарства:

Цена = 12,145 + 0,00117 зимних дождей + 0,0614 средний рост температуры за сезон – 0,00386 дожди во время сбора.

Так почему же качество вина в Бордо определяется таким образом? Чем объясняется первый закон виноградарства? Есть некое объяснение формулы хорошего вина Эшенфелтера: тепло и ранний полив необходимы для того, чтобы виноград правильно созревал. Однако точные сведения о его прогностической формуле выходят за рамки любой теории и, вероятно, никогда не будут поняты до конца даже специалистами в этой области.

Поделиться:
Популярные книги

Камень Книга одиннадцатая

Минин Станислав
11. Камень
Фантастика:
фэнтези
аниме
5.00
рейтинг книги
Камень Книга одиннадцатая

Купец VI ранга

Вяч Павел
6. Купец
Фантастика:
попаданцы
аниме
фэнтези
5.00
рейтинг книги
Купец VI ранга

Попаданка в деле, или Ваш любимый доктор

Марей Соня
1. Попаданка в деле, или Ваш любимый доктор
Фантастика:
фэнтези
5.50
рейтинг книги
Попаданка в деле, или Ваш любимый доктор

Связанные Долгом

Рейли Кора
2. Рожденные в крови
Любовные романы:
современные любовные романы
остросюжетные любовные романы
эро литература
4.60
рейтинг книги
Связанные Долгом

Довлатов. Сонный лекарь

Голд Джон
1. Не вывожу
Фантастика:
альтернативная история
аниме
5.00
рейтинг книги
Довлатов. Сонный лекарь

Пышка и Герцог

Ордина Ирина
Фантастика:
юмористическое фэнтези
историческое фэнтези
фэнтези
5.00
рейтинг книги
Пышка и Герцог

В погоне за женой, или Как укротить попаданку

Орлова Алёна
Фантастика:
фэнтези
6.62
рейтинг книги
В погоне за женой, или Как укротить попаданку

Город Богов

Парсиев Дмитрий
1. Профсоюз водителей грузовых драконов
Фантастика:
юмористическая фантастика
детективная фантастика
попаданцы
5.00
рейтинг книги
Город Богов

Убивать, чтобы жить

Бор Жорж
1. УЧЖ
Фантастика:
героическая фантастика
боевая фантастика
рпг
5.00
рейтинг книги
Убивать, чтобы жить

Попаданка 2

Ахминеева Нина
2. Двойная звезда
Любовные романы:
любовно-фантастические романы
5.00
рейтинг книги
Попаданка 2

Газлайтер. Том 10

Володин Григорий
10. История Телепата
Фантастика:
боевая фантастика
5.00
рейтинг книги
Газлайтер. Том 10

Я уже князь. Книга XIX

Дрейк Сириус
19. Дорогой барон!
Фантастика:
юмористическое фэнтези
попаданцы
аниме
5.00
рейтинг книги
Я уже князь. Книга XIX

Вечный. Книга II

Рокотов Алексей
2. Вечный
Фантастика:
боевая фантастика
попаданцы
рпг
5.00
рейтинг книги
Вечный. Книга II

Товарищ "Чума" 5

lanpirot
5. Товарищ "Чума"
Фантастика:
городское фэнтези
попаданцы
альтернативная история
5.00
рейтинг книги
Товарищ Чума 5