Все лгут. Поисковики, Big Data и Интернет знают о вас всё
Шрифт:
Тем не менее, хоть я и рискую сделать свою любимую бабушку козлом отпущения, научные данные свидетельствуют о том, что ее теория неверна. Команда ученых-компьютерщиков недавно проанализировала самый большой набор фактов о человеческих взаимоотношениях {17} из когда-либо существовавших – Facebook. Они рассмотрели большое количество пар, которые в какой-то момент состояли «в отношениях». Некоторые из этих пар остались в них, другие перешли в статус «одиночка». Как выяснили ученые, наличие общей группы друзей является довольно существенным показателем того, что отношения НЕ продлятся долго. Вероятно, тусоваться каждый вечер со своим партнером и одной и той же небольшой группой людей не так уж здорово, а вот разные круги общения, возможно, помогают укрепить отношения.
17
Lars Backstrom and Jon Kleinberg. «Romantic Partnerships and the Dispersion of Social Ties: A Network Analysis of Relationship Status on Facebook» («Романтические
Как видно, действуя только интуитивно и отказываясь от использования компьютеров, мы, порой, приходим к удивительным результатам. Но это может привести и к серьезным ошибкам. Бабушка, надо полагать, попалась в одну из когнитивных ловушек: иногда мы склонны преувеличивать значение собственного опыта. Если говорить языком специалистов по обработке и анализу данных, мы придаем намного большее значение фактам, взятым из одного источника – нас самих.
Бабушка была настолько сосредоточена на воспоминаниях о ее вечерних встречах с дедушкой и их друзьями, что не уделила достаточного внимания другим парам. Например, она упустила возможность рассмотреть ситуацию со своим деверем и его красоткой-женой, которая весь вечер болтала с небольшой постоянной группой друзей, но часто ссорилась с мужем. В конце концов они развелись. Бабушка забыла полностью рассмотреть историю моих родителей – ее дочери и зятя. Они нередко проводили вечера каждый сам по себе: мой отец играл в джаз-клубе или в мяч со своими друзьями, а мама отправлялась в ресторан или в театр со своими приятельницами, но это не мешало им счастливо прожить много лет в браке.
Полагаясь лишь на свою интуицию, мы также можем быть обмануты базовой человеческой склонностью к драматизации происходящего. Мы любим переоценивать важность всего, что может стать основой для незабываемого сюжета. Например, в ходе одного опроса выяснилось, что торнадо считается более распространенной причиной смерти {18} , чем астма. Хотя на самом деле от астмы умирает примерно в 70 раз больше людей {19} . В смерти от астмы нет ничего впечатляющего, эти случаи не попадают в новости. А вот смерти от торнадо попадают.
18
Kahneman, Thinking, Fast and Slow («Думай медленно, решай быстро»).
19
Между 1979 и 2010 годами, в среднем, 55,81 американцев погибли от ураганов и 4216,53 умерли от астмы. Посмотрите ежегодную статистику США погибших от ураганов в Национальной Метеорологической службе:и тенденцию заболеваемости и смертности от астмы – в американской легочной ассоциации, эпидемиологии и статистики.
Другими словами, полагаясь только на услышанное или на личный опыт, мы часто неправильно судим об устройстве мира. Несмотря на то, что методология правильной работы с фактами так же интуитивна, ее результаты обычно являются парадоксальными. Наука о данных использует естественное и интуитивное человеческое свойство – способность увидеть комбинации и связи и вдохнуть в них смысл, – и наполняет его силой, демонстрируя нам, что мир устроен совершенно не так, как мы думали. Именно это и произошло, когда я исследовал прогностические показатели успешных выступлений в баскетболе.
В детстве у меня была одна, только одна мечта. Я хотел вырасти и стать экономистом и специалистом по обработке и анализу данных. Нет, я, конечно, шучу. Я отчаянно хотел стать профессиональным баскетболистом, чтобы пойти по стопам своего кумира Патрика Юинга {20} , лучшего центрового «Нью-Йорк Никс» всех времен.
Иногда мне кажется, что внутри каждого ученого, занимающегося сбором, изучением и анализом данных, сидит ребенок, пытающийся выяснить, почему его детские мечты не сбываются. Поэтому неудивительно, что в последнее время я внимательно изучал показатели, необходимые для попадания в НБА. Результаты исследования оказались неожиданными. На самом деле они лишний раз продемонстрировали, как серьезная наука о данных может изменить ваше представление о мире и насколько нелогичными могут оказаться цифры.
20
Мое любимое видео Юинга «Patrick Ewing’s Top 10 Career Plays» («10 лучших игр за карьеру Патрика Юинга»), на Ютуб, размещено 18 сентября 2015 года,и «Patrick Ewing Knicks Tribute» видео на Ютуб, опубликовано 12 мая 2006 года, https://www.youtube.com/watch?v=8T2l5Emzu-I.
Я рассмотрел следующий вопрос: у кого больше шансов добиться успеха в НБА – у бедняков или у представителей среднего класса?
Большинство людей полагает, что у первых. Житейская мудрость гласит: те, кто рос в трудных условиях, возможно, родился у одинокой матери-подростка, обретают драйв, необходимый для достижения максимального успеха
Такую точку зрения в интервью «Спортс иллюстрейтед» высказал Уильям Эллерби, школьный тренер по баскетболу в Филадельфии. «Дети из пригородов, как правило, играют для своего удовольствия, – сказал он. – Для городских же детей игра в баскетбол – вопрос жизни и смерти» {21} . Я, увы, был воспитан родителями, счастливо жившими в пригороде Нью-Джерси и состоявшими в браке. Леброн Джеймс, лучший игрок своего поколения, родился в бедной семье у 16-летней матери-одиночки в Акроне, Огайо.
21
S. L. Price, «Whatever Happened to the White Athlete?» («Что случилось с белым спортсменом?»), Sports Illustrated, 8 Декабря 1997 года.
Естественно, по результатам проведенного мной интернет-опроса {22} , я предположил, что большинство американцев думают так же, как тренер Эллерби и я, – что большинство игроков НБА растут в бедности.
Верно ли это расхожее мнение?
Давайте посмотрим на факты. Не существует всеобъемлющего источника данных о социоэкономике игроков НБА. Но, проведя тщательное исследование целой кучи источников (basketball-reference.com, ancestry.com, бюро переписи США и некоторые другие), мы можем понять, какие семьи больше всего способствуют успеху в НБА. Обратите внимание: в этом исследовании были использованы различные источники данных, некоторые побольше, другие поменьше, одни онлайновые, другие – вне Сети. Интересно, что, активно черпая из новых цифровых источников, хороший специалист по анализу данных не гнушается пользоваться и старомодными – если это может принести пользу. Самый лучший способ получить правильный ответ на вопрос – объединить все доступные данные.
22
Этот опрос потребителей Googlee я провел 22 октября 2013 года. Я спросил: «Где, по вашему мнению, родились большинство игроков НБА?» Были два варианта ответов: «бедные кварталы» и «кварталы среднего класса»; 59,7 % опрошенных выбрали «бедный район».
Первая релевантная информация – родина каждого игрока. Сначала я записал, сколько черных и белых мужчин родилось в 1980-х годах в каждом округе США. Затем – сколько из них попали в НБА. При этом сравнил эти данные со средним доходом семьи в соответствующем округе. Я также проконтролировал расовую демографию округа, поскольку (но это тема для другой книги) чернокожие мужчины попадают в НБА примерно в 40 раз чаще, чем белые.
Факты говорят нам о том, что человек имеет значительно больше шансов попасть в НБА, если он родился в более богатом округе. Например, у черного парня, появившегося на свет в одном из самых богатых округов США, вдвое больше шансов попасть в НБА, чем у черного ребенка из беднейшего округа. Вероятность попадания в НБА белого малыша, родившегося в одном из самых богатых округов, на 60 % выше, чем у белого ребенка из самого бедного округа.
Это говорит о том, что, вопреки расхожему мнению, бедные люди на самом деле имеют меньше шансов попасть в НБА. Однако эти данные не идеальны, поскольку многие богатые округи США – такие, например, как графство Нью-Йорк (Манхэттен) – включают в себя и бедные кварталы вроде Гарлема. Поэтому тяжелое детство теоретически все-таки может помочь вам попасть в НБА. Нам все еще нужно больше зацепок, больше данных.
Тогда я начал исследовать семьи игроков НБА. Информацию о них находил в новостях и в социальных сетях. Эта методология оказалась довольно трудоемкой, поэтому я ограничил анализ сотней чернокожих игроков, родившихся в 1980-х годах и набравших на площадке наибольшее количество очков. По сравнению со среднестатистическим афроамериканцем, вероятность рождения суперзвезды НБА у матери-подростка или у незамужней матери на 30 % меньше. Другими словами, семейные обстоятельства лучших чернокожих баскетболистов также позволяют предположить, что хорошая семья для достижения успеха является преимуществом.
Таким образом, ни средний уровень доходов в округе, ни семейный фон ограниченной выборки игроков не дают точной информации о детстве всех баскетболистов. Поэтому я все еще не был уверен в том, что полные семьи со средним доходом производят больше звезд НБА, чем неполные и малообеспеченные. Чем больше фактов мы можем собрать для ответа на этот вопрос, тем лучше.
Потом я вспомнил еще один момент, который мог бы существенно помочь. В работе двух экономистов, Роланда Фрайера и Стивена Льюитта, было высказано предположение, что имя афроамериканца – это показатель его социально-экономического статуса {23} . Фрайер и Льюитт просмотрели свидетельства о рождении в Калифорнии за 1980-е годы и обнаружили, что бедные, необразованные и одинокие чернокожие мамы дают своим детям не такие имена, как родители из среднего класса, образованные и состоящие в браке.
23
Roland G. Fryer Jr. and Steven D. Levitt, «The Causes and Consequences of Distinctively Black Name» («Причины и последствия явно чернокожих имен»), Quarterly Journal of Economics 119, no. 3 (2004).