Все лгут. Поисковики, Big Data и Интернет знают о вас всё
Шрифт:
Я пока не в состоянии использовать все эти беспрецедентные данные о сексуальности взрослых для определения, как именно формируются сексуальные предпочтения. В течение следующих нескольких десятилетий социологи – и я в том числе – смогут создать новые опровергаемые теории о сексуальности взрослых людей и проверить их с помощью фактов.
Но уже сейчас могу предсказать некоторые основные темы, которые, несомненно, станут частью теории о взрослой сексуальности, возникшей на базе большого объема данных. Она явно не будет идентична теории Фрейда с его отдельными, четко определенными универсальными стадиями детства и подавления. Но, основываясь на моем первом обзоре данных PornHub, я абсолютно уверен: в окончательный вердикт о взрослой сексуальности некоторые ключевые обозначенные Фрейдом темы обязательно будут включены. Главную роль будет играть детство человека. И его мать.
Наверное, еще десять лет назад было бы невозможно анализировать
Помните, мы уже говорили, что даже наличие целой россыпи фактов само по себе не позволит нам автоматически генерировать полезные выводы. Ученые переоценили объем данных. Но почему же тогда большие данные настолько могущественны? Почему они оказались способными революционно преобразовать наше видение самих себя? Я утверждаю, что существуют четыре уникальные особенности больших данных, и анализ Фрейда способен отлично проиллюстрировать это.
Прежде всего, вы, наверное, заметили: обсуждая теории Фрейда, мы довольно серьезно отнеслись к порнографии. Более того, в этой книге мы намерены достаточно часто обращаться к анализу порносайтов. Это довольно странно, ведь данные, полученные из такого источника, редко используются большинством ученых. Последние обычно удобно опираются на результаты традиционных опросов – и именно на них выстраивают свои карьеры. Но если немного подумать, становится ясно, что широкое использование данных порносайтов (а также поиск по ним и обработка полученных таким образом сведений) позволяет лучше понять человеческую сексуальность. На самом деле это, наверное, самое важное на свете. Получив такие данные, Шопенгауэр, Ницше, Фрейд и Фуко визжали бы от восторга, однако в то время, когда они жили, подобных данных не существовало. Их не было еще пару десятилетий назад, но они есть сейчас. Существует множество уникальных источников информации по различным темам, открывающих нам глаза в областях, о которых ранее мы могли только догадываться. Способность предложить нам новые типы фактов – первая могущественная особенность больших данных.
Данные порносайтов и поисковых запросов Google не только новые, они самые правдивые. В доцифровое время люди прятали свои постыдные мысли от других. В эпоху цифровых технологий они продолжают их прятать – но не от интернета и, в частности, не от сайтов вроде Google и PornHub, где поддерживается анонимность. Подобные сайты играют роль своего рода цифровой сыворотки правды – именно это позволило нам открыть популярность темы инцеста. Большие данные позволяют нам наконец увидеть, чего люди хотят на самом деле, а не то, что они говорят или делают. Предоставление самых правдивых фактов является второй могущественной особенностью больших данных.
Поскольку сейчас существует огромное количество разнообразных сведений, можно найти содержательную информацию даже о самом небольшом популяционном срезе. Мы в состоянии сравнить, скажем, количество людей, видящих во сне огурцы, с теми, кто видит во сне помидоры. Возможность пристально вглядеться в самые мелкие подмножества людских сообществ – это третья могущественная особенность больших данных.
Большие данные обладают еще одной внушительной возможностью – той, которую я не использовал в своем кратком исследовании теории Фрейда, но которую я наверняка применю в будущем: она дает возможность проводить быстрые контролируемые эксперименты. Это позволяет определить причинно-следственную связь, а не просто корреляцию. Такие тесты в основном используются коммерческими предприятиями, но они станут мощным инструментом в руках социологов. Возможность проводить многочисленные причинно-следственные эксперименты – это четвертая могущественная особенность больших данных.
Теперь пришло время более подробно поговорить о каждой из этих великолепных особенностей и разобраться, почему большие данные настолько важны.
Глава 3
Переосмысление данных
В 6 часов утра в определенную пятницу каждого месяца улицы большей части Манхэттена будут практически пустыми. Магазины будут закрыты, их фасады скрыты за стальными ставнями, а в квартирах над ними будет темно и тихо.
Напротив, все этажи здания Goldman Sachs, всемирно известного инвестиционного банковского учреждения, расположенного в Нижнем Манхэттене, будут ярко освещены, его лифты будут сновать туда-сюда, поднимая тысячи людей, едущих к своему рабочему месту. К 7 утра большинство столов будут заняты.
Можно без сомнения назвать этот час здесь в любой другой день сонным. Однако в эту пятницу тут будут кипеть энергия и азарт, потому что в этот день должна прибыть информация, которая окажет значительное влияние на фондовый рынок.
Через несколько минут после появления она будет растиражирована
42
Matthew Leising, «HFT Treasury Trading Hurts Market When News is Released» («Как показывают данные, HFT Treasury Trading наносит удар по рынку»), Bloomberg Markets, 16 декабря, 2014 года; Nathaniel Popper, «The Robots Are Coming for Wall Street» («Роботы идут на Уолл-Стрит»), New York Times Magazine, 28 февраля 2016, MM56; Richard Finger, «High Frequency Trading: Is It a Dark Force Against Ordinary Human Traders and Investors?» («Высокочастотная торговля: это темные силы против простых трейдеров, и инвесторов?») Forbes, 30 сентября 2013 года, http://www.forbes.com/sites/richardfinger/2013/09/30/high-frequency-trading-is-it-a-dark-force-against-ordinary-human-traders-and-investors/#50875fc751a6.
Так что это за важные данные, которые так ценны для Goldman и ряда других финансовых институтов?
Месячная ставка по безработице.
Эта ставка, однако, оказывает такое огромное влияние на фондовый рынок, что финансовые учреждения сделали все от них зависящее для увеличения скорости получения этих данных, их анализа и реагирования в соответствии с полученной информацией. Последняя является результатом телефонного опроса, который проводит Бюро статистики труда, и к моменту опубликования она уже устареет примерно на три недели – или 2 миллиарда миллисекунд.
При том что фирмы тратят миллионы долларов для ускорения поступления потока информации на миллисекунды, вам может показаться более чем странным тот факт, что правительству для вычисления уровня безработицы требуется так много времени.
Действительно, ускорение получения этих цифр было одним из самых важных пунктов в повестке дня Алана Крюгера {43} , когда он в 2011 году занял пост председателя президентского совета по экономике США при Бараке Обаме. Это ему не удалось. «Либо BLS (Бюро трудовой статистики Министерства труда США) не хватает ресурсов, – заключил он, – либо их мышление застряло в XX веке».
43
Я брал интервью у Алана Крюгера по телефону 8 мая 2015 года.
Поскольку правительство в ближайшее время явно не наберет нужный темп, возникает вопрос: есть ли способ быстрее получить хотя бы приблизительное представление о статистике безработицы? В нашу высокотехнологичную эпоху, когда почти каждый клик любого человека в интернете где-то записывается, неужели нам действительно придется ждать несколько недель, чтобы выяснить, сколько людей остались без работы?
Одно из возможных решений родилось под влиянием работы бывшего инженера компании Google Джереми Гинзберга. Он заметил, что данные о состоянии здоровья, как и сведения по безработице, правительство выпускает с задержкой. Центрам по контролю и профилактике заболеваний требуется неделя для подготовки данных об эпидемии гриппа {44} , хотя врачам и больницам было бы полезно иметь такие сведения как можно раньше.
44
Исходный документ – Jeremy Ginsberg, Matthew H. Mohebbi, Rajan S. Patel, Lynnette Brammer, Mark S. Smolinski, and Larry Brilliant, «Detecting Influenza Epidemics Using Search Engine Query Data» («Обнаружение эпидемий гриппа с помощью поискового запроса данных») Nature 457, no. 7232 (2009). Недостатки в исходной модели обсуждались в David Lazer, Ryan Kennedy, Gary King, and Alessandro Vespignani, «The Parable of Google Flu: Traps in Big Data Analysis» («Притча о гриппе в Google: ловушки в анализе Больших Данных»), Science 343, no. 6176 (2014). Исправленная модель представлена ShihaoYang, Mauricio Santillana, and S. C. Kou, «Accurate Estimation of Influenza Epidemics Using Google Search Data Via ARGO» («Точная оценка эпидемии гриппа с использованием данных поиска в Googleе и с помощью «АРГО»), Proceedings of the National Academy of Sciences 112, no. 47 (2015).