Чтение онлайн

на главную - закладки

Жанры

Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры
Шрифт:

Сотрудники компании Google под руководством программиста Джереми Гинсбурга обратили внимание, что люди значительно чаще ищут информацию о симптомах гриппа, его осложнениях и методах лечения во время эпидемии [21] . Они воспользовались этим вполне очевидным фактом для решения более важной задачи – создания системы, изучающей в режиме реального времени, что ищут через Google жители определенного региона, и позволяющей предсказать возникновение эпидемии гриппа. Эта система раннего предупреждения смогла выявлять новые эпидемии значительно быстрее, чем Центры по контролю и профилактике заболеваний США (несмотря на тот факт, что у этих центров имеется разветвленная и дорогостоящая инфраструктура для решения именно этой задачи).

21

См. Ginsberg Jeremy et al. Detecting Influenze Epidemics Using Search Engine Query Data // Nature 457 (2009). P. 1012–1014. Доступно в сети Интернет: http://goo.gl/WHEWW.

Радж

Четти, экономист из Гарварда, обратился к налоговой службе США [22] . Он убедил их поделиться информацией о миллионах учащихся, посещавших учебное заведение в определенном городском районе. Вместе со своими соратниками он сопоставил эту информацию с данными из базы школьного совета (в которой фиксировалась информация о школьных заданиях). Таким образом, команда Четти знала, кто учится у тех или иных учителей. На основании всей полученной информации был проведен ряд интереснейших исследований долгосрочного влияния со стороны хороших учителей, а также политических нововведений. Они обнаружили, что работа хорошего учителя сказывается на желании учащихся продолжить учебу в колледже, на величине их дохода через много лет после окончания школы и даже на том, какова вероятность, что они поселятся в том или ином престижном районе. Затем на основании полученных выводов исследователи сформулировали рекомендации по повышению эффективности работы педагогов. В 2013 году Четти также получил медаль Джона Бейтса Кларка.

22

См. Chetty Raj, Friedman John N., Rockoff Jonah E. The Long-Term Impacts of Teachers // National Bureau of Economic Research (декабрь 2011 г.), доступно в сети Интернет:Chetty Raj et al. How Does Your Kindergarten Classroom Affect Your Earnings? // National Bureau of Economic Research (март 2011 г.), доступно в сети Интернет: http://goo.gl/N9O6a.

А один из основателей знаменитого блога Five Thirty Eight, бывший бейсбольный аналитик по имени Нейт Сильвер, решил выяснить, можно ли применить подход на основе больших данных для предсказания победителей национальных выборов [23] . Сильвер собрал данные, связанные с голосованием, из множества источников: Gallup, Rasmussen, RAND, Mellman, CNN и других. Используя эти данные, он совершенно точно предсказал, что Обама выиграет выборы 2008 года, а также точно спрогнозировал результаты голосования в коллегиях выборщиков 49 штатов и округа Колумбия. Единственным штатом, с которым он ошибся, была Индиана. Улучшать в системе было особенно нечего, однако ему все равно удалось это сделать. Утром в день голосования в 2012 году Сильвер объявил, что Обама с вероятностью 90,9% выиграет у Ромни, и точно предсказал победителя выборов в округе Колумбия и каждом из штатов (включая, конечно же, Индиану).

23

См. Silver Nate. FiveThirtyEight, URL:Silver Nate. The Signal and the Noise. New York: Penguin, 2012.

Этот список можно продолжать до бесконечности. Используя большие данные, исследователи в наши дни проводят эксперименты, о которых их предшественники не могли и мечтать.

Библиотека всего

В настоящей книге описывается история одного из таких экспериментов.

Объектом наших наблюдений были не люди, лягушки, молекулы или атомы. Эксперимент был связан с одним из самых потрясающих массивов данных в истории самой истории – цифровой библиотекой, цель которой (если верить ее создателям) состоит в том, чтобы включить все когда-либо написанные книги [24] .

24

Что имеется в виду? Нет смысла оцифровывать каждую копию каждой книги из когда-либо написанных, хотя заметки на полях порой могут оказаться довольно увлекательными. См. Grafton Anthony, Weinberg Joanna. I Have Always Loved the Holy Tongue. Cambridge, MA: Harvard University Press, 2011. С другой стороны, многие издания наиболее знаменитых работ, переиздававшихся на протяжении столетий, порой очень отличаются. И эти различия могут быть весьма серьезными. См., к примеру, Rumsey Eric. Google Book Search: Multiple Editions Give Quirky Results // Seeing the Picture (12 октября 2010 г.), URL:В случае Google Books цель состоит в оцифровке одной копии каждого издания каждой книги.

Как же возникла эта замечательная библиотека?

В 1996 году два старшекурсника из Стэнфорда, изучавших компьютерные технологии, работали над приостановленным ныне проектом, известным как Stanford Digital Library Technologies Project [25] . Цель проекта состояла в разработке прототипа библиотеки будущего, способной интегрировать мир книг с миром глобальной Сети. Студенты работали над инструментом, дающим пользователям возможность изучать библиотечные коллекции, перемещаясь от книги к книге в киберпространстве. Однако сделать это на практике было практически невозможно, поскольку в цифровом виде имелось довольно мало книг. Поэтому двое студентов применили свои идеи и навыки для перехода от одного текста к другому (по следу больших данных во Всемирной паутине), а затем превратили свою работу в небольшую поисковую машину, которую назвали Google.

25

См. The Stanford Digital Library Technologies Project // Stanford University, URL:Google Books History // Google Books, URL: http://goo.gl/ueobb.

К 2004

году проект, о котором заявляла компания Google – по «упорядочиванию всей имеющейся в мире информации», – уже реализовывался вполне успешно, благодаря чему у основателя компании Ларри Пейджа нашлось достаточно свободного времени, чтобы вернуться к своей первой любви – библиотекам. Как ни печально, но и к тому моменту количество книг, доступных в цифровой форме, оставалось незначительным. Однако изменилось другое – теперь Пейдж стал миллиардером. Поэтому он решил, что Google стоит заняться бизнесом по сканированию и оцифровке книг. И Пейдж подумал, что Google вполне по силам оцифровать все книги в мире.

Слишком смело? Несомненно. Однако компания Google лихо принялась за дело. Через девять лет после публичного заявления о начале проекта Google оцифровала более 30 миллионов книг [26] . Это примерно каждая четвертая когда-либо опубликованная книга. Коллекция Google превышает по своему размеру коллекцию Гарвардского университета (17 миллионов томов), Стэнфорда (9 миллионов), оксфордской Бодлианской библиотеки (11 миллионов) или любой другой университетской библиотеки. В ней больше книг, чем в Российской государственной библиотеке (15 миллионов), Национальной библиотеке Китая (26 миллионов) и Национальной библиотеке Германии (25 миллионов). На момент написания этой книги единственной библиотекой, в которой хранилось еще больше книг, была Библиотека Конгресса США (33 миллиона). Не исключено, что к тому моменту, как вы прочтете эти строки, Google удастся обогнать и ее.

26

Отчасти по причинам, приведенным выше, а отчасти и из-за расплывчатости определения книги как физического объекта подсчет количества книг в обычной библиотеке может оказаться непростым делом. Поэтому данные о коллекции каждой библиотеки были взяты со страницы в «Википедии» по состоянию на 18 июля 2013 г. Стоит отметить, что эти цифры не всегда актуальны. Также нужно оговориться, что Стэнфорд уже начинает закрывать физические библиотеки и заменять их «библиотеками без книг». См. Krieger Lisa M. Stanford University Prepares for the «Bookless Library» // San Jose Mercury News (18 мая 2010 г.), доступно в сети Интернет: http://goo.gl/yauezp.

Длинные данные

О начале работы проекта Google Books мы, как и все остальные, узнали из новостей. Однако лишь через два года, в 2006 году, влияние Google стало ощущаться в реальной жизни. В то время мы завершали научное исследование по английской грамматике. Для нее мы оцифровали вручную несколько учебников по грамматике староанглийского.

Самые нужные нам книги таились в дальних углах гарвардской Вайднеровской библиотеки. Вот как их можно найти. Сначала вам нужно подняться на второй этаж восточного крыла библиотеки. Затем пройти мимо «Рузвельтовской коллекции» и раздела, посвященного языкам американских индейцев. Там вы увидите проход с номерами каталога от 8900 и далее. Наши книги располагались на второй полке сверху.

На протяжении ряда лет, работая над своим исследованием, мы туда регулярно приходили. Мы были единственными, кто вытаскивал эти книги с полок за много лет, а то и десятилетий. Никого, кроме нас, не интересовала эта полка.

В один прекрасный день мы заметили, что книга, которой мы регулярно пользовались в своих исследованиях, появилась в Интернете как часть проекта Google Books. Заинтересовавшись, мы начали искать там и другие книги с нашей полки. Оказалось, что и они там уже есть. И дело вовсе не в том, что корпорацию Google так сильно заботит средневековая английская грамматика. В сущности, почти у каждой из проверенных нами книг, вне зависимости от полки, теперь появился цифровой близнец [27] . За то время, которое нам потребовалось для изучения нескольких книг, Google успела оцифровать содержимое нескольких зданий.

27

См., к примеру, оцифрованное издание книги Klipstein Louis F. Grammar of the Anglo-Saxon Language. New York: George P. Putnam, 1848, доступно в сети Интернет:Стоит отметить, что из юридических и этических опасений Гарвард принял решение выйти из программы Google Books, позволив Google произвести оцифровку лишь материалов, не защищенных копирайтом. См. Mirviss Laura G. Harvard-Google Online Book Deal at Risk // Harvard Crimson (30 октября 2008 г.), доступно в сети Интернет: http://goo.gl/0tYflD.

Усилия компании Google позволяли получить совершенно новый тип больших данных и даже изменить то, как люди оценивают свое прошлое. В основном большие данные являются большими, но «короткими» – это недавние записи, фиксирующие недавние события. Это связано с тем, что создание данных катализируется Интернетом, сравнительно недавним изобретением. Наша цель состояла в изучении культурных изменений, которые могут охватывать длительные периоды времени по мере того, как целые поколения людей живут и умирают. Когда речь заходит об изучении изменений в историческом масштабе, короткие данные, вне зависимости от степени своей обширности, нам мало чем помогут.

Поделиться:
Популярные книги

Войны Наследников

Тарс Элиан
9. Десять Принцев Российской Империи
Фантастика:
городское фэнтези
попаданцы
аниме
5.00
рейтинг книги
Войны Наследников

Я снова граф. Книга XI

Дрейк Сириус
11. Дорогой барон!
Фантастика:
боевая фантастика
попаданцы
аниме
5.00
рейтинг книги
Я снова граф. Книга XI

Сколько стоит любовь

Завгородняя Анна Александровна
Любовные романы:
любовно-фантастические романы
6.22
рейтинг книги
Сколько стоит любовь

Кодекс Охотника. Книга X

Винокуров Юрий
10. Кодекс Охотника
Фантастика:
фэнтези
попаданцы
аниме
6.25
рейтинг книги
Кодекс Охотника. Книга X

Толян и его команда

Иванов Дмитрий
6. Девяностые
Фантастика:
попаданцы
альтернативная история
7.17
рейтинг книги
Толян и его команда

Идеальный мир для Лекаря 5

Сапфир Олег
5. Лекарь
Фантастика:
фэнтези
юмористическая фантастика
аниме
5.00
рейтинг книги
Идеальный мир для Лекаря 5

Возвышение Меркурия. Книга 3

Кронос Александр
3. Меркурий
Фантастика:
попаданцы
аниме
5.00
рейтинг книги
Возвышение Меркурия. Книга 3

Офицер империи

Земляной Андрей Борисович
2. Страж [Земляной]
Фантастика:
боевая фантастика
попаданцы
альтернативная история
6.50
рейтинг книги
Офицер империи

Черный маг императора 3

Герда Александр
3. Черный маг императора
Фантастика:
попаданцы
аниме
5.00
рейтинг книги
Черный маг императора 3

Измена. Право на сына

Арская Арина
4. Измены
Любовные романы:
современные любовные романы
5.00
рейтинг книги
Измена. Право на сына

Краш-тест для майора

Рам Янка
3. Серьёзные мальчики в форме
Любовные романы:
современные любовные романы
эро литература
6.25
рейтинг книги
Краш-тест для майора

Небо в огне. Штурмовик из будущего

Политов Дмитрий Валерьевич
Военно-историческая фантастика
Фантастика:
боевая фантастика
7.42
рейтинг книги
Небо в огне. Штурмовик из будущего

Кодекс Крови. Книга VI

Борзых М.
6. РОС: Кодекс Крови
Фантастика:
фэнтези
попаданцы
аниме
5.00
рейтинг книги
Кодекс Крови. Книга VI

Неудержимый. Книга XIII

Боярский Андрей
13. Неудержимый
Фантастика:
фэнтези
попаданцы
аниме
5.00
рейтинг книги
Неудержимый. Книга XIII