Чтение онлайн

на главную - закладки

Жанры

Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры
Шрифт:

Благодаря изучению логов, оказавшихся в открытом доступе, и их перекрестному сравнению с другими широкодоступными данными журналисты из New York Times Майкл Барбаро и Том Целлер-мл. смогли определить личности пользователей. Через несколько дней после выхода данных в свет Барбаро и Целлер заметили, что среди сотен других

запросов за трехмесячный период пользователь 4417749 искал «специалистов по ландшафтному дизайну в Лилберне, штат Калифорния» и нескольких людей по фамилии «Арнольд». Быстрое изучение телефонного справочника показало, что этим пользователем, по всей видимости, была 62-летняя жительница Лилберна по имени Тельма Арнольд.

Когда Барбаро и Целлер связались с госпожой Арнольд и прочитали ей текст нескольких запросов из ее поискового лога, она пришла в ярость от того, что сделала AOL: «У всех нас есть право на частную жизнь. Об этом никто не должен был узнать».

AOL поняла свою ошибку и попыталась исправить проблему. Уже через три дня после выхода списка данных компания закрыла к нему общий доступ. Она также принесла свои извинения, уволила исследователя, выпустившего в свет логи, и его начальника. Через несколько недель в отставку подал технический директор AOL. Но было слишком поздно – данные уже разлетелись по Сети. Вследствие своих благородных, но непродуманных действий по содействию исследовательской работе AOL столкнулась с волной вполне заслуженной критики и была вынуждена отвечать за свои действия в суде в ответ на групповой иск. Эта ситуация стала классическим примером того, насколько сложно сделать анонимными большие данные, – а для работников отрасли она стала предостережением: с какими опасностями может столкнуться компания, занимающаяся альтруистическим обменом данными. AOL не получила никаких благ от публикации логов и в конечном итоге заплатила

за свои действия огромную цену. Об этом помнил и Норвиг.

Разумеется, имена – не единственное, что может скомпрометировать массив данных. У Google Books имеется обратная проблема. Пожалуй, одним из немногих элементов текста, который вы можете выложить в открытый доступ, не боясь исков, является имя автора. Остальной текст книги защищен авторским правом.

Каким же образом большие тени помогают нам преодолеть это препятствие? Для того чтобы воспользоваться большими данными, исследователь должен найти тень, удовлетворяющую четырем важным критериям. Прежде всего тень должна защищать права миллионов людей, коллективные усилия которых создали изначальный массив данных. Во-вторых, она должна быть интересной. В-третьих, она не должна противоречить целям компании – хранителя данных. В-четвертых, она должна представлять собой нечто, что может быть реально создано на практике. Проблема AOL состояла не в том, что она выпустила в свет данные о пользовательских поисковых запросах, а в том, что выбранная ею тень слишком слабо скрывала реальные данные, в результате чего был серьезно нарушен первый критерий. Когда Джереми Гинсбург создал Google Flu Trends [88] , он также выпустил в свет информацию, основанную на пользовательских поисковых запросах. Однако его тень представила данные в таком виде, что от этого никто не пострадал – не считая вируса гриппа.

88

Доступно в сети Интернет:Сервис Google, позволяет определить скорость распространения вируса гриппа в различных странах (Прим. пер.).

Поделиться:
Популярные книги

Лучший из худших-2

Дашко Дмитрий Николаевич
2. Лучший из худших
Фантастика:
фэнтези
5.00
рейтинг книги
Лучший из худших-2

Досье Дрездена. Книги 1 - 15

Батчер Джим
Досье Дрездена
Фантастика:
фэнтези
ужасы и мистика
5.00
рейтинг книги
Досье Дрездена. Книги 1 - 15

Разбуди меня

Рам Янка
7. Серьёзные мальчики в форме
Любовные романы:
современные любовные романы
остросюжетные любовные романы
5.00
рейтинг книги
Разбуди меня

Комендант некромантской общаги 2

Леденцовская Анна
2. Мир
Фантастика:
юмористическая фантастика
7.77
рейтинг книги
Комендант некромантской общаги 2

Подземелье

Мордорский Ваня
1. Гоблин
Фантастика:
фэнтези
эпическая фантастика
5.00
рейтинг книги
Подземелье

Одержимый

Поселягин Владимир Геннадьевич
4. Красноармеец
Фантастика:
боевая фантастика
5.00
рейтинг книги
Одержимый

На границе империй. Том 9. Часть 3

INDIGO
16. Фортуна дама переменчивая
Фантастика:
космическая фантастика
попаданцы
5.00
рейтинг книги
На границе империй. Том 9. Часть 3

Корпулентные достоинства, или Знатный переполох. Дилогия

Цвик Катерина Александровна
Фантастика:
юмористическая фантастика
7.53
рейтинг книги
Корпулентные достоинства, или Знатный переполох. Дилогия

Реванш. Трилогия

Максимушкин Андрей Владимирович
Фантастика:
альтернативная история
6.73
рейтинг книги
Реванш. Трилогия

Бастард Императора

Орлов Андрей Юрьевич
1. Бастард Императора
Фантастика:
фэнтези
аниме
5.00
рейтинг книги
Бастард Императора

Наследие Маозари 4

Панежин Евгений
4. Наследие Маозари
Фантастика:
фэнтези
попаданцы
5.00
рейтинг книги
Наследие Маозари 4

Измена. Право на любовь

Арская Арина
1. Измены
Любовные романы:
современные любовные романы
5.00
рейтинг книги
Измена. Право на любовь

Ученик. Книга вторая

Первухин Андрей Евгеньевич
2. Ученик
Фантастика:
фэнтези
5.40
рейтинг книги
Ученик. Книга вторая

Мое ускорение

Иванов Дмитрий
5. Девяностые
Фантастика:
попаданцы
альтернативная история
6.33
рейтинг книги
Мое ускорение