Чтение онлайн

на главную - закладки

Жанры

Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим
Шрифт:

Альтернативный вариант — перед сбором получать согласие на любое дальнейшее использование их данных — тоже бесполезен. Такое разрешение «оптом» сводит на нет само понятие информированного согласия. В контексте больших данных проверенная временем концепция «уведомления и согласия» налагает слишком много ограничений для извлечения скрытой ценности данных и слишком бесполезна для защиты конфиденциальности частных лиц.

Кроме того, в эпоху больших данных технические способы защиты неприкосновенности частной жизни тоже сдают свои позиции. Если вся информация находится в наборе данных, ее извлечение само по себе может оставить след. Возьмем, к примеру, функцию Google Street View. Для ее создания собрали фотографии дорог и домов во многих странах (как и многие другие данные — но это спорный вопрос). В Германии компания Google столкнулась с массовым протестом общественности и СМИ. Люди опасались, что фотографии их домов и садов

помогут бандам грабителей выбрать выгодные цели. Под давлением регулирующих органов Google согласилась предоставить домовладельцам возможность отказа от участия, которая позволяла размыть изображения их домов. Но результаты этой возможности заметны в Street View — вы видите размытые дома, а грабители могут расценить их как сигнал, что это отличная цель.

Такой технический подход к защите конфиденциальности, как анонимизация, тоже, как правило, неэффективен. Анонимизация подразумевает удаление из наборов данных всех личных идентификаторов (имя, адрес, номер кредитной карты, дата рождения, номер социального страхования и пр.). Полученные данные можно анализировать без ущерба для чьей-либо конфиденциальности. Этот подход работает в мире малых данных. Большие данные упрощают повторное установление личности в связи с увеличением количества и разнообразия информации. Рассмотрим примеры с веб-поисками и оценками кинофильмов, которые, казалось бы, не позволяют установить личность.

В августе 2006 года компания AOL сделала общедоступными горы старых поисковых запросов под благовидным намерением дать исследователям возможность анализировать их в поисках интересных открытий. Набор данных из 20 миллионов поисковых запросов от 650 000 пользователей за период с 1 марта по 31 мая 2006 года был тщательно анонимизирован. Личные данные, такие как имя пользователя и IP-адрес, были удалены и замещены уникальным числовым идентификатором. Таким образом, исследователи могли связать между собой поисковые запросы от одного и того же человека, но не имели информации для установления его личности.

Тем не менее в течение нескольких дней сотрудники New York Times, связав поисковые запросы, такие как «одинокие мужчины за 60», «целебный чай» и «ландшафтный дизайнер в Лилбурне, Джорджия», успешно установили, что пользователь № 4 417 749 — это Тельма Арнольд, 62-летняя вдова из Лилбурна, штат Джорджия. «О Господи, это же вся моя личная жизнь! — сказала она журналистам Times, когда они наведались к ней в гости. — Я понятия не имела, что за мной подсматривают». Последовавшие за этим протесты общественности привели к увольнению технического директора и еще двух сотрудников AOL.

А всего два месяца спустя, в октябре 2006 года, служба проката фильмов Netflix сделала нечто подобное, объявив конкурс Netflix Prize. Компания выпустила 100 миллионов записей о прокате от около полумиллиона пользователей и объявила приз в размере одного миллиона долларов, который достанется команде исследователей, сумевшей улучшить систему рекомендации фильмов Netflix не менее чем на 10%. Личные идентификаторы были тщательно удалены. И снова пользователей удалось разоблачить: мать и скрытая лесбиянка из консервативного Среднего Запада подала в суд на Netflix от имени псевдонима Jane Doe. [136]

136

Компания Netfix вычислила частных лиц: Singel, Ryan. Netflix Spilled Your Brokeback Mountain Secret, Lawsuit Claims // Wired. — December 17, 2009. URL: http://www.wired.com/threatlevel/2009/12/netflix-privacy-lawsuit/.

Сравнив данные Netflix с другими общедоступными сведениями, исследователи из Техасского университета быстро обнаружили, что оценки анонимизированных пользователей соответствовали оценкам людей с конкретными именами на сайте Internet Movie Database (IMDb). В целом исследования показали, что всего по шести оценкам фильмов в 84% случаев можно было верно установить личность клиентов Netflix. А зная дату, когда человек оценил фильмы, можно было с 99%-ной точностью определить его среди набора данных из полумиллиона клиентов. [137]

137

О выпуске данных компании Netflix: Narayanan, Arvind. Robust De-Anonymization of Large Sparse Datasets / Arvind Narayanan and Vitaly Shmatikov // Proceedings of the IEEE Symposium on Security and Privacy. — 2008. — P. 111. URL:Arvind Narayanan and Vitaly Shmatikov. How to Break the Anonymity of the Netflix Prize Dataset. — ARVIX. — October 16, 2006.

В исследовании AOL личности пользователей можно было раскрыть по содержанию их поисковых

запросов, а в конкурсе Netflix — путем сравнения с данными из других источников. В обоих случаях компании недооценили, насколько большие данные могут способствовать деанонимизации. Тому есть две причины: мы записываем больше данных и объединяем больше данных.

Пол Ом, профессор права в Университете штата Колорадо и эксперт по ущербу от деанонимизации, объясняет, что этот вопрос не так просто решить. При наличии достаточно большого количества данных идеальная анонимизация невозможна вопреки каким бы то ни было усилиям. [138] Хуже того, исследователи недавно показали, что не только обычные данные, но и «социальный граф» — связи между людьми в социальных сетях — также подвержены деанонимизации. [139]

138

О слабых местах в структуре анонимизации: Ohm, Paul. Broken Promises of Privacy: Responding to the Surprising Failure of Anonymization // 57 UCLA Law Review 1701. — 2010.

139

Об анонимности социального графа: Backstrom, Lars. Wherefore Art Thou R3579X? Anonymized Social Networks, Hidden Patterns, and Structural Steganography / Lars Backstrom, Cynthia Dwork, and Jon Kleinberg // Communication of the Association of Computing Machinery December. — 2011. — P. 133.

В эпоху больших данных три основные стратегии обеспечения конфиденциальности (индивидуальное «уведомление и согласие», возможность отказа от участия и анонимизация) во многом утратили свою эффективность. Уже сегодня многие пользователи считают, что их частная жизнь находится под угрозой. То ли еще будет, когда практика использования больших данных станет обычным явлением!

По сравнению с ситуацией в ГДР четверть века назад теперь вести наблюдение стало проще, дешевле и эффективнее. Возможность записи личных данных зачастую встроена в инструменты, которые мы используем ежедневно — от сайтов до приложений на смартфоне. Так, «черные ящики», установленные в большинстве автомобилей для отслеживания активаций подушки безопасности, известны тем, что могут «свидетельствовать» против автовладельцев в суде в случае спора по поводу ДТП. [140]

140

Автомобильные «черные ящики»: “Vehicle data recorders” Watching your driving // The Economist. — June 23, 2012. URL: http://www.economist.com/node/21557309.

Конечно, когда компании собирают данные для улучшения своих показателей, нам не нужно опасаться слежки и ее последствий, как гражданам ГДР после прослушивания сотрудниками Штази. Мы не попадем в тюрьму, если Amazon узнает, что мы почитываем «красную книжечку» Председателя Мао Цзэдуна, а Google не изгонит нас за то, что мы искали Bing. Компании обладают определенным влиянием, но у них нет государственных правомочий принуждения.

Да, они не применяют таких жестких методов, как Штази, однако компании всех мастей накапливают базы личной информации обо всех аспектах нашей повседневной жизни, делятся ею с другими без нашего ведома и используют ее в неизвестных нам целях.

Не только частный сектор пробует силы в области больших данных. Государственные органы тоже. По данным расследования Washington Post в 2010 году, Агентство национальной безопасности США (АНБ) ежедневно перехватывает и сохраняет 1,7 миллиарда писем электронной почты, телефонных звонков и других сообщений. [141] По оценкам Уильяма Бинни, бывшего сотрудника АНБ, правительство собрало «20 триллионов операций» между американскими и другими гражданами: кто кому позвонил, написал по электронной почте, отправил денежный перевод и т. д. [142]

141

Сбор данных в АНБ: Priest, Dana. A hidden world, growing beyond control / Dana Priest and William Arkin // Washington Post. — July 19, 2010. URL: http://projects.washingtonpost.com/top-secret-america/articles/a-hidden-world-growing-beyond-control/print/.

142

Gonzalez, Juan. Whistleblower: The NSA Is Lying–U.S. Government Has Copies of Most of Your Emails // Democracy Now. — April 20, 2012. URL: http://www.democracynow.org/2012/4/20/whistleblower_the_nsa_is_lying_us.

Поделиться:
Популярные книги

Моя на одну ночь

Тоцка Тала
Любовные романы:
современные любовные романы
короткие любовные романы
5.50
рейтинг книги
Моя на одну ночь

Черный Маг Императора 8

Герда Александр
8. Черный маг императора
Фантастика:
юмористическое фэнтези
попаданцы
аниме
5.00
рейтинг книги
Черный Маг Императора 8

Измена. Отбор для предателя

Лаврова Алиса
1. Отбор для предателя
Фантастика:
фэнтези
5.00
рейтинг книги
Измена. Отбор для предателя

Кодекс Крови. Книга II

Борзых М.
2. РОС: Кодекс Крови
Фантастика:
фэнтези
попаданцы
аниме
5.00
рейтинг книги
Кодекс Крови. Книга II

Шаг в бездну

Муравьёв Константин Николаевич
3. Перешагнуть пропасть
Фантастика:
фэнтези
космическая фантастика
7.89
рейтинг книги
Шаг в бездну

Часовая битва

Щерба Наталья Васильевна
6. Часодеи
Детские:
детская фантастика
9.38
рейтинг книги
Часовая битва

Вечная Война. Книга II

Винокуров Юрий
2. Вечная война.
Фантастика:
юмористическая фантастика
космическая фантастика
8.37
рейтинг книги
Вечная Война. Книга II

Хроники странного королевства. Вторжение. (Дилогия)

Панкеева Оксана Петровна
110. В одном томе
Фантастика:
фэнтези
9.38
рейтинг книги
Хроники странного королевства. Вторжение. (Дилогия)

Часовой ключ

Щерба Наталья Васильевна
1. Часодеи
Фантастика:
фэнтези
9.36
рейтинг книги
Часовой ключ

Инвестиго, из медика в маги

Рэд Илья
1. Инвестиго
Фантастика:
фэнтези
городское фэнтези
попаданцы
5.00
рейтинг книги
Инвестиго, из медика в маги

Кротовский, может, хватит?

Парсиев Дмитрий
3. РОС: Изнанка Империи
Фантастика:
попаданцы
альтернативная история
аниме
7.50
рейтинг книги
Кротовский, может, хватит?

Драконий подарок

Суббота Светлана
1. Королевская академия Драко
Любовные романы:
любовно-фантастические романы
7.30
рейтинг книги
Драконий подарок

Очешуеть! Я - жена дракона?!

Амеличева Елена
Фантастика:
юмористическая фантастика
5.43
рейтинг книги
Очешуеть! Я - жена дракона?!

Идеальный мир для Лекаря 9

Сапфир Олег
9. Лекарь
Фантастика:
боевая фантастика
юмористическое фэнтези
6.00
рейтинг книги
Идеальный мир для Лекаря 9