Нужна ли анонимность демократическому информационному обществу?
Шрифт:
Как оказалось, чувствительная информация может быть «предсказана» аналитическим путём на основе иных доступных индексов, фиксирующих поведение данного человека в сети. Например, крупнейшая в США сеть розничной торговли систематически анализирует данные о покупках молодых женщин с целью предсказания их беременности и посылает им свои коммерческие предложения, тщательно рассчитанные по времени и по своей целесообразности [12] .
Информации о пользователях социальных сетей, которую можно «выловить» в Интернете, был посвящён доклад Психометрического центра Кембриджского университета «Предсказуемость особенностей личности на основе цифровых записей человеческого поведения», недавно опубликованный в «Трудах национальной Академии наук» (Proceedings for the National Academy of the Sciences) [13] .
12
Duhigg, C. The Power of Habit: Why We Do What We Do in Life and Business. 1st ed., Random House, New York, 2012.
13
Kosinski, M., Stillwell, D., and Graepel, Th. Private traits and attributes are predictable from digital records of human behavior. Free School Lane, The Psychometrics Centre, University of Cambridge, Cambridge CB2 3RQ United Kingdom; and Microsoft Research, Cambridge CB1 2FB, United Kingdom. Ed. by Wachter, K. University of California, Berkeley, CA, and approved February 12, 2013 (received for review October 29, 2012). — http://www.pnas.org/content/early/2013/03/06/1218772110.full.pdf+html?with-ds=yes
В
Доклад демонстрирует эффективный пример применения в практической психологии хорошо опробованных методов статистического моделирования. В ней показано, как именно относительно простые, рутинные протокольные цифровые записи о действиях пользователя киберпространства могут быть использованы для автоматической оценки широкой палитры персональных характеристик («атрибутов»). Проводя в сети все больше времени, пользователи Facebook"клик за кликом" рисуют удивительно точную картину самих себя и не ощущают при этом того, что раскрывают свою конфиденциальную информацию. Авторы этого исследования честно признались, что специально выбрали те параметры, "наклонности" и "атрибуты" личности пользователей, которые в наибольшей степени иллюстрируют, насколько точными и настораживающими могут быть результаты их прогнозирования на основе общедоступной информации. Им удалось создать программу, достаточно точно "предсказывающую" не только пол и возраст пользователей, но также и такие высокочувствительные их личные данные ("персональные атрибуты"), как сексуальная ориентация, этническая и религиозная принадлежность, политические взгляды, личные наклонности, уровень интеллектуального развития и удовлетворенности своей жизнью ("уровень счастья"), употребление наркотиков, разобщенность родителей и проч. В общем виде схема проведенного исследования представлена на рис. 1.
Общая схема исследования
1) В Facebook были выбраны 58 466 добровольцев из США, которые согласились поработать с приложением My Personality Facebook (www.mypersonality.org/wiki) и расставить свои пометки like("нравится") на различных материалах (контенте), доступных в этой социальной сети: фотографиях, "друзьях", интересных страницах, спорте, музыке, книгах, ресторанах, популярных Web– сайтах и проч. В среднем каждый из участников расставил примерно 170 пометок, всего пометок удостоились 55 814 материалов, при этом абсолютное большинство из них отмечалось неоднократно, то есть разными участниками. По завершении работы с этим приложением оно содержало информацию об участниках, взятую из их "профилей Facebook", список расставленных ими пометок like, а также некоторую иную информацию.
Далее была сделана матрица "участник — пометка" (представлена на рис. 1 слева), составленная из строк, каждая из которых содержит пометки, поставленные одним участником. В клетку матрицы ставилась "1", если данный участник (строка) пометил данный материал (столбец) словом like, и "0" — в противном случае. Всего в такой матрице было проставлено около 10 млн. единиц (? 58466*170, то есть произведение количества участников на число помет).
2) На втором шаге размерность матрицы "участник — пометка" была сокращена с помощью формального математического метода "сингулярно-значимой декомпозиции" (singular-value decomposition, SVD) [14] . В результате исходная матрица была преобразована в матрицу "участник — компоненты" (представлена на рис. 1 в центре), у которой количество столбцов сокращено до 100 в соответствие с числом выделенных значимых факторов (компонент). Клетки этой матрицы заполнялись не "1", а специально рассчитанными "коэффициентами значения" той или иной компоненты.
14
Golub, G. H., Kahan, W. Calculating the singular values and pseudo-inverse of a matrix / SIAM (Society for Industrial and Applied Mathematics) // Journal on Mathematical Analysis. 1965, Vol. 2, No. 2, pp. 205–224.
3) На
а) параметры, соответствующие профилю Facebook;
б) демографической "картине"
;в) проведенным тестам.
К группе а) были отнесены такие параметры, как возраст, пол, политические и религиозные взгляды, семейное положение, сексуальная ориентация, размеры и плотность личной социальной сети. В группу б) вошёл только один параметр — этническая принадлежность. В группу в) были включены психологические параметры, характеризующие индивидуальность личности человека по общепризнанной 5-факторной модели (невроз или эмоциональная стабильность, экстраверт или интраверт, открытость к новому опыту или закрытость, уступчивость или конфликтность, добросовестность или нет) [15] . В данной работе использовались данные по 5-факторной модели для 54 373 участников, полученные с помощью обобщения ответов на вопросы международного обследования [16] .
15
Costa, P. T., McCrae, R. R. Revised NEO Personality Inventory (NEO-PI-R) and NEO Five-Factor Inventory (NEO-FFI) professional manual. Odessa, FL: Psychological Assessment Resources, 1992.
(Далее: Costa, P. T., McCrae, R. R. Revised NEO Personality Inventory…)
16
Goldberg, L. R., et al. The international personality item pool and the future of public-domain personality measures / Presidential Symposium at the sixth annual meeting of the Association for Research in Personality, New Orleans, January 20, 2005 // Journal of Research in Personality. 2006 (40), pp. 84–96.
Кроме того в группу в) попали оценки уровня интеллектуального развития [17] , удовлетворённости жизнью [18] и статус взаимоотношений между родителями подростка до достижения им 21 года.
Для предсказания параметров каждой группы использовались различные методы. Для прогнозирования количественных параметров (возраста или уровня интеллектуального развития) использовались линейные регрессионные модели; для дихотомических параметров (пол или сексуальная ориентация) модели логической регрессии. В обоих случаях применялась 10-кратная перекрёстная оценка параметров регрессионных уравнений, построенных по 100 выделенным значимым факторам (SVD components). Для предсказания таких параметров, как сексуальная ориентация, статус взаимоотношений между родителями подростка, а также потребление алкоголя, наркотиков и сигарет, было выбрано 30 значимых факторов (из-за относительно небольшого количества представленной информации). Результаты предсказания дихотомичных "атрибутов" представлены на рис. 2.
17
Raven, J. C. The Raven’s progressive matrices: Change and stability over culture and time // Cognitive Psychology. 2000, Vol. 41, pp. 1–48.
18
Diener, E., Emmons, R. A., Larsen, R. J., Griffin, S. The satisfaction with life scale // Journal of Personality Assessment. 1985, Vol. 49, Issue 1, pp. 71–75.
Точность предсказания дихотомичных «атрибутов»
Сверху вниз:
— семейное положение (одинокий или нет);
— жили ли родители вместе до достижения подростком 21 года;
— употребление сигарет, алкоголя, наркотиков;
— являешься ли белым американцем или африканского происхождения;
— христианин или мусульманин;
— демократ или республиканец;
— являешься ли геем, лесбиянкой;
— пол.
Учёные обнаружили, что надёжнее всего данная методика различает пол участника (вероятность 93 %), а также его этническую принадлежность, точнее, является ли он белым американцем или африканского происхождения (вероятность 95 %). Далее, выяснилось, что, анализируя пометки like на предпочитаемых пользователями фильмах и телевизионных шоу (на фоне прочей информации), можно с 88-процентной точностью угадать сексуальную ориентацию мужчин и с 75-процентной — женщин [19] ; с точностью 82 % определить христиан и мусульман; с точностью 85 % отличать американских "демократов" от "республиканцев". Достаточно высоким оказалось доверие в отношении употребления наркотиков, алкоголя и сигарет (примерно 70 %).
19
Интересно отметить, что только очень немногие участники (менее 5 %) открыто объявляли о своей сексуальной ориентации. В этом вопросе для предсказания более значимыми оказались пометки like, отданные Britney Spears или программе Desperate Housewives.