За стеной фильтров. Что Интернет скрывает от вас?
Шрифт:
Программисты сталкиваются с такими проблемами постоянно. Какая ссылка даст лучший ответ на запрос «рыба»? Какое фото Facebook должен показать вам, чтобы повысить вероятность, что вы приметесь листать фотографию за фотографией? Общее направление кажется довольно очевидным: нужно настраивать и корректировать выдачу в том или ином направлении, пока не попадете в точку. Но с инструкциями по ориентированию в холмах есть проблема: они в равной мере могут отправить вас и на вершину горы Уитни [265] , и в ее предгорья — локальный максимум.
265
Самая высокая точка хребта Сьерра-Невада. Прим. пер.
Кажется, ничего страшного? Однако за стеной фильтров то же может произойти с любым человеком и любой темой. Мне сложно не кликнуть на статью о новых гаджетах, хотя
Чем быстрее система учится на ваших кликах, тем вероятнее, что вы попадете в некий каскадный процесс: мелкое стартовое действие — клик на статью о садоводстве, анархии или Оззи Осборне показывает, что вам это нравится. Это, в свою очередь, приносит вам еще больше информации на данную тему, и вы еще более склонны кликать по новым ссылкам: тема уже подготовлена для вас.
Начиная со второго клика в игру вступает и ваш мозг. Он стремится уменьшить когнитивный диссонанс с помощью странной, неотразимой, хотя и нелогичной логики: «Зачем бы мне делать X, если я не человек, делающий X, — следовательно, в, должно быть, человек, делающий X». Каждый новый клик в этой петле еще одно самооправдание: «Черт, кажется, мне очень нравится Crazy Train [266] ». Когда происходит такой рекурсивный процесс, подпитывающий сам себя, вы, по словам Колера, «оказываетесь на темной и узкой тропе». Мелодия тонет в реверберации. Если случайность н неожиданные озарения не разорвут петлю, вы застрянете и предгорьях вашей идентичности, вдалеке от реального пика.
266
Хит Оззи Осборна. Прим. пер.
И это еще относительно доброкачественная петля. Может быть и иначе.
Мы знаем, что происходит, когда учителя считают учеников тупыми: те становятся еще тупее. И одном эксперименте, который провели еще до учреждения комиссий по этике, учителям дали результаты теста, которые, как утверждалось, показывали IQ и степень одаренности учеников, поступающих в их класс. Однако им не сказали, что результаты были перераспределены случайным образом. Спустя год ученики, которых представили как смышленых, заметно увеличили свой IQ. Те же, чей уровень, согласно тестам, был ниже среднего, такого не добились [267] .
267
Robert Rosenthal and Lenore Jacobson. Teachers' Expectancies: Determinants of Pupils' IQ Gains. Psychological Reports, 19, 1966, 115–118.
Так что же происходит, когда Интернет считает вас тупицей? Персонализация, основанная на предполагаемом IQ, — не столь уж фантастический сценарий. В Google Docs, например, есть полезный инструмент для автоматической оценки уровня сложности написанного текста [268] . Даже если ваш уровень образования еще не попал в базу данных Acxiom, его легко может вычислить любой располагающий несколькими вашими электронными письмами и сообщениями в Facebook. Пользователям, чьи тексты говорят о наличии университетского диплома, могут чаще показывать статьи из New Yorker, а тем, кто пишет более простым языком, — из New York Post.
268
Такой инструмент давно есть и в Microsoft Word, и в других текстовых редакторах. Прим. пер.
В мире вещательных СМИ предполагается, что все представители аудитории способны читать и обрабатывать информацию примерно на одном уровне. За стеной фильтров для этого нет никаких оснований. И это, с одной стороны, здорово: масса людей, отказавшихся от чтения, потому что газеты стали слишком заумными, могут снова начать потреблять письменный контент. Но если никто не потребует повышения качества, то эти люди надолго застрянут в третьем классе.
Поступки и приключения
Иногда передача алгоритмам права решать, что мы увидим и какие возможности нам предложат, приносит более честные результаты. Компьютер может игнорировать расу и пол, на что люди обычно не способны. Но это лишь в случае, если соответствующие алгоритмы добросовестны и проницательны. Иначе они будут просто отражать социальные нормы той культуры, которую обрабатывают.
В ряде случаев алгоритмическая обработка персональных данных может привести даже к большей дискриминации, чем если бы этим занимались люди. Например, программа, помогающая компаниям процеживать массу резюме в поисках подходящих соискателей, может «учиться»,
269
Dalton Conley. Elsewhere, U. S. A.: How We Got from the Company Man, Family Dinners, and the Affluent Society to the Home Office, BlackBerry Moms, and Economic Anxiety. New York: Pantheon Books, 2008, 164.
Онлайн-сервис видеопроката Netflix работает на основе Алгоритма CineMatch. Сначала все было довольно-таки просто. Если он взял на прокат первый фильм трилогии «Властелин колец», то Netflix мог изучить, какие фильмы брали другие люди, посмотревшие его. Если многие из них просили «Звездные войны», то велика вероятность, что и я захотел бы их посмотреть.
Этот метод анализа называется k-NN (метод «к-ближайших соседей» [270] ), и с его помощью CineMatch научился довольно ловко угадывать, что люди хотели бы посмотреть, исходя из тех фильмом, что они уже брали, и оценок, которые им поставили. К 2006 году CineMatch мог с точностью до балла предсказывать оценку, которую пользователь выставит любому из многих сотен тысяч фильмов в коллекции Netflix. Он дает более точные рекомендации, чем большинство людей. Человек-продавец ни за что не порекомендовал бы фильм «Молчание ягнят» поклонникам «Волшебника страны Оз», однако CineMatch знает: людям, которым по душе один из этих фильмов, зачастую нравится и другой. Но главу Netflix Рида Хастингса это не устроило. «Сейчас мы вывели модель Т [271] , а возможно гораздо большее», — сказал он журналисту в 2006 году [272] . 2 октября 2006 года на сайте Netflix появилось объявление: «Мы заинтересованы. Цена вопроса — 1 миллион долларов». Netflix опубликовал колоссальные массивы данных — рецензии, записи о прокате фильмов и другую информацию из своей базы, очищенную от всего, что могло бы указать на конкретного пользователя. И компания была готова заплатить миллион долларов человеку или команде, которые смогут опередить CineMatch по точности предсказаний хотя бы на 10 процентов. Конкурс Netflix Challenge был открыт для всех. «Все, что вам нужно, — это компьютер и классные идеи», — заявил Хастингс в интервью New York Times [273] .
270
к в данном случае — число анализируемых людей (или других объектов), похожих на вас (или исходный объект) своими характеристиками. Прим. пер.
271
Имеется в виду Ford Model Т, выпускавшийся с 1908 по 1927 год и ставший первым действительно доступным автомобилем. Прим. пер.
272
Geoff Duncan. Netflix Offers $lMln for Good Movie Picks. Digital Trends, Oct. 2, 2006, www.digitaltrends.com/computing/netflix-offers-l-mln-for-good-movie-picks.
273
Katie Hafner. And If You Liked the Movie, a Netflix Contest May Reward You Handsomely. New York Times, Oct. 2, 2006, www.nytimes.com/2006/10/02/technology/02netflix.html.
За девять месяцев в конкурсе поучаствовали около 1800 команд из более чем 150 стран. Они опирались на идеи машинного обучения, коллаборативной фильтрации, нейронных сетей и интеллектуального анализа данных. Обычно конкурсанты, соревнующиеся за такой крупный приз, действуют в тайне от других. Но Netflix призывала конкурирующие группы общаться друг с другом и открыла интернет-форум, где они могли совместно работать над общими затруднениями. Если почитать этот форум, можно практически пощупать те проблемы, которые терзали конкурсантов во время трехлетней погони за более совершенным алгоритмом. Проблема чрезмерно близкой подгонки возникала снова и снова.
При создании алгоритмов анализа данных возникают две большие сложности. Первая — найти все структуры и вычленить их из шума. Вторая — противоположность первой: не выводить структур, которых на самом деле не существует. Формула, описывающая последовательность «1,2,3», может звучать как «предыдущее число плюс один» или же как «положительные простые числа от меньшего к большему». Вы не сможете выбрать верную, пока не получите больше данных. А если вы слишком поспешно делаете выводы, то занимаетесь чрезмерно близкой подгонкой.