За стеной фильтров. Что Интернет скрывает от вас?, Паризер Эли

За стеной фильтров. Что Интернет скрывает от вас?

на обложку

Паризер Эли

Шрифт:

Естественно, эта система работала не только с электронной почтой. Tapestry, по словам ее создателей, была «разработана для управления любым потоком входящих электронных документов. Электронная почта лишь один из примеров такого потока; другие примеры — ленты информагентств и статьи онлайн-форумов» [61] .

Tapestry представила миру коллаборативную фильтрацию, но в 1990 году такая услуга была не очень интересна. Интернет насчитывал всего несколько миллионов пользователей; он оставался маленькой экосистемой, и информации, подлежащей сортировке, было не так уж много, а пропускная способность каналов — не столь велика. Так что много лет коллаборативная фильтрация оставалась уделом компьютерных исследователей и скучающих студентов. Если бы в 1994 году вы отправили на адрес [email protected] список альбомов, которые вам нравятся,

то получили бы в ответ письмо с рекомендациями новой музыки и рецензиями. На сайте сообщалось, что «один раз в час сервер обрабатывает все входящие сообщения и отправляет ответы» [62] . Это был ранний предшественник Pandora [63] — персонализированный музыкальный сервис для эпохи, когда широкополосного Интернета еще не существовало.

David Goldberg, David Nichols, Brian M. Oki and Douglas Terry. Using Collaborative Filtering to Weave an Information Tapestry. Communications of the ACM 35 (1992), no. 12:61.

Upendra Shardanand. Social Information Filtering for Music Recommendation (graduate diss., Massachusetts Institute of Technology, 1994).

Популярное интернет-радио, подсказывающее пользователям новую музыку исходя из их предпочтений. Прим. пер.

Но когда в 1995 году стартовал Amazon, все изменилось. С самого начала этот сайт представлял собой книжный магазин со встроенной персонализацией. Изучая, какие книги люди покупают, и используя методы коллаборативной фильтрации, изобретенные в PARC, Amazon мог выдавать рекомендации мгновенно. (О, вы берете «Руководство для чайников по фехтованию»? Может, возьмете еще «Очнулся слепым: судебные иски в связи с травмой глаза»?) И, отслеживая покупки, через какое-то время Amazon мог выделять пользователей с похожими предпочтениями. («Другие люди, которым нравится то же, что и вам, приобрели новинку этой недели—"Ангард!"») Чем больше книг люди покупали на Amazon, тем точнее была персонализация.

В 1997 году Безос обслужил первый миллион покупателей. Спустя полгода — два миллиона. А в 2001 году компания впервые получила квартальную прибыль: это был один из первых бизнесов, доказавших, что в онлайне можно делать серьезные деньги.

И хотя Amazon не мог в полной мере передать атмосферу местного книжного магазинчика, система персонализации работала весьма неплохо. Топ-менеджеры держат язык за зубами и не признаются, какую долю выручки она обеспечивает, но часто называют этот механизм ключевым элементом успеха компании.

На Amazon идет нескончаемая погоня за пользовательскими данными: когда вы читаете книги на ридере Kindle, информация о фразах, которые вы выделяете, страницах, которые вы переворачиваете, и о том, читаете ли вы внимательно или пролистываете, отправляется на серверы Amazon и используется, чтобы определить, какие книги могут вам еще понравиться. Если вы зайдете на сайт после дня на пляже с Kindle, Amazon может слегка изменить страницу, чтобы ее содержание соответствовало тому, что вы только что прочли. Если вы полдня читали новый роман Джеймса Паттерсона и лишь мельком заглянули в руководство по диете, то вы, возможно, увидите на первой странице сайта больше триллеров и куда меньше книг о здоровье [64] .

Martin Kaste. Is Your E-Book Reading Up On You? NPR.org, Dec. 15, 2010, http://www.npr.org/2010/12/15/132058735/is-your-e-book-reading-up-on-you.

Пользователи Amazon так привыкли к персонализация, что сайт теперь использует обратный трюк, чтобы заработать еще больше денег. Издатели платят за размещение книг в традиционных магазинах, но не могут купить мнения продавцов. Однако, как и предсказывал Ланир, подкупить алгоритм нетрудно: заплатите Amazon достаточную сумму, и ваша книга будет продвигаться под видом «объективной» рекомендации собственного софта сайта [65] . Большинство клиентов не способны отличить одно от другого.

Aaron Shepard. Aiming at Amazon: The NEW Business of Self Publishing, Or How to Publish Your Books with Print on Demand and Online Book Marketing (Shepard Publications, 2006), 127.

Amazon

доказал, что релевантность может обеспечить доминирующие позиции в отрасли. Но затем на сцену вышли два аспиранта из Стэнфорда, которые применили принципы машинного обучения ко всему миру онлайн-информации.

Клик — это сигнал

Когда новая компания Джеффа Безоса только начинала работу, основатели Google Ларри Пейдж и Сергей Брин занимались своими докторскими диссертациями в Стэнфорде. Они знали об успехе Amazon: в 1997 году «пузырь доткомов» раздувался вовсю, и Amazon — по крайней мере на бумаге — стоил миллиарды. Пейдж и Брин были математическими гениями; первый, в частности, был одержим темой искусственного интеллекта. Но их интересовала другая проблема. Что если использовать компьютерные алгоритмы не для более эффективной продажи товара, а для сортировки сайтов?

Пейдж изобрел новаторский подход к такой сортировке и с присущей компьютерным гикам склонностью к игре слов назвал его PageRank [66] . Большинство компаний, занимавшихся интернет-поиском в то время, сортировали страницы по ключевым словам и едва ли могли оценить, насколько первые соответствуют вторым. В статье, опубликованной в 1997 году, Брин и Пейдж сухо отмечали, что три из четырех крупнейших поисковых машин не могут найти сами себя. «Мы хотим, чтобы наша концепция "релевантности" распространялась только на лучшие документы, — писали они, — поскольку пользователю могут быть доступны десятки тысяч лишь слегка релевантных документов» [67] .

Фамилия Пейдж (Page) в переводе с английского означает «страница». Прим. пер.

Sergey Brin and Lawrence Page. The Anatomy of a Large-Scale Hypertextual Web Search Engine. Section 1.3.1.

Пейдж понял, что в пронизанной ссылками структуре Сети кроется гораздо больше данных, чем могут использовать большинство поисковых машин. Тот факт, что одна страница содержит ссылку на другую, можно считать «голосом» в пользу второй. Пейдж наблюдал за тем, как стэнфордские профессора считают, сколько раз их статьи были процитированы, и составляют таким образом примерный рейтинг своей значимости. Он прикинул, что сайты, на которые часто ссылаются — например, главная страница Yahoo, — могут, подобно академическим статьям, считаться более значимыми, а те, за которые они «голосуют», тоже значат больше. Весь этот процесс, как утверждал Пейдж, «опирается на уникальную демократическую структуру Сети».

В те дни Google обитал на сайте google.stanford.edu, и Брин с Пейджем были убеждены, что сервис должен оставаться некоммерческим и свободным от рекламы. «Мы считаем, что поисковые машины, финансируемые за счет рекламы, будут неизбежно склоняться в сторону нужд рекламодателей, а не нужд потребителей, — писали они. — Чем лучше поисковая система, тем меньше сообщений понадобится потребителю, чтобы найти искомое… мы уверены, что вопрос о рекламе создает достаточно неоднозначные стимулы, и поэтому крайне важно иметь конкурентоспособную поисковую систему, которая прозрачна для пользователей и остается в академической сфере» [68] .

Brin and Page. Anatomy of a Large-Scale Hypertextual Web Search Engine. Section 8 Appendix A.

Но когда они запустили бета-версию сайта на просторы Интернета, трафик зашкалил. Google действительно работал — внезапно он стал лучшей поисковой машиной Интернета. Вскоре искушение сделать на этом бизнес оказалось слишком сильным, и основатели Google, которым было по двадцать с небольшим, не смогли перед ним устоять.

По легенде, именно алгоритм PageRank вознес Google на вершину мирового господства. Я подозреваю, что компании нравится эта версия: это ясная, простая история, привязывающая успех поискового гиганта к одному гениальному прорыву, совершенному одним из основателей. Но с самого начала PageRank был лишь малой частью проекта Google. На самом деле Брин и Пейдж поняли вот что: ключ к релевантности, к сортировке массы данных в Интернете — это… еще больше данных.