Мир-фильтр. Как алгоритмы уплощают культуру, Чейка Кайл

Мир-фильтр. Как алгоритмы уплощают культуру

на обложку

Чейка Кайл

Шрифт:

Сегодня мы уже располагаем вариантами алгоритмического правительства и алгоритмической жизни: банки прибегают к машинам, чтобы определить, кто получит кредит; Spotify использует данные о ваших прошлых действиях, чтобы рекомендовать те песни, которые лучше всего подходят вашей душевной организации. Однако технология, которая все это обеспечивает, не похожа на проект “Киберсин”. У нее нет шестиугольных комнат и кресел с подлокотниками. Алгоритмы стали одновременно невидимыми и вездесущими, они содержатся в приложениях, которые мы носим с собой на телефонах, хотя их данные физически хранятся где-то далеко, на огромных серверных фермах с градирнями, расположенных в малозаметных местах на природе. Если в проекте “Киберсин” предполагалось, что мир, управляемый данными, может быть последовательным и понятным и его можно заключить в рамки помещения диспетчерского центра, то теперь мы знаем, что он абстрактный и диффузный, он везде и нигде одновременно. Нас побуждают забыть о наличии

алгоритмов.

Новые технологии неизбежно порождают новые формы поведения, но это поведение редко совпадает с тем, которого ожидают изобретатели. Технология обладает собственным смыслом, который в конечном итоге выходит на первый план. Маршалл Маклюэн написал знаменитый афоризм “Средство коммуникации есть сообщение” [13] в своей книге 1964 года “Понимание медиа: внешние расширения человека”. Он имел в виду, что структура нового средства передачи информации – электрического света, телефона, телевидения – важнее содержания, которое через него передается. Сама способность телефона соединять людей превосходит любой конкретный разговор. Маклюэн писал: “Ибо «сообщением» любого средства коммуникации, или технологии, является то изменение масштаба, скорости или формы, которое привносится им в человеческие дела”. В нашем случае средством передачи является алгоритмическая лента; она масштабирует и ускоряет взаимосвязь людей по всему миру до невообразимой степени. Смысл ее функции заключается в том, что на каком-то уровне наши коллективные потребительские привычки, переведенные в данные, приводят к одинаковости.

Здесь и далее цитаты даны по изданию: Маклюэн М. Понимание медиа: внешние расширения человека. М.: Кучково поле, 2007. Перевод В. Николаева.

Как работают рекомендательные алгоритмы

Алгоритмы – это цифровые машины, которые, подобно конвейеру на фабрике, превращают серию входных данных в определенный результат на выходе. Отличие одного алгоритма от другого заключается не столько в структуре, сколько в компонентах, из которых они строятся. Все рекомендательные алгоритмы работают, собирая набор исходных данных. Общий термин для этого набора данных – “сигнал”, собранные входные данные, которые поступают в машину. Этот сигнал может включать в себя сведения о прошлых покупках пользователя на Amazon или о том, сколько других пользователей отдали предпочтение определенной песне на Spotify. Подобные сведения имеют не качественную, а количественную форму, поскольку их должна обрабатывать машина. Поэтому даже если эти данные относятся к такой субъективной теме, как музыкальные предпочтения, они выражаются цифрами: х пользователей поставили группе y среднюю оценку z, или х пользователей прослушали треки группы y z раз. Основным сигналом для многих рекомендаций в социальных сетях является проявление интереса, или вовлеченность, которая описывает, каким образом пользователи взаимодействуют с контентом. Это может выражаться в лайках, ретвитах или просмотрах – всевозможные кнопки, расположенные рядом с постом. Высокая вовлеченность означает, что количество лайков, просмотров или перепостов у данного сообщения выше, чем у других.

Этот сигнал проходит через преобразователь данных, который превращает его в пакеты, предназначенные для обработки различными алгоритмами. Данные о вовлеченности можно отделить от данных о рейтингах или от данных о тематике самого контента. Чтобы добавить информацию об отношениях пользователей друг к другу в рамках одной платформы, можно использовать социальный калькулятор – например, я часто просматриваю в Инстаграме посты моего друга Эндрю, и это заставляет систему рекомендаций с большей вероятностью ставить его посты на первое место в моей персональной ленте.

Далее идет конкретное уравнение индивидуального алгоритма. В современных платформах очень редко работает лишь один алгоритм – обычно их много. Мы имеем дело с целым набором различных уравнений, которые учитывают переменные и обрабатывают их несколькими способами. Одно уравнение рассчитывает результат, основываясь только на вовлеченности (например, находит контент с самой высокой средней вовлеченностью), в то время как другое отдает приоритет социальному контексту контента для конкретного пользователя. Эти алгоритмы также получают тот или иной показатель приоритета относительно друг друга. Комбинированная фильтрация – технология, в рамках которой используется несколько методов. Наконец, на выходе получается сама рекомендация – следующая песня в автоматическом плейлисте или упорядоченный список постов. Алгоритм определяет, например, что сообщение

из жизни друга появится в вашей ленте Фейсбука выше политических новостей.

Один из руководителей сервиса Pandora, который каталогизирует и рекомендует музыку, однажды описал мне систему этой компании как целый “оркестр” алгоритмов с “дирижирующим” алгоритмом. Каждый алгоритм применяет собственные стратегии для выработки рекомендаций, а затем алгоритм-дирижер определяет, какие варианты выдать в тот или иной момент. (При этом единственный результат работы сервиса – следующая песня в плейлисте.) В разные моменты требуются разные алгоритмические методы рекомендаций.

Единого монолитного “алгоритма” не существует, поскольку каждая платформа работает по-своему, используя индивидуальные переменные и наборы уравнений. Важно помнить, что работа ленты Фейсбука – это коммерческое решение, аналогичное тому, как производитель продуктов питания решает, какие ингредиенты использовать. Алгоритмы также меняются со временем, совершенствуясь с помощью машинного обучения. Данные, которые они получают, используются для постепенного самосовершенствования, чем стимулируется еще большее вовлечение; машина адаптируется к пользователям, а пользователи – к машине. Различия между платформами стали более заметными и актуальными в середине 2010-х годов, когда социальные сети и стриминговые сервисы усилили алгоритмическую подачу информации и та стала основой пользовательского опыта.

Мы, пользователи, в принципе не понимаем, как обычно работают алгоритмические рекомендации. Их уравнения, переменные и весовые коэффициенты не являются общедоступной информацией, потому что технологические компании не заинтересованы в их обнародовании. Они являются коммерческой тайной и важны для бизнеса почти так же, как коды запуска ядерных ракет – для государства. Их редко раскрывают; редко встречаются даже намеки на них. Одна из причин заключается в том, что в условиях общедоступности алгоритма пользователи получат возможность обманывать систему, чтобы продвигать свой собственный контент. Еще одна причина – страх перед конкуренцией: другие цифровые платформы могут украсть “секретный ингредиент” и состряпать более качественный продукт. И все же эти инструменты, как и многие другие цифровые технологии, зародились в некоммерческой среде.

Алгоритмы рекомендаций как способ автоматической обработки и сортировки информации начали применяться в 1990-х годах. Одним из первых примеров стала система сортировки электронной почты – муторное занятие и по сей день. Уже в 1992 году инженеры научно-исследовательского центра компании Xerox в Пало-Альто (более известного как PARC) начали утопать в почте. Они пытались решить проблему “растущего использования электронной почты, в результате которого пользователей захлестывает колоссальный поток входящих документов”, как написали Дэвид Голдберг, Дэвид Николс, Брайан Оки и Дуглас Терри в статье 1992 года. (Они даже не подозревали, с каким объемом цифровой коммуникации мы столкнемся в XXI веке.) Их система фильтрации электронной почты под названием Tapestry использовала два вида алгоритмов, работавших совместно: “фильтрация на основе содержания” и “совместная фильтрация”. Первый, который уже применялся в нескольких системах электронной почты, оценивал текст писем – например, если вы хотели установить приоритет по слову “алгоритм”. Второй, более инновационный метод, основывался на действиях других пользователей. При определении приоритета конкретного письма учитывалось, кто его открыл и как на него отреагировал. В статье говорилось:

Люди помогают друг другу осуществлять фильтрацию, записывая свои реакции на прочитанные документы. Например, такая реакция может уведомлять, что документ показался особенно интересным (или особенно неинтересным). Подобные реакции, называемые в общем случае аннотациями, могут быть доступными фильтрам других людей.

В Tapestry использовались “фильтратор”, запускавший повторяющиеся запросы по набору документов, “ящичек”, собиравший материалы, которые могли заинтересовать пользователя, и “оценщик”, который устанавливал приоритеты и категоризировал документы. Концептуально это очень похоже на современные алгоритмические ленты: цель Tapestry заключалась в том, чтобы выводить на первый план контент, который с наибольшей вероятностью окажется важен для пользователя. Однако подобная система требовала гораздо больше предварительных действий со стороны пользователей: им приходилось писать запросы, по которым система определяла, что они желают увидеть, основываясь либо на контенте, либо на действиях других пользователей. Остальным пользователям в системе также приходилось выполнять весьма целенаправленные действия, помечая материал как важный или нерелевантный. Для подобной схемы требуется небольшая группа людей, которые уже знают друг друга и понимают, как их сообщество взаимодействует с электронной почтой – например, вы уже осведомлены, что Джефф отвечает только на особо важные письма, и поэтому вы хотите, чтобы ваш фильтр выводил наверх все письма, на которые отвечает Джефф. Tapestry лучше всего функционировала в весьма небольшой системе.