Dolgin.indb
Шрифт:
141 С середины 1990-х гг. рекомендательные системы выделились в самостоятельную
область научных исследований, которые опираются на достижения когнитивных
наук, наработки информационно-поисковых систем, теорию прогнозирования и
проч.
142 Это можно записать следующим образом:
где С – это множество пользователей (вплоть до многих миллионов), S – группа
предлагаемых товаров (тоже миллионы единиц), U – функция полезности, описывающая
143 Дополнительно о рекомендательных системах см. приложение 1, глава 11.
144 См. приложение 1, раздел 11.8.
179
ЧАСТЬ 2. УХУДШАЮЩИЙ ОТБОР В ИНДУСТРИЯХ КУЛЬТУРЫ
ют с того, что проставляют баллы определенному количеству фильмов, которые они уже посмотрели. Системы способны выдавать рекоменда-
ции либо в виде перечня товаров наиболее подходящих данному потре-
бителю, либо в виде списка потребителей, для которых предпочтителен
некоторый товар (как подчеркивалось в первой главе, это различие на
практике оказывается принципиальным). Рекомендации могут генери-
роваться тремя способами:
1. Контентным: человеку рекомендуют товары, сходные с теми, кото-
рые он выбрал ранее.
2. Методом коллаборативной фильтрации: потребителю рекомен-
дуют товары, которые вычисляются по оценкам людей со схожими
вкусами, уже опробовавших данный продукт и поделившихся сво-
ими суждениями.
3. Гибридным методом, сочетающим в себе два предыдущих.
Кроме перечисленных существуют вспомогательные системы (кратко
упоминаются ниже), а также системы социальной навигации, которые
не являются рекомендательными и здесь не рассматриваются. В пос-
леднем случае предпочтения людей выявляют на основании прямых
и косвенных данных: интернет-сообщений, историй пользования
системой, гиперссылок и т. д. Они визуализируют взаимодействие че-
ловека с компьютером и помогают путешествующим по сети145.
2.7.1. Контентные методы выработки рекомендаций
В рекомендательных системах контентного типа полезность товара
выводится из потребительской оценки сходных продуктов. Например, для того чтобы посоветовать человеку фильмы, контентная система пы-
тается найти сходство между различными картинами, которые прежде
получили у него высокую оценку (одни и те же актеры, режиссеры, жан-
ры и т. д.). Подобные рекомендации основаны на принципе «найдите
для меня вещи, подобные тем, что мне нравились в прошлом». В основе
контентой рекомендательной системы лежат методы поиска информа-
ции146, ее сопоставления и фильтрации147. Этот подход чаще всего ис-
145
e New Millennium. Addison-Wesley, 2001.
146 Baeza-Yates R., Ribeiro-Neto B. Modern Information Retrieval. Addison-Wesley, 1999; Salton G. Automatic Text Processing. Addison-Wesley, 1989.
147 Belkin N., Croft B. Information Filtering and Information Retrieval // Comm. ACM, Vol. 35, № 12, 1992. P. 29–37.
180
ГЛАВА 2.7. ОБЗОР РЕКОМЕНДАТЕЛЬНЫХ СИСТЕМ
пользуют для текстов – документов, веб-сайтов, блогов и т. п. Профиль
предпочтений формируется на основе информации, которую получают
от потребителя либо напрямую, анкетированием, либо косвенно. Кон-
тент обычно описывается при помощи ключевых слов148. Профиль пот-
ребителя, указывающий на его предпочтения, создается путем выяв-
ления ключевых слов в контенте, которому ранее данный человек уже
вынес оценку. Профиль потребителя и профиль контента могут быть
представлены как векторы, а полезность данного контента для данного
потребителя определяется величиной угла между ними149. В частности, человеку, интересующемуся определенной темой, будут рекомендованы
148 Например, система Fab, специализирующаяся на рекомендациях веб-страниц, представляет их контент в виде 100 наиболее важных слов. Система Syskill & Webert описывает документы с помощью 128 самых информативных слов.
Существуют различные методы вычисления «важности» и «информативности»
слов в документах. Например, метод частотности / обратной частотности. Суть
его такова: пусть N – некоторое количество документов, которые могут быть
рекомендованы пользователям. В части этих документов (ni) встречается
ключевое слово kj. Кроме того, предположим, что fij – это количество раз, которое ключевое слово kj встречается в неком конкретном документе dj. Тогда
TFij – частота употребления ключевого слова kj в документе dj – определяется как
где максимум вычисляется из частотности fz,j всех ключевых слов kz, встречаю-
щихся в документе dj. Однако если ключевые слова широко распространены во
многих документах, то система не в состоянии корректно выбрать необходимый
текст. Поэтому измерение обратной частотности слова (IDFi) часто используется
наряду с измерением обычной частотности (Tfij). Обратная частотность для
ключевого слова ki обычно определяется как
Тогда вес ключевого слова ki в документе dj определяется как