Dolgin.indb
Шрифт:
ляются как два вектора m-мерного пространства, а сходство между ними опреде-
ляется по косинусу угла между двумя соответствующими векторами: где
– скалярное произведение двух векторов.
183
ЧАСТЬ 2. УХУДШАЮЩИЙ ОТБОР В ИНДУСТРИЯХ КУЛЬТУРЫ
ным методом (используется коэффициент корреляции Пирсона), либо
методом линейного сходства. Простейший способ измерения сходства
между пользователями – по
Для улучшения работы системы используются различные модифи-
кации ранее описанных методов156. В частности, для преодоления де-
фицита оценок конкретного пользователя и подбора ему подходящих
рекомендателей прибегают к «голосованию по умолчанию» (эта схема
подходит в том случае, если все потребляют одно и то же и сходным об-
разом оценивают). Эмпирически установлено, что точность предсказа-
ния растет, если присваивать неоцененным товарам некую гипотети-
ческую оценку. Чтобы получить ее, предложено вычислять сходство не
между пользователями, а между товарами157.
Поскольку вкусы людей из группы рекомендателей, подобранных
компьютерной программой для данного клиента, хотя и близки между
собой, но все же не идентичны, нужно каким-то образом резюмиро-
вать их общую оценку. В примитивном варианте она вычисляется как
простое среднее. В то же время ясно, что чем более сходны во вкусах
клиент и кто-то из его рекомендателей, тем весомей должен быть вклад
оценки данного рекомендателя в предсказание, обобщающее мнение
группы. Однако и в этом варианте учтено не все: в частности, поль-
зователи по-разному воспринимают шкалу оценок. Эта проблема сни-
мается, если абсолютные значения оценок корректируются с учетом
систематического сдвига от среднего для соответствующего рекомен-
дателя (так нивелируется общая позитивная или негативная установка
абонента).
Примем для простоты, что в нашем распоряжении для тестирования вкусов
только три произведения. Тогда каждого рекомендателя можно схематически
обозначить в виде точки в прямоугольной декартовой трехмерной системе коор-
динат (х, у, z), а ее положение полностью определится оценками данных произ-
ведений. Вкус клиента тоже можно охарактеризовать точкой, в соответствии с
высказанными предпочтениями. Если из начала координат в эти две точки про-
вести векторы, то угол между ними будет характеризовать степень близости вку-
сов клиента и рекомендателя.
156 Такие как голосование по умолчанию, обратная частотность, предсказание на ос-
новании взвешенного большинства и др.
157 Sarwar B., Karypis G., Konstan J., Riedl J. Item-Based Collaborative Filtering Recommendation Algorithms // Proc. 10th Intl WWW Conf., 2001.
шие результаты по сравнению с коллаборативными алгоритмами, ориентиро-
ванными на анализ потребителей. Так же считают и авторы работы: Deshpande M., Karypis G. Item-Based Top-N Recommendation Algorithms // ACM Trans.
Information Systems, Vol. 22, № 1, 2004. P. 143–177.
184
ГЛАВА 2.7. ОБЗОР РЕКОМЕНДАТЕЛЬНЫХ СИСТЕМ
Наряду с клиент-клиентскими системами применяется коллабора-
тивная фильтрация второго класса – модельного158. В этой схеме с помо-
щью некоего индекса сходства пользователей объединяют в кластеры.
Покупки и оценки, данные потребителями из одного сегмента, исполь-
зуются для вычисления рекомендаций. По утверждению Г. Линдена и
его соавторов, кластерные модели лучше масштабируются (т. е. приспо-
соблены к работе с крупными базами данных) в сравнении с поклиент-
ской коллаборативной фильтрацией, так как сверяют профиль пользо-
вателя с относительно небольшим количеством сегментов, а не с целой
пользовательской базой159. Сложный и дорогой кластерный подсчет
ведется в оффлайновом режиме, что разгружает систему. Но качество
рекомендаций при этом снижается, и вот почему. Кластерная модель
группирует пользователей в сегмент, сравнивает конкретного пользо-
вателя с этим сегментом и выдает всем членам сегмента общие реко-
мендации. Так как пользователи, объединенные в кластер, не обладают
идеальным сходством, рекомендации тоже не идеальны. Их качество
можно повысить, разбивая пользователей на высокооднородные под-
группы, но тогда их будет много, и анализ связи пользователь-сегмент
обойдется так же дорого, как и поиск сходных потребителей методом
субъект-субъектной (поклиентской) коллаборативной фильтрации160.
158 Billsus D., Pazzani M. Learning Collaborative Information Filters; Breese J. S., Heckerman D., Kadie C. Empirical Analysis of Predictive Algorithms for Collaborative Filtering; Getoor L., Sahami M. Using Probabilistic Relational Models for Collaborative Filtering //
Proc. Workshop Web Usage Analysis and User Profi ling (WEBKDD ’99), Aug. 1999; Goldberg K., Roeder T., Gupta D., Perkins C. Eigentaste: A Constant Time Collaborative Filtering Algorithm // Journal of Information Retrieval, Vol. 4, № 2, July 2001. P. 133–