За стеной фильтров. Что Интернет скрывает от вас?
Шрифт:
В прокате фильмов риски невелики: в прошлом, например, многие зрители были убеждены, что если им понравились фильмы «Крестный отец» и «Крестный отец — 2», то понравится и «Крестный отец — 3». Но проблема чрезмерной подгонки — это, по сути, одна из центральных, неустранимых проблем стены фильтров. В сущности, это создание стереотипов.
Под «стереотипами» (этот термин употреблял еще Уолтер Липпман) часто понимаются злонамеренные, ксенофобские представления, не соответствующие действительности. Классический пример — «люди с таким-то цветом кожи глупее других». Однако даже если стереотипы и их негативные последствия в целом довольно точно описывают реальность, они все равно несправедливы по отношению к конкретным людям.
Маркетологи уже давно изучают «серую зону» между областью возможных прогнозов и теми прогнозами, которые оказались справедливы. По словам Чарли Страйкера, бывалого игрока отрасли поведенческого
274
Charlie Stryler. Marketing Panel at 2010 Social Graph Symposium, Microsoft Campus, Mountain View, CA, May 21, 2010.
275
Angwin. Web's New Gold Mine. Wall Street Journal, July 30, 2010, http://online.wsj.com/article/SB10001424052748703940904575395073512989404.html.
Это вызывает тревогу еще и потому, что от компаний не требуют объяснять, на основе чего они принимают решения. В результате суждение о вас вам неизвестно, и вы не сможете его оспорить. К примеру, Linkedln, социальная сеть по поиску работы, предлагает спрогнозировать вашу дальнейшую карьеру: сравнив ваше резюме с резюме других людей из вашей области, продвинувшихся дальше, она может предсказать, где вы окажетесь через пять лет. Программисты компании надеются, что вскоре она сможет подсказывать решения, которые принесут вам больше пользы: «IT-профессионалы среднего уровня вроде вас, окончившие бизнес-школу Wharton, зарабатывают на 25 тысяч долларов в год больше, чем те, кто в ней не учился». Это весьма полезный сервис. Но представьте, что будет, если Linkedin передаст эти данные корпоративным клиентам, чтобы помочь им отсеять людей, которые по прогнозу оказываются неудачниками. Это может произойти в тайне от вас, вы не сможете поспорить, доказать, что прогноз ошибочен. Здесь не действует презумпция невиновности.
Вам кажется несправедливым, что банки дискриминируют клиентов лишь потому, что их школьные приятели не спешат оплачивать свои счета, или потому, что ваши вкусы совпадают со вкусами многих злостных неплательщиков? Действительно, так и есть. И это подводит к более общей проблеме индукции — логического метода, на основе которого алгоритмы выводят прогнозы из данных. Философы бились над этой проблемой задолго до появления компьютеров. Вы можете подтвердить истинность математического доказательства, выводя его из аксиом, однако философ Давид Юм в 1722 году заметил, что на деле все иначе [276] . Как следует из одного инвестиционного клише, предыдущие показатели не гарантируют достижения таких же результатов в будущем.
276
David Hume. An Enquiry Concerning Human Understanding, Harvard Classics Volume 37, online edition, P. F. Collier & Son: 1910, Section VII, Part I, http://18th.eserver.org/hume-enquiry.html.
Возникает ряд серьезных вопросов по поводу науки, ведь она, по сути, представляет собой метод использования данных для прогнозирования будущего. Карл Поппер, выдающийся философ науки, всю жизнь пытался разобраться в проблеме индукции. Мыслители-оптимисты конца XIX века, изучая историю науки, видели и пей движение к истине. Поппер же решил сосредоточиться на тех обломках, что бросают вдоль этой дороги: на изобилии неверных теорий и идей, полностью соответствующих научным канонам и при этом ужасающе ошибочных. В конце концов, птолемеева концепция мира, где в центре — Земля, а Солнце и другие планеты вращаются вокруг
Поппер поставил проблему несколько иначе: если вы видели только белых лебедей, это еще не значит, что все лебеди — белые. Искать нужно черного лебедя — контрпример, подтверждающий, что теория ошибочна. «Фальсифицируемость», доказывал Поппер, — это ключ к поиску истины. Целью науки, с его точки зрения, было нахождение максимально убедительных аргументов, против которых никто не сможет найти контрпример — черного лебедя [277] . В основе взглядов Поппера лежало глубокое смирение в отношении выводимых научным методом знаний — ощущение, что мы ошибаемся столь же часто, как оказываемся правы, и обычно не знаем, правы мы или нет.
277
Karl Popper. The Logic of Scientific Discovery. New York: Routledge, 1992.
Именно этого лишены многие алгоритмические методы прогнозирования. Конечно, время от времени они сталкиваются с людьми и поступками, которые не вписываются в их шаблон, но такие отклонения не подрывают их фундаментальных основ. Ведь рекламодатели, от чьих денег зависит развитие подобных систем, не нуждаются в идеальных моделях. Им важно «попасть» в целевую аудиторию, а не прочувствовать всю сложность человеческого существа.
Когда вы моделируете погоду и предсказываете, что вероятность дождя составляет 70 процентов, этот прогноз никак не затрагивает состояние грозовых туч. Дождь пойдет или не пойдет, и все. Но когда вы предсказываете, что если мои друзья неплатежеспособны, то вероятность моей неплатежеспособности составляет 70 процентов, ситуация иная: ошибка повлечет за собой последствия. Это будет дискриминация.
Лучший способ избежать чрезмерной подгонки, по мнению Поппера, — это доказать ложность модели и выстроить новые алгоритмы, учитывающие презумпцию невиновности. Если Netflix показывает мне романтическую комедию и она мне нравится, он покажет мне еще одну и решит, будто я поклонник романтических комедий. Но если он хочет получить достоверную картину моей личности, ему следует постоянно проверять эту гипотезу — например, подкинуть мне фильм «Бегущий по лезвию» [278] и попробовать доказать, что я люблю не только комедии. Иначе я попаду в ловушку локального максимума, где обитают Хью Грант и Джулия Робертс.
278
Blade Runner — культовый фильм режиссера Ридли Скотта по мотивам романа Филипа Дика «Мечтают ли андроиды об электроовцах?», существует в семи версиях. Прим. ред.
Статистические модели, на которых основана степа фильтром, списывают со счетов слишком сильные отклонения. Но па деле именно они делают жизнь интересной и дают нам вдохновение. И именно отклонения — первые признаки перемен.
Один из лучших аргументов против алгоритмов прогнозирования можно найти, как это ни удивительно, у русского романиста XIX века Федора Достоевского. Его книга «Записки из подполья» была страстной критикой утопического научного рационализма тех дней. Достоевский размышлял над регламентированной, упорядоченной человеческой жизнью, которую обещала наука, и пророчил банальное будущее. «Все поступки человеческие, — ворчит безымянный рассказчик, — само собою, будут расчислены тогда по этим законам, математически, вроде таблицы логарифмов, до 108 000, и занесены в календарь… все будет так точно исчислено и обозначено, что на свете уже не будет более ни поступков, ни приключений». [279] .
279
Цит. по: Достоевский Ф. М. Записки из подполья // Достоевский Ф. М. Собрание сочинений в десяти томах. М.: Художественная литература, 1957. Прим. ред.
Мир часто следует предсказуемым правилам и соответствует предсказуемым моделям: прилив начинается и кончается, затмение приходит и уходит, даже погода становится все более предсказуемой. Но применять такой подход к человеческому поведению опасно хотя бы потому, что лучшие мгновения нашей жизни — зачастую самые непредсказуемые. Если жизнь полностью предсказуема, то и жить не стоит. Но алгоритмическая индукция может привести к тотальному детерминизму, когда наши предыдущие клики полностью определяют наше будущее. Иными словами, если мы не будем стирать нашу интернет-историю, возможно, нам придется повторять ее вечно.