За стеной фильтров. Что Интернет скрывает от вас?, Паризер Эли

За стеной фильтров. Что Интернет скрывает от вас?

на обложку

Паризер Эли

Шрифт:

Чтобы понять, как может работать этот механизм, рассмотрим сервис Google Translate, который сейчас обеспечивает сносный автоматический перевод почти с 60 языков [399] . Если вы думаете, что он создан на основе очень большой и весьма изощренной подборки словарей, то ошибаетесь. Инженеры Google решили опереться на вероятностный подход: они разработали программу, которая определяет, какие слова чаще появляются рядом с другими, а потом обработали огромные массивы доступных данных на разных языках, чтобы натренировать программу на них. Одним из самых крупных массивов были базы заявок на патенты и торговые знаки. В этом качестве они весьма уместны, поскольку во всех заявках говорится примерно одно и то же, они находятся в открытом доступе и их зачастую нужно подавать одновременно на разных языках. Translate «напустили»

на сотню тысяч патентных заявок на английском и французском, и программа смогла установить, что когда в английской версии документа появляется слово word, то во французской версии с высокой вероятностью — слово mot. И по мере того как пользователи поправляют Translate, она переводит все лучше и лучше [400] .

399

http://translate.google.com/support/?hl=en.

400

Nikki Tait. Google to Translate European Patent Claims. Financial Times, Nov. 29, 2010, http://www.ft.com/cms/s/0/02f71b76-fbce-lldf-b79a-00144feab49a.html.

То, что Translate делает с иностранными языками, Google намеревается проделать практически со всем остальным. Соучредитель компании Сергей Брин выразил интерес к проработке генетических данных. Сервис Google Voice накапливает миллионы минут записей человеческой речи, которые инженеры надеются использовать при создании нового поколения программ для распознавания речи. Сервис Google Research собрал большую часть научных статей. И, естественно, пользователи вливают в него миллиарды поисковых запросов каждый день; это еще одна богатая жила культурной информации. Если бы у вас был секретный план-высосать данные всей цивилизации и создать с их помощью искусственный интеллект, — лучшего и пожелать нельзя.

Становясь все более изощренным, протомозг Google откроет новые, совершенно замечательные возможности. Ученые из Индонезии смогут сразу пользоваться новейшими докладами из Стэнфорда (и наоборот), не дожидаясь, пока их кто-то переведет. Не исключено, что через несколько лет мы сможем говорить с носителем другого языка с автоматическим переводом; это откроет новые каналы межкультурной коммуникации и понимания.

Но чем «интеллектуальнее» окажутся эти системы, тем труднее будет их контролировать и понимать. Не совсем верно утверждение, будто они живут своей собственной жизнью, — все-таки это программы. Но они достигают такого уровня сложности, при котором даже программисты не могут в полной мере объяснить выдаваемый результат.

Это уже касается и поискового алгоритма Google. Даже для его создателей его работа оказывается в некотором роде таинственной. «Если бы они и раскрыли правила работы механизма, — говорит эксперт по поиску Дэнни Салливан, — вы бы все равно ничего не поняли. Даже если Google назовет все 200 сигналов, которые использует, и раскроет весь код, вы не поймете, что с ним делать» [401] . Главный поисковый механизм Google — это сотни тысяч строк программного кода. По словам одного сотрудника Google, который общался с разработчиками поисковой системы, «команда подправляет и настраивает код; они на самом деле не знают, что именно работает и почему, они просто смотрят на результат».

401

Из интервью автора, 10 сентября, 2010.

Google обещает не перегибать палку в пользу своих продуктов. Но чем сложнее и «умнее» становится система, тем сложнее понять, так ли это. Указать, где именно возникают предубеждения и ошибки в человеческом мозге, трудно или даже невозможно: слишком много там нейронов и связей, чтобы свести все к одному дающему сбой узлу или кусочку ткани. В интеллектуальной системе вроде Google эта непрозрачность может создать реальные проблемы — как до сих пор не получившее объяснения техническое «падение» бирж 6 мая 2010 года, вызвавшее обрушение индекса Доу-Джонса на 1000 пунктов за несколько минут [402] .

402

Graham Bowley. Stock Swing Still Baffles, with an Ominous Tone. New York Times, August 22, 2010, http://www.nytimes.com/2010/08/23/business/23flash.html.

одной своей провокационной статье главный редактор Wired Крис Андерсон утверждал, что большие базы данных сводят на нет потребность в научных теориях [403] . Зачем тратить время на формулировку гипотез на человеческом языке, если можно быстро проанализировать триллионы битов данных, выделить кластеры и установить все корреляции? Он цитирует директора по исследованиям Google Питера Норвига: «Все модели ошибаются, и все чаще вы можете добиться успеха и без них». Много чего можно сказать в оправдание этого подхода, но стоит помнить и о его оборотной стороне: если машины и могут увидеть результат, не имея моделей, то люди ничего не смогут без них понять. В попытках сделать управляющие нашей жизнью процессы понятными для людей есть ценность.

403

Chris Anderson. The End of Theory: The Data Deluge Makes the Scientific Method Obsolete. Wired, June 23, 2008, http://www.wired.com/science/discoveries/magazine/16-07/pb_theory.

Изобретатель суперкомпьютеров Дэнни Хиллис как-то сказал, что величайшее достижение человеческой технологии — это инструменты, позволяющие нам создать больше, чем мы понимаем [404] . Верно, но это же и причина наших самых страшных бедствий. Чем больше программы, управляющие персонализацией, похожи на сложный процесс человеческого познания, тем тяжелее понять, почему или как они принимают свои решения. Простые правила, закрывающие доступ к чему-то людям определенной группы или класса, нетрудно обнаружить, но, когда то же самое действие оказывается результатом бурлящей массы корреляций в глобальном суперкомпьютере, все становится куда хитрее. А в итоге сложно призвать эти системы и обслуживающие их компании к ответственности за их действия.

404

Jennifer Riskin. Genesis Redux: Essays in the History and Philosophy of Artificial Life. Chicago: University of Chicago Press, 2007, 200.

Бесплатных виртуальных обедов не бывает

Если бы вы включили в январе 2009 года одну из 25 мексиканских радиостанций, вы могли бы услышать балладу El mas grande enemigo с соло на аккордеоне. Хотя мелодия напоминает польку и весьма веселая, поется там о трагедии: мигранта, пытающегося нелегально пересечь границу, предает его «проводник», и он остается умирать под палящим солнцем пустыни. Еще одна песня из альбома Migra corridos рассказывает другую часть этой грустной истории:

Чтобы пересечь границу, Я залез в кузов грузовика И поделился своей печалью С сорока другими иммигрантами. Мне не сказали, Что это дорога в ад.

Если вам кажется, что эти тексты передают опасность пересечения границы слишком грубо и примитивно, то в этом-то и соль. Альбом Migra corridos записала одна фирма по заказу пограничной службы США. Это часть кампании, направленной на то, чтобы притормозить наплыв иммигрантов из-за границы. И песня — яркий пример того, что маркетологи деликатно именуют «финансируемыми рекламодателем медиа», или ФРМ [405] .

405

Marisol LeBron. 'Migracorridos': Another Failed Anti-immigration Campaign. North American Congress of Latin America, Mar. 17, 2009, https://nacla.org/node/5625.

Продакт-плейсмент вошел в моду не один десяток лет назад, и ФРМ — следующий логический шаг. Рекламодателям нравится продакт-плейсмент, поскольку эта уловка неплохо работает в медиа-среде, где все сложнее привлечь внимание людей к чему-либо, особенно к рекламе. Продакт-плейсмент нельзя перемотать или пропустить, не упустив часть того контента, который вам нужен. ФРМ — естественное развитие этой логики: медиа всегда были инструментами продажи товара, так почему же не устранить из этой цепочки посредника и не предложить производителям товара самим создавать контент?