Охота на электроовец. Большая книга искусственного интеллекта
Шрифт:
Удивительно, что в наши дни профессор Льюис известен не как основатель инцепционизма [inceptionism] (так сегодня нередко называют этот подход в искусстве), а как «самый терпеливый человек интернета». Дело в том, что он является владельцем учётной записи @johnlewis в Twitter, и ежегодно сотни пользователей со всего мира по ошибке отправляли ему твиты, предназначенные для сети британских универмагов John Lewis & Partners или члена Палаты представителей США от Джорджии Джона Льюиса. Профессор Льюис с присущими ему юмором и вежливостью перенаправлял отправленные ему сообщения (которых становилось особенно много в канун Рождества), чем заслужил у пользователей соцсети славу самого терпеливого человека в интернете [2755] , [2756] , [2757] . В 2014 г. сеть универмагов прислала Льюису подарочный набор (игрушечного пингвина Мэйбл
2755
Alice P. (2013). John Lewis, the most patient man on the internet / Daily Telegraph, 11 Nov 2013 // https://www.telegraph.co.uk/news/uknews/10440185/John-Lewis-the-most-patient-man-on-the-internet.html
2756
White A. (2015). The Worst Time Of Year For The Most Patient And Polite Man On The Internet Has Begun. We should probably honour him with a statue or something / BuzzFeed, Nov 6, 2015 // https://www.buzzfeed.com/alanwhite/whats-the-definition-of-madness-again
2757
Sanusi V. (2016). The Most Patient And Polite Man On The Internet Is Back At It Again / BuzzFeed, Nov 10, 2016 // https://www.buzzfeed.com/victoriasanusi/its-the-worst-time-of-year-for-the-most-patient-and-polite-m
2758
Massey N. (2014). Man called John Lewis sent Christmas advert penguin after being bombarded with tweets directed at store / Mirror, 20 Nov 2014 // https://www.mirror.co.uk/news/uk-news/man-called-john-lewis-sent-4658776
Всё это, конечно, не умаляет достижений исследователей из Google. После того как компания опубликовала подробное описание алгоритма и выложила в открытый доступ исходный код DeepDream, появилось множество инструментов в виде веб-сервисов, мобильных приложений и программ для персональных компьютеров, позволивших широким народным массам производить эксперименты с собственными изображениями.
Многие другие исследовательские группы занялись созданием собственных улучшенных вариантов DeepDream. Некоторые из этих экспериментов были весьма курьёзными. Например, энтузиаст машинного обучения Габриэль Го, ныне сотрудник OpenAI, использовал для генерации алгоритмических галлюцинаций нейронную сеть, созданную группой исследователей из компании Yahoo!, для обнаружения «взрослого» изобразительного контента. В итоге получился генератор довольно криповых порнографических фантазий [2759] .
2759
Vincent J. (2016). This AI program sees genitals everywhere it looks. Do androids dream of electric dicks? / The Verge, Oct 24, 2016 // https://www.theverge.com/2016/10/24/13379208/ai-nsfw-neural-nets-deep-dream-genitals
Рост интереса к алгоритмической парейдолии подстегнул дальнейшие исследования в этой области. В результате появилось множество улучшений исходного подхода (например, были предложены различные способы регуляризации, позволяющие улучшать те или иные качества итоговых изображений), а также были расширены границы его применения. В частности, развитие получили два важных направления в области генеративных моделей — перенос (художественного) стиля [(Artistic) Style Transfer] и семантическая манипуляция изображениями [Semantic Image Manipulation]. Поговорим сначала о первом из них.
Спустя примерно месяц после публикации материалов по DeepDream на сайте научных препринтов ArXiv.org появилась статья исследователей из Тюбингенского университета (Eberhard Karls Universitat Tubingen) Леона Гатиса, Александра Эккера и Маттиаса Бетге под названием «Нейронный алгоритм художественного стиля» (A Neural Algorithm of Artistic Style) [2760] .
При обучении свёрточных сетей распознаванию объектов они, как уже было отмечено ранее, формируют иерархию признаков распознаваемых объектов, начиная от наиболее простых, конкретных, относящихся к картам признаков, расположенным ближе ко входному слою сети, и заканчивая сложными, абстрактными, распознаваемыми более глубокими слоями. Ключевым выводом статьи исследователей из Тюбингена стало то, что представления содержания и стиля в свёрточной нейронной сети разделимы (по крайней мере отчасти). То есть существует возможность управлять обоими представлениями независимо друг от друга для создания новых изображений, в которых происходит замена оригинальной содержательной или стилевой составляющей на другую (например, позаимствованную из другого изображения). Более того, Гатису и его коллегам удалось создать алгоритм, способный выполнять подобные манипуляции.
2760
Gatys L. A., Ecker A. S., Bethge M. (2015). A Neural Algorithm of Artistic Style // https://arxiv.org/abs/1508.06576
Идея данного алгоритма основана на том, что в структуре обученной сети за представление содержания отвечают карты признаков с небольшим разбросом значений для объектов
Поскольку в большинстве случаев алгоритм не способен полностью разделить содержание и стиль изображения, то при синтезе картинки, которая объединяет содержимое одного изображения со стилем другого, обычно не существует решения, которое идеально соответствует обоим ограничениям. Поэтому авторы предусмотрели возможность регулировки «акцента модели», то есть меры, с которой модель предпочитает передать стиль изображения в ущерб содержанию.
Поскольку учёные из Тюбингена, как и их коллеги из Google, опубликовали исходный код своей модели, то вскоре появилось множество улучшенных версий исходного метода, а также доступные публике инструменты, позволяющие производить собственные опыты по переносу стиля. Как следствие, в соцсетях и электронных медиа вскоре оказалось большое количество продуктов этих опытов (причём не только для статических изображений, но и для видео).
Если при помощи свёрточных сетей можно изменять стиль изображения, то нельзя ли осуществлять более тонкие манипуляции, например подменять отдельные признаки? Разумеется, модели для выполнения подобных действий вскоре появились. Однако, прежде чем говорить о них, давайте зададимся одним интересным вопросом: можно ли считать полноценными творениями, оригинальными произведениями искусства галлюцинации DeepDream или изображения, полученные в результате переноса стиля? Если ответ на этот вопрос будет положительным, то нам придётся признать за машинами наличие у них способности творить. И конечно же, такой вывод является крайне некомфортным для разного рода критиков научно-технического прогресса и тех, кто считает, что успехи вычислительных моделей способны нанести ущерб человеческой гордости. Таких людей мы будем в шутку называть человеческими шовинистами.
Прежде чем рассуждать о возможностях моделей, нужно отметить, что понятие «оригинальность произведения» определено достаточно слабо и в отношении продуктов творчества людей. Является ли оригинальным произведением перерисовка шедевра в ином стиле? Является ли оригинальной работа ученика, подражающего учителю? Вообще в какой мере влияние учителя на творчество ученика делает произведения последнего неоригинальными? Мнение об оригинальности произведения нередко субъективно, и в ряде случаев за ним не стоит даже шаткого общественного консенсуса. Словом, между произведениями, повсеместно признанными оригинальными, и произведениями бесспорно подражательными лежит большая серая зона. Но мы всё же попробуем разобраться в этом вопросе чуть более детально — ведь раз люди нередко рассуждают об оригинальности творчества, то значит, они вкладывают в это понятие некий смысл.
Итак, какого рода возражения могут выдвинуть человеческие шовинисты (и просто скептики) в отношении способности нейронных сетей создавать оригинальные произведения?
Ну, во-первых, можно отметить, что ни DeepDream, ни модель исследователей из Тюбингена не оригинальны. На вход этих моделей подаются готовые изображения. При всей своей кажущейся серьёзности это возражение при более детальном рассмотрении не выглядит особенно основательным. На вход этих моделей можно подать совершенно случайный набор точек. В результате DeepDream сгенерирует случайные галлюцинации, а модель для переноса стиля создаст абстрактную картину в заданном стиле. Кроме того, существуют и более продвинутые методы порождения изображений с нуля, чем просто генерация случайного набора цветных точек. Например, мы уже упоминали автокодировщики. Обучив свёрточный автокодировщик на большом наборе изображений, можно затем подать на вход декодера случайно сгенерированное латентное представление и в результате получить совершенно новое изображение, напоминающее изображения из обучающей выборки (но в общем случае не идентичное ни одному из них).
Во-вторых, можно обвинить нейронные сети в «отсутствии замысла», однако понятие замысла плохо формализуемо. Этот аргумент напоминает знаменитую «китайскую комнату» Сёрля. Откуда мы знаем, что исходные посылки художника к созданию шедевра являются «настоящим» замыслом, а случайно сгенерированное латентное пространство свёрточного автокодировщика «ненастоящим»? Ведь сигналы в естественной нейронной сети тоже могут быть выражены в виде наборов чисел. Кто-то может сказать, что художник опирается на определённый жизненный опыт, социальную практику и наблюдения, но ведь и нейронная сеть в процессе обучения знакомится с человеческой социальной практикой, опосредованной прецедентами обучающей выборки.