Охота на электроовец. Большая книга искусственного интеллекта, Марков Сергей Николаевич

Охота на электроовец. Большая книга искусственного интеллекта

на обложку

Марков Сергей Николаевич

Шрифт:

По мере совершенствования архитектур, роста размера и количества данных, на которых происходит обучение, генеративные сети становятся способны корректно обрабатывать всё более сложные и нестандартные текстовые запросы. Ещё недавно одной из типичных проблем генеративных моделей компьютерного зрения была их неспособность без ошибок нарисовать человеческие руки — с правильным числом и расположением пальцев. Но сегодня наиболее продвинутые модели чаще всего уже справляются с этой задачей. Вообще, как известно, нерекуррентные трансформерные модели не слишком хорошо умеют считать — с задачей подсчёта даже сравнительно небольшого числа объектов на генерируемой картинке (будь то пальцы, концы звезды, люди и т. д.) могут справиться только действительно большие нейросети, обученные на огромном числе соответствующих примеров. Другая проблема — создание сложных и необычных сочетаний объектов. Например, для большинства современных моделей уже не является проблемой изобразить астронавта на лошади, но если попросить модель нарисовать лошадь верхом на астронавте, то уже возникают большие трудности [2874] . Придумавший этот пример Гэри Маркус, профессор кафедры психологии Нью-Йоркского университета и специалист по ИИ, считает это одной из ярких иллюстраций того, что нейросетевые модели ограничены в постижении так называемой композициональности — свойства естественного языка, в соответствии с которым значение сложного выражения функционально зависит от значений отдельных его частей и способа, которым эти части комбинируются друг с другом, то есть по сути синтаксиса. По мнению Маркуса, композициональность сама собой не может быть постигнута современными нейросетевыми моделями за счёт увеличения количества обучающих данных. Для того чтобы решить эту проблему, по мнению Маркуса нужны специальные архитектуры [2875] .

2874

Marcus G. (2022). Horse rides astronaut / The Road to AI We Can Trust, 28.05.2022 // https://garymarcus.substack.com/p/horse-rides-astronaut

2875

Marcus G. (2022). Compositionality and Natural Language Understanding [slides] / The Challenge of Compositionality for AI / June 29-30, 2022 // https://compositionalintelligence.github.io/pdfs/Marcus.pdf

Впрочем, сегодня некоторые модели научились рисовать и лошадей на астронавтах, хотя такие примеры до сих пор плохо работают «из коробки» — для того чтобы получить требуемый результат, требуются усилия промпт-инженеров [2876] .

Исследователь из Microsoft Джеймс Маккаммон придумал для обозначения такого типа запросов специальный термин «антагонистические запросы» [antagonistic prompts]; в своей статье он предлагает развёрнутую классификацию таких запросов и оценивает способность Midjourney 5.1 справляться с ними [2877] . В наши дни исследователи активно ищут способы улучшения работы моделей, генерирующих изображения, в том числе и в таких сложных случаях [2878] .

2876

* Промпт-инженер — специалист по составлению запросов (затравок, промптов) [prompts] для генеративных нейронных сетей; промпт-инжиниринг — дисциплина, занимающаяся вопросами сочинения или оптимизации промптов; по сути промпт-инжиниринг является развитием идеи «затравочного программирования», знакомого нам по цитировавшимся ранее высказываниям Андрея Карпатого и Гверна Бренуэна.

2877

McCammon J. (2023). Can a horse ride an astronaut? A taxonomy of antagonistic Midjourney prompts / 96 layers, 12 июня 2023 // https://www.96layers.ai/p/can-a-horse-ride-an-astronaut

2878

Lovering C., Pavlick E. (2023). Training Priors Predict Text-To-Image Model Performance // https://arxiv.org/abs/2306.01755

Помимо обработки антагонистических запросов, сегодня на повестке дня стоит умение моделей воспринимать максимально детализированные описания (например, не просто нарисовать лицо человека, а воспроизвести его облик по подробному описанию, включающему форму носа, цвет и форму глаз, губ и т. д.). Кроме того, сегодня исследователи опробуют нейросетевые модели в задачах генерации зрительных образов, обладающих большей размерностью: например в задачах генерации видео (о них мы подробнее поговорим в следующем разделе) и в задачах генерации трёхмерных объектов. К числу последних относятся модели для таких задач, как генерации полигональных сеток [mesh] трёхмерных объектов (например, модель TextMesh [2879] ), нейросетевой рендеринг (обычно при помощи моделей из семейства NeRF (Neural radiance field, Нейронное поле яркости) [2880] — RegNeRF [2881] , DreamFusion [2882] , Instant NeRF [2883] и т. д.), генерация изображений вместе с картами глубин (например, LDM3D [2884] ), построение карт глубин на основе имеющихся (в том числе сгенерированных) изображений — например MiDaS (Mixed Data Sampling, Смешанное семплирование данных) [2885] , и так далее. В марте 2023 г. был опубликован [2886] датасет под названием Objaverse-XL, включающий в себя более 10 млн трёхмерных объектов, снабжённых текстовыми описаниями (при этом в предыдущей версии Objaverse, вышедшей в декабре 2022 г., их было лишь чуть больше 800 тысяч [2887] ), что открыло дверь для создания новых, более совершенных моделей для 3D-генерации.

2879

Tsalicoglou C., Manhardt F., Tonioni A., Niemeyer M., Tombari F. (2023). TextMesh: Generation of Realistic 3D Meshes From Text Prompts // https://arxiv.org/abs/2304.12439

2880

Mildenhall B., Srinivasan P. P., Tancik M., Barron J. T., Ramamoorthi R., Ng R. (2020). NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis // https://arxiv.org/abs/2003.08934

2881

Niemeyer M., Barron J. T., Mildenhall B., Sajjadi M. S. M., Geiger A., Radwan N. (2023). RegNeRF: Regularizing Neural Radiance Fields for View Synthesis from Sparse Inputs // https://arxiv.org/abs/2112.00724

2882

Poole B., Jain A., Barron J. T., Mildenhall B. (2022). DreamFusion: Text-to-3D using 2D Diffusion // https://arxiv.org/abs/2209.14988

2883

Muller T., Evans A., Schied C., Keller A. (2022). Instant Neural Graphics Primitives with a Multiresolution Hash Encoding // https://arxiv.org/abs/2201.05989

2884

Ben Melech Stan G., Wofk D., Fox S., Redden A., Saxton W., Yu J., Aflalo E., Tseng S.-Y., Nonato F., Muller M., Lal V. (2023). LDM3D: Latent Diffusion Model for 3D // https://arxiv.org/abs/2305.10853

2885

Ranftl R., Lasinger K., Hafner D., Schindler K., Koltun V. (2019). Towards Robust Monocular Depth Estimation: Mixing Datasets for Zero-shot Cross-dataset Transfer // https://arxiv.org/abs/1907.01341

2886

Deitke M., Liu R., Wallingford M., Ngo H., Michel O., Kusupati A., Fan A., Laforte C., Voleti V., Gadre S. Y., VanderBilt E., Kembhavi A., Vondrick C., Gkioxari G., Ehsani K., Schmidt L., Farhadi A. (2023). Objaverse-XL: A Universe of 10M+ 3D Objects // https://arxiv.org/abs/2307.05663

2887

Deitke M., Schwenk D., Salvador J., Weihs L., Michel O., VanderBilt E., Schmidt L., Ehsani K., Kembhavi A., Farhadi A. (2022). Objaverse: A Universe of Annotated 3D Objects // https://arxiv.org/abs/2212.08051

Успехи графических генеративных нейросетей вызвали нешуточную полемику в сообществе профессиональных дизайнеров и художников [2888] , едва ли не более ожесточённую, чем споры времён появления фотографии. Впрочем, возможно, и на авторегрессионных моделях генерации изображений пока рано ставить крест: по крайней мере Parti [2889] от Google и Craiyon (бывшая DALL-E Mini, переименованная по требованию OpenAI) [2890] от Craiyon LLC также порой демонстрируют интересные результаты.

2888

Cheung R. (2023). Is the Panic Over AI Art Overblown? We Speak With Artists and Experts. / Vice, February 22, 2023 // https://www.vice.com/en/article/ake53e/ai-art-lawsuits-midjourney-dalle-chatgpt

2889

Yu J., Xu Y., Koh J. Y., Luong T., Baid G., Wang Z., Vasudevan V., Ku A., Yang Y., Ayan B. K., Hutchinson B., Han W., Parekh Z., Li X., Zhang H., Baldridge J., Wu Y. (2022). Scaling Autoregressive Models for Content-Rich Text-to-Image Generation // https://arxiv.org/abs/2206.10789

2890

Craiyon LLC (2023). Frequently asked questions // https://www.craiyon.com/#faq

Рис. 174. Изображение, сгенерированное моделью Kandinsky 2.1 по запросу «"Обворожительная хозяйка медной горы" , стиль: 4k»

Рис. 175. Изображение, сгенерированное моделью Kandinsky 2.1 по запросу «"Ктулху в дыму", стиль: 4k»

Вообще, успех фундаментальных моделей в области обработки естественного языка, а также генерации изображений по тексту подтолкнул специалистов из области компьютерного зрения к активным экспериментам в области этой парадигмы — действительно, почему бы не сделать предобученную модель, которую затем можно будет использовать для решения самых разных задач в области обработки изображений? В результате вслед за CLIP и DALL·E на свет появились такие модели, как FLORENCE [2891] и NUWA (Visual Synthesis Pre-training for Neural visUal World creAtion, Предобучение визуального синтеза для нейросетевого создания визуальных миров) [2892] от исследователей из Microsoft, ALIGN от Google Research [2893] , а также основанные на MoE-подходе V-MoE от Google Brain [2894] и WuDao 2.0 от Пекинской академии искусственного интеллекта [2895] .

2891

Yuan L., Chen D., Chen Y.-L., Codella N., Dai X., Gao J., Hu H., Huang X., Li B., Li C., Liu C., Liu M., Liu Z., Lu Y., Shi Y., Wang L., Wang J., Xiao B., Xiao Z., Yang J., Zeng M., Zhou L., Zhang P. (2021). Florence: A New Foundation Model for Computer Vision // https://arxiv.org/abs/2111.11432

2892

Wu C., Liang J., Ji L., Yang F., Fang Y., Jiang D., Duan N. (2021). NUWA: Visual Synthesis Pre-training for Neural visUal World creAtion // https://arxiv.org/abs/2111.12417

2893

Jia C., Yang Y., Xia Y., Chen Y.-T., Parekh Z., Pham H., Le Q. V., Sung Y., Li Z., Duerig T. (2021). Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision // https://arxiv.org/abs/2102.05918

2894

Riquelme C., Puigcerver J., Mustafa B., Neumann M., Jenatton R., Pinto A. S., Keysers D., Houlsby N. (2021). Scaling Vision with Sparse Mixture of Experts // https://arxiv.org/abs/2106.05974

2895

Romero A. (2021). GPT-3 Scared You? Meet Wu Dao 2.0: A Monster of 1.75 Trillion Parameters / towards data science, Jun 6, 2021 // https://towardsdatascience.com/gpt-3-scared-you-meet-wu-dao-2-0-a-monster-of-1-75-trillion-parameters-832cd83db484

Не остались в долгу и специалисты от DeepMind, представившие публике собственную модель под названием Flamingo, предназначенную для решения примерно того же спектра задач. Для обозначения этого класса моделей специалисты предлагают использовать термин «визуальные языковые модели» (Visual Language Models, VLMs). Flamingo имеет 80 млрд параметров и состоит из двух частей (отвечающих за текстовое и графическое представление соответственно), а также отдельной нейронной сети, обеспечивающей связь этих двух представлений [2896] , [2897] . Фактически роль первой части играет языковая модель Chinchilla с 70 млрд параметров, обученная специалистами DeepMind в ходе одного из предыдущих исследований. Напомним, что эта модель знаменита тем, что при существенно меньшем числе параметров в ряде тестов побеждает более «тяжёлые» аналоги, такие, например, как GPT-3 со 175 млрд параметров, Gopher (280 млрд параметров) и даже Megatron-Turing NLG (530 млрд параметров) [2898] , [2899] .

2896

Alayrac J.-B., Donahue J., Luc P., Miech A. (2022). Tackling multiple tasks with a single visual language model / DeepMind blog, April 28, 2022 // https://www.deepmind.com/blog/tackling-multiple-tasks-with-a-single-visual-language-model

2897

Alayrac J.-B., Donahue J., Luc P., Miech A., Barr I., Hasson Y., Lenc K., Mensch A., Millican K., Reynolds M., Ring R., Rutherford E., Cabi S., Han T., Gong Z., Samangooei S., Monteiro M., Menick J., Borgeaud S., Brock A., Nematzadeh A., Sharifzadeh S., Binkowski M., Barreira R., Vinyals O., Zisserman A., Simonyan K. (2022). Flamingo: a Visual Language Model for Few-Shot Learning // https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/tackling-multiple-tasks-with-a-single-visual-language-model/flamingo.pdf

2898

Hoffmann J., Borgeaud S., Mensch A., Sifre L. (2022). An empirical analysis of compute-optimal large language model training / DeepMind blog, April 12, 2022 // https://www.deepmind.com/publications/an-empirical-analysis-of-compute-optimal-large-language-model-training

2899

Hoffmann J., Borgeaud S., Mensch A., Buchatskaya E., Cai T., Rutherford E., de Las Casas D., Hendricks L. A., Welbl J., Clark A., Hennigan T., Noland E., Millican K., van den Driessche G., Damoc B., Guy A., Osindero S., Simonyan K., Elsen E., Rae J. W., Vinyals O., Sifre L. (2022). Training Compute-Optimal Large Language Models // https://arxiv.org/abs/2203.15556

начале 2023 г. исследователи из Meta представили [2900] публике проект SA (Segment Anything, Сегментируй всё): новую задачу, модель SAM (Segment Anything Model) и набор данных SA-1B для сегментации изображений (то есть по сути генерации масок, выделяющих на изображении фрагменты, обладающие заданными свойствами, например содержащие объекты определённого типа), включающий более чем 1 млрд масок и 11 млн изображений. Фактически SAM способна для любого изображения сгенерировать маску на основе текстового запроса. Это позволяет решать множество задач компьютерного зрения в режиме zero-shot.

2900

Kirillov A., Mintun E., Ravi N., Mao H., Rolland C., Gustafson L., Xiao T., Whitehead S., Berg A. C., Lo W.-Y., Dollar P., Girshick R. (2023). Segment Anything // https://arxiv.org/abs/2304.02643

6.6.10 Машина создаёт видео

Ещё одно большое и сложное направление для генеративных моделей — создание видео, хотя и здесь уже существуют первые прототипы решений для некоторых задач. Например, весьма впечатляющие результаты получены для задачи подмены лиц людей в видеороликах.

Благодаря этому в наш лексикон вошёл новый термин — «дипфейк» [deepfake] (от понятий deep learning — глубокое обучение и fake — подделка). Под дипфейками понимают изображения или видео, с которыми при помощи алгоритмов глубокого обучения была произведена серьёзная манипуляция (обычно заключающаяся в подмене действующих лиц). Дипфейки могут быть основой ложных новостных сообщений, мистификаций, финансового мошенничества, а также порнороликов с участием знаменитостей (или людей, ставших объектами так называемой порномести [revenge porn] — то есть размещения в публичном доступе материалов сексуального характера без согласия изображённого в них лица). Именно из-за страхов перед ненадлежащим использованием подобных технологий дипфейки, по всей видимости, и получили эту уничижительную кличку. Между тем эти же методы могут с успехом применяться в искусстве. Например, в марте 2018 г. поп-арт-художник Йозеф Айерле представил публике музыкальный клип на песню «Купи меня» [Comprami] итальянской певицы Виолы Валентино. В этом клипе (он получил название «Эмоции навсегда 2.0: в главной роли Орнелла Мути» (Un’emozione per sempre 2.0: starring Ornella Muti)) итальянская кинозвезда Орнелла Мути путешествует из 1978-го в 2018-й. Айерле использовал съёмки фотомодели Кендалл Дженнер. Нейросетевая модель заменила лицо Дженнер лицом Мути, таким образом технически в клипе мы можем наблюдать несуществующего человека с телом Кендалл Дженнер и лицом Орнеллы Мути [2901] , [2902] .

2901

Cizek K., Uricchio W., Wolozin S. (2019). Media co-creation with non-human systems / Cizek K., Uricchio W., Anderson J., Carter M. A., Detroit Narrative Agency, Harris T. A., Holmes M., Lachman R., Massiah L., Mertes C., Rafsky S., Stephenson M., Winger-Bearskin A., Wolozin S. (2019). Collective Wisdom. Massachusetts Institute of Technology // https://doi.org/10.21428/ba67f642.f7c1b7e5

2902

Ayerle J. (2018). Un'emozione per sempre 2.0: starring Ornella Muti / YouTube, Mar 23, 2018 // https://www.youtube.com/watch?v=c1vVHAY8Mc4

В 2019 г. американский артист Джим Мескимен опубликовал видео, в котором он читает своё стихотворение «Пожалейте бедного импрессиониста» (Pity the Poor Impressionist), попеременно принимая обличие 20 различных знаменитостей — от Джорджа Клуни и Роберта Де Ниро до Арнольда Шварценеггера и Джорджа Буша — младшего [2903] .

Технологии дипфейков открывают новые перспективы в кинематографе и рекламе. В приключенческом фильме 2016 г. «Изгой-один. Звёздные войны: Истории» (Rogue One: A Star Wars Story) на экране вновь появились молодая принцесса Лея и гранд-мофф Таркин. Исполнительнице роли Леи, Кэрри Фишер, на момент съёмок фильма было почти 60, а Питер Кушинг, сыгравший Таркина, умер более чем за 20 лет до начала съёмок. Для воссоздания образов артистов при помощи «классических» технологий CGI (Computer-Generated Imaginery, Сгенерированные компьютером изображения), таких как 3D-сканирование и скульптурное моделирование, создателям потребовались специальное оборудование и трудоёмкий процесс, для выполнения которого была привлечена большая команда специалистов [2904] , [2905] , [2906] , [2907] . Два года спустя создатель YouTube-канала derpfakes, молодой специалист по машинному обучению из Великобритании, продемонстрировал на своём канале фрагменты фильма «Хан Соло. Звёздные войны: Истории» (Solo: A Star Wars Story), в которых на место Олдена Эренрайка, сыгравшего в этом фильме главного героя, было вмонтировано лицо молодого Харрисона Форда. И хотя результат не был на 100% идеальным, он смотрелся, пожалуй, не хуже, чем творение профессиональных «клоноделов» [2908] . Появление цифровых двойников в кино послужило толчком к дискуссиям о «призрачном актёрстве» [ghost acting] [2909] , [2910] . В вышедшем в конце 2020 г. предновогоднем рекламном ролике «Сбера» в роли Жоржа Милославского появился воссозданный при помощи нейронных сетей молодой Леонид Куравлёв [2911] , что также спровоцировало активную полемику в прессе и социальных сетях [2912] , [2913] .

2903

Reichert C. (2019). This deepfake shows an impressionist taking on 20 celebrities, convincingly / c|net, Oct. 10, 2019 // https://www.cnet.com/news/this-deepfake-shows-an-impressionist-take-on-20-celebrities-convincingly/

2904

Grossman D. (2017). How LucasFilm Made Grand Moff Tarkin Look Real in 'Rogue One' / Popular Mechanics, Jan 6, 2017 // https://www.popularmechanics.com/culture/movies/a24641/grand-moff-tarkin-rogue-one/

2905

Orange B. A. (2016). Lucasfilm Responds to Rogue One CG Character Backlash / MovieWeb, December 27, 2016 // https://movieweb.com/rogue-one-tarkin-leia-cg-character-backlash-lucasfilm/

2906

Clarke C. (2017). How 3D scanning brought grand moff Tarkin back to life for Rogue One / 3D Printing Industry, January 27th 2017 // https://3dprintingindustry.com/news/3d-scanning-brought-grand-moff-tarkin-back-life-rogue-one-104458/

2907

Itzkoff D. (2016). How ‘Rogue One’ Brought Back Familiar Faces / The New York Times, Dec. 27, 2016 // https://www.nytimes.com/2016/12/27/movies/how-rogue-one-brought-back-grand-moff-tarkin.html

2908

Grossman D. (2018). Here's Harrison Ford Starring in 'Solo' Thanks to Deepfakes / Popular Mechanics, Oct, 17, 2018 // https://www.popularmechanics.com/culture/movies/a23867069/harrison-ford-han-solo-deepfakes/

2909

Radulovic P. (2018). Harrison Ford is the star of Solo: A Star Wars Story thanks to deepfake technology / Polygon, Oct 17, 2018 // https://www.polygon.com/2018/10/17/17989214/harrison-ford-solo-movie-deepfake-technology

2910

Winick E. (2018). How acting as Carrie Fisher's puppet made a career for Rogue One's Princess Leia / MIT Technology Review, October 16, 2018 // https://www.technologyreview.com/2018/10/16/139739/how-acting-as-carrie-fishers-puppet-made-a-career-for-rogue-ones-princess-leia/

2911

Петров О. (2020). Как из четырёх минут речи мы воссоздали голос молодого Леонида Куравлёва / Хабр, 2 декабря // https://habr.com/ru/company/sberbank/blog/530876/

2912

Буйлов М. (2020). Сберегательный образ жулика / Коммерсант. № 227 от 10.12.2020. С. 7 // https://www.kommersant.ru/doc/4604689

2913

Старовойтов О. (2020). Сбер 2020 и его амбассадор Жорж Милославский / finversia, 13.12.2020 // https://www.finversia.ru/publication/sber-2020-i-ego-ambassador-zhorzh-miloslavskii-86613

В наши дни самостоятельные эксперименты в области дипфейков может осуществить каждый желающий, для этого можно воспользоваться одним из инструментов с открытым исходным кодом — например Faceswap [2914] или DeepFaceLab [2915] , [2916] .

Современные генеративные модели могут также создавать видео на основе статических изображений. Например, авторы работы «Двигательная модель первого порядка для анимации изображений» (First Order Motion Model for Image Animation) [2917] демонстрируют, как нейросетевая модель заставляет двигаться фотографии и рисунки, привязав их к управляющему видео. Таким образом можно «оживить» портрет или старинное фото. В целом подход, базирующийся на генерации нового видео на основе геометрии опорного, приобрёл в последние годы заметную популярность. Управляющая информация из исходного видео извлекается при помощи различных вспомогательных нейросетей, например упоминавшейся ранее ControlNet или какой-либо сети, предназначенной для получения карты глубин, например MiDaS [2918] . Такой подход реализован, в частности, в моделях Gen-1 и Gen-2 от компании Runway Research [2919] , [2920] .

2914

https://github.com/deepfakes/faceswap

2915

Perov I., Gao D., Chervoniy N., Liu K., Marangonda S., Ume C., Mr. Dpfks, Facenheim C. S., RP L., Jiang J., Zhang S., Wu P., Zhou B., Zhang W. (2020). DeepFaceLab: A simple, flexible and extensible face swapping framework // https://arxiv.org/abs/2005.05535

2916

https://github.com/iperov/DeepFaceLab

2917

Siarohin A., Lathuiliere S., Tulyakov S., Ricci E., Sebe N. (2020). First Order Motion Model for Image Animation // https://arxiv.org/abs/2003.00196

2918

Ranftl R., Lasinger K., Hafner D., Schindler K., Koltun V. (2019). Towards Robust Monocular Depth Estimation: Mixing Datasets for Zero-shot Cross-dataset Transfer // https://arxiv.org/abs/1907.01341

2919

Esser P., Chiu J., Atighehchian P., Granskog J., Germanidis A. (2023). Structure and Content-Guided Video Synthesis with Diffusion Models // https://arxiv.org/abs/2302.03011

2920

Runway Research (2023). Gen-2: The Next Step Forward for Generative AI. // https://research.runwayml.com/gen2