Охота на электроовец. Большая книга искусственного интеллекта
Шрифт:
По мере совершенствования архитектур, роста размера и количества данных, на которых происходит обучение, генеративные сети становятся способны корректно обрабатывать всё более сложные и нестандартные текстовые запросы. Ещё недавно одной из типичных проблем генеративных моделей компьютерного зрения была их неспособность без ошибок нарисовать человеческие руки — с правильным числом и расположением пальцев. Но сегодня наиболее продвинутые модели чаще всего уже справляются с этой задачей. Вообще, как известно, нерекуррентные трансформерные модели не слишком хорошо умеют считать — с задачей подсчёта даже сравнительно небольшого числа объектов на генерируемой картинке (будь то пальцы, концы звезды, люди и т. д.) могут справиться только действительно большие нейросети, обученные на огромном числе соответствующих примеров. Другая проблема — создание сложных и необычных сочетаний объектов. Например, для большинства современных моделей уже не является проблемой изобразить астронавта на лошади, но если попросить модель нарисовать лошадь верхом на астронавте, то уже возникают большие трудности [2874] . Придумавший этот пример Гэри Маркус, профессор кафедры психологии Нью-Йоркского университета и специалист по ИИ, считает это одной из ярких иллюстраций того, что нейросетевые модели ограничены в постижении так называемой композициональности — свойства естественного языка, в соответствии с которым значение сложного выражения функционально зависит от значений отдельных его частей и способа, которым эти части комбинируются друг с другом, то есть по сути синтаксиса. По мнению Маркуса, композициональность сама собой не может быть постигнута современными нейросетевыми моделями за счёт увеличения количества обучающих данных. Для того чтобы решить эту проблему, по мнению Маркуса нужны специальные архитектуры [2875] .
2874
Marcus G. (2022). Horse rides astronaut / The Road to AI We Can Trust, 28.05.2022 // https://garymarcus.substack.com/p/horse-rides-astronaut
2875
Marcus G. (2022). Compositionality and Natural Language Understanding [slides] / The Challenge of Compositionality for AI / June 29-30, 2022 // https://compositionalintelligence.github.io/pdfs/Marcus.pdf
Впрочем, сегодня некоторые модели научились рисовать и лошадей на астронавтах, хотя такие примеры до сих пор плохо работают «из коробки» — для того чтобы получить требуемый результат, требуются усилия промпт-инженеров [2876] .
2876
* Промпт-инженер — специалист по составлению запросов (затравок, промптов) [prompts] для генеративных нейронных сетей; промпт-инжиниринг — дисциплина, занимающаяся вопросами сочинения или оптимизации промптов; по сути промпт-инжиниринг является развитием идеи «затравочного программирования», знакомого нам по цитировавшимся ранее высказываниям Андрея Карпатого и Гверна Бренуэна.
2877
McCammon J. (2023). Can a horse ride an astronaut? A taxonomy of antagonistic Midjourney prompts / 96 layers, 12 июня 2023 // https://www.96layers.ai/p/can-a-horse-ride-an-astronaut
2878
Lovering C., Pavlick E. (2023). Training Priors Predict Text-To-Image Model Performance // https://arxiv.org/abs/2306.01755
Помимо обработки антагонистических запросов, сегодня на повестке дня стоит умение моделей воспринимать максимально детализированные описания (например, не просто нарисовать лицо человека, а воспроизвести его облик по подробному описанию, включающему форму носа, цвет и форму глаз, губ и т. д.). Кроме того, сегодня исследователи опробуют нейросетевые модели в задачах генерации зрительных образов, обладающих большей размерностью: например в задачах генерации видео (о них мы подробнее поговорим в следующем разделе) и в задачах генерации трёхмерных объектов. К числу последних относятся модели для таких задач, как генерации полигональных сеток [mesh] трёхмерных объектов (например, модель TextMesh [2879] ), нейросетевой рендеринг (обычно при помощи моделей из семейства NeRF (Neural radiance field, Нейронное поле яркости) [2880] — RegNeRF [2881] , DreamFusion [2882] , Instant NeRF [2883] и т. д.), генерация изображений вместе с картами глубин (например, LDM3D [2884] ), построение карт глубин на основе имеющихся (в том числе сгенерированных) изображений — например MiDaS (Mixed Data Sampling, Смешанное семплирование данных) [2885] , и так далее. В марте 2023 г. был опубликован [2886] датасет под названием Objaverse-XL, включающий в себя более 10 млн трёхмерных объектов, снабжённых текстовыми описаниями (при этом в предыдущей версии Objaverse, вышедшей в декабре 2022 г., их было лишь чуть больше 800 тысяч [2887] ), что открыло дверь для создания новых, более совершенных моделей для 3D-генерации.
2879
Tsalicoglou C., Manhardt F., Tonioni A., Niemeyer M., Tombari F. (2023). TextMesh: Generation of Realistic 3D Meshes From Text Prompts // https://arxiv.org/abs/2304.12439
2880
Mildenhall B., Srinivasan P. P., Tancik M., Barron J. T., Ramamoorthi R., Ng R. (2020). NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis // https://arxiv.org/abs/2003.08934
2881
Niemeyer M., Barron J. T., Mildenhall B., Sajjadi M. S. M., Geiger A., Radwan N. (2023). RegNeRF: Regularizing Neural Radiance Fields for View Synthesis from Sparse Inputs // https://arxiv.org/abs/2112.00724
2882
Poole B., Jain A., Barron J. T., Mildenhall B. (2022). DreamFusion: Text-to-3D using 2D Diffusion // https://arxiv.org/abs/2209.14988
2883
Muller T., Evans A., Schied C., Keller A. (2022). Instant Neural Graphics Primitives with a Multiresolution Hash Encoding // https://arxiv.org/abs/2201.05989
2884
Ben Melech Stan G., Wofk D., Fox S., Redden A., Saxton W., Yu J., Aflalo E., Tseng S.-Y., Nonato F., Muller M., Lal V. (2023). LDM3D: Latent Diffusion Model for 3D // https://arxiv.org/abs/2305.10853
2885
Ranftl R., Lasinger K., Hafner D., Schindler K., Koltun V. (2019). Towards Robust Monocular Depth Estimation: Mixing Datasets for Zero-shot Cross-dataset Transfer // https://arxiv.org/abs/1907.01341
2886
Deitke M., Liu R., Wallingford M., Ngo H., Michel O., Kusupati A., Fan A., Laforte C., Voleti V., Gadre S. Y., VanderBilt E., Kembhavi A., Vondrick C., Gkioxari G., Ehsani K., Schmidt L., Farhadi A. (2023). Objaverse-XL: A Universe of 10M+ 3D Objects // https://arxiv.org/abs/2307.05663
2887
Deitke M., Schwenk D., Salvador J., Weihs L., Michel O., VanderBilt E., Schmidt L., Ehsani K., Kembhavi A., Farhadi A. (2022). Objaverse: A Universe of Annotated 3D Objects // https://arxiv.org/abs/2212.08051
Успехи графических генеративных нейросетей вызвали нешуточную полемику в сообществе профессиональных дизайнеров и художников [2888] , едва ли не более ожесточённую, чем споры времён появления фотографии. Впрочем, возможно, и на авторегрессионных моделях генерации изображений пока рано ставить крест: по крайней мере Parti [2889] от Google и Craiyon (бывшая DALL-E Mini, переименованная по требованию OpenAI) [2890] от Craiyon LLC также порой демонстрируют интересные результаты.
2888
Cheung R. (2023). Is the Panic Over AI Art Overblown? We Speak With Artists and Experts. / Vice, February 22, 2023 // https://www.vice.com/en/article/ake53e/ai-art-lawsuits-midjourney-dalle-chatgpt
2889
Yu J., Xu Y., Koh J. Y., Luong T., Baid G., Wang Z., Vasudevan V., Ku A., Yang Y., Ayan B. K., Hutchinson B., Han W., Parekh Z., Li X., Zhang H., Baldridge J., Wu Y. (2022). Scaling Autoregressive Models for Content-Rich Text-to-Image Generation // https://arxiv.org/abs/2206.10789
2890
Craiyon LLC (2023). Frequently asked questions // https://www.craiyon.com/#faq
Рис. 175. Изображение, сгенерированное моделью Kandinsky 2.1 по запросу «"Ктулху в дыму", стиль: 4k»
Вообще, успех фундаментальных моделей в области обработки естественного языка, а также генерации изображений по тексту подтолкнул специалистов из области компьютерного зрения к активным экспериментам в области этой парадигмы — действительно, почему бы не сделать предобученную модель, которую затем можно будет использовать для решения самых разных задач в области обработки изображений? В результате вслед за CLIP и DALL·E на свет появились такие модели, как FLORENCE [2891] и NUWA (Visual Synthesis Pre-training for Neural visUal World creAtion, Предобучение визуального синтеза для нейросетевого создания визуальных миров) [2892] от исследователей из Microsoft, ALIGN от Google Research [2893] , а также основанные на MoE-подходе V-MoE от Google Brain [2894] и WuDao 2.0 от Пекинской академии искусственного интеллекта [2895] .
2891
Yuan L., Chen D., Chen Y.-L., Codella N., Dai X., Gao J., Hu H., Huang X., Li B., Li C., Liu C., Liu M., Liu Z., Lu Y., Shi Y., Wang L., Wang J., Xiao B., Xiao Z., Yang J., Zeng M., Zhou L., Zhang P. (2021). Florence: A New Foundation Model for Computer Vision // https://arxiv.org/abs/2111.11432
2892
Wu C., Liang J., Ji L., Yang F., Fang Y., Jiang D., Duan N. (2021). NUWA: Visual Synthesis Pre-training for Neural visUal World creAtion // https://arxiv.org/abs/2111.12417
2893
Jia C., Yang Y., Xia Y., Chen Y.-T., Parekh Z., Pham H., Le Q. V., Sung Y., Li Z., Duerig T. (2021). Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision // https://arxiv.org/abs/2102.05918
2894
Riquelme C., Puigcerver J., Mustafa B., Neumann M., Jenatton R., Pinto A. S., Keysers D., Houlsby N. (2021). Scaling Vision with Sparse Mixture of Experts // https://arxiv.org/abs/2106.05974
2895
Romero A. (2021). GPT-3 Scared You? Meet Wu Dao 2.0: A Monster of 1.75 Trillion Parameters / towards data science, Jun 6, 2021 // https://towardsdatascience.com/gpt-3-scared-you-meet-wu-dao-2-0-a-monster-of-1-75-trillion-parameters-832cd83db484
Не остались в долгу и специалисты от DeepMind, представившие публике собственную модель под названием Flamingo, предназначенную для решения примерно того же спектра задач. Для обозначения этого класса моделей специалисты предлагают использовать термин «визуальные языковые модели» (Visual Language Models, VLMs). Flamingo имеет 80 млрд параметров и состоит из двух частей (отвечающих за текстовое и графическое представление соответственно), а также отдельной нейронной сети, обеспечивающей связь этих двух представлений [2896] , [2897] . Фактически роль первой части играет языковая модель Chinchilla с 70 млрд параметров, обученная специалистами DeepMind в ходе одного из предыдущих исследований. Напомним, что эта модель знаменита тем, что при существенно меньшем числе параметров в ряде тестов побеждает более «тяжёлые» аналоги, такие, например, как GPT-3 со 175 млрд параметров, Gopher (280 млрд параметров) и даже Megatron-Turing NLG (530 млрд параметров) [2898] , [2899] .
2896
Alayrac J.-B., Donahue J., Luc P., Miech A. (2022). Tackling multiple tasks with a single visual language model / DeepMind blog, April 28, 2022 // https://www.deepmind.com/blog/tackling-multiple-tasks-with-a-single-visual-language-model
2897
Alayrac J.-B., Donahue J., Luc P., Miech A., Barr I., Hasson Y., Lenc K., Mensch A., Millican K., Reynolds M., Ring R., Rutherford E., Cabi S., Han T., Gong Z., Samangooei S., Monteiro M., Menick J., Borgeaud S., Brock A., Nematzadeh A., Sharifzadeh S., Binkowski M., Barreira R., Vinyals O., Zisserman A., Simonyan K. (2022). Flamingo: a Visual Language Model for Few-Shot Learning // https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/tackling-multiple-tasks-with-a-single-visual-language-model/flamingo.pdf
2898
Hoffmann J., Borgeaud S., Mensch A., Sifre L. (2022). An empirical analysis of compute-optimal large language model training / DeepMind blog, April 12, 2022 // https://www.deepmind.com/publications/an-empirical-analysis-of-compute-optimal-large-language-model-training
2899
Hoffmann J., Borgeaud S., Mensch A., Buchatskaya E., Cai T., Rutherford E., de Las Casas D., Hendricks L. A., Welbl J., Clark A., Hennigan T., Noland E., Millican K., van den Driessche G., Damoc B., Guy A., Osindero S., Simonyan K., Elsen E., Rae J. W., Vinyals O., Sifre L. (2022). Training Compute-Optimal Large Language Models // https://arxiv.org/abs/2203.15556
В
2900
Kirillov A., Mintun E., Ravi N., Mao H., Rolland C., Gustafson L., Xiao T., Whitehead S., Berg A. C., Lo W.-Y., Dollar P., Girshick R. (2023). Segment Anything // https://arxiv.org/abs/2304.02643
6.6.10 Машина создаёт видео
Ещё одно большое и сложное направление для генеративных моделей — создание видео, хотя и здесь уже существуют первые прототипы решений для некоторых задач. Например, весьма впечатляющие результаты получены для задачи подмены лиц людей в видеороликах.
Благодаря этому в наш лексикон вошёл новый термин — «дипфейк» [deepfake] (от понятий deep learning — глубокое обучение и fake — подделка). Под дипфейками понимают изображения или видео, с которыми при помощи алгоритмов глубокого обучения была произведена серьёзная манипуляция (обычно заключающаяся в подмене действующих лиц). Дипфейки могут быть основой ложных новостных сообщений, мистификаций, финансового мошенничества, а также порнороликов с участием знаменитостей (или людей, ставших объектами так называемой порномести [revenge porn] — то есть размещения в публичном доступе материалов сексуального характера без согласия изображённого в них лица). Именно из-за страхов перед ненадлежащим использованием подобных технологий дипфейки, по всей видимости, и получили эту уничижительную кличку. Между тем эти же методы могут с успехом применяться в искусстве. Например, в марте 2018 г. поп-арт-художник Йозеф Айерле представил публике музыкальный клип на песню «Купи меня» [Comprami] итальянской певицы Виолы Валентино. В этом клипе (он получил название «Эмоции навсегда 2.0: в главной роли Орнелла Мути» (Un’emozione per sempre 2.0: starring Ornella Muti)) итальянская кинозвезда Орнелла Мути путешествует из 1978-го в 2018-й. Айерле использовал съёмки фотомодели Кендалл Дженнер. Нейросетевая модель заменила лицо Дженнер лицом Мути, таким образом технически в клипе мы можем наблюдать несуществующего человека с телом Кендалл Дженнер и лицом Орнеллы Мути [2901] , [2902] .
2901
Cizek K., Uricchio W., Wolozin S. (2019). Media co-creation with non-human systems / Cizek K., Uricchio W., Anderson J., Carter M. A., Detroit Narrative Agency, Harris T. A., Holmes M., Lachman R., Massiah L., Mertes C., Rafsky S., Stephenson M., Winger-Bearskin A., Wolozin S. (2019). Collective Wisdom. Massachusetts Institute of Technology // https://doi.org/10.21428/ba67f642.f7c1b7e5
2902
Ayerle J. (2018). Un'emozione per sempre 2.0: starring Ornella Muti / YouTube, Mar 23, 2018 // https://www.youtube.com/watch?v=c1vVHAY8Mc4
В 2019 г. американский артист Джим Мескимен опубликовал видео, в котором он читает своё стихотворение «Пожалейте бедного импрессиониста» (Pity the Poor Impressionist), попеременно принимая обличие 20 различных знаменитостей — от Джорджа Клуни и Роберта Де Ниро до Арнольда Шварценеггера и Джорджа Буша — младшего [2903] .
Технологии дипфейков открывают новые перспективы в кинематографе и рекламе. В приключенческом фильме 2016 г. «Изгой-один. Звёздные войны: Истории» (Rogue One: A Star Wars Story) на экране вновь появились молодая принцесса Лея и гранд-мофф Таркин. Исполнительнице роли Леи, Кэрри Фишер, на момент съёмок фильма было почти 60, а Питер Кушинг, сыгравший Таркина, умер более чем за 20 лет до начала съёмок. Для воссоздания образов артистов при помощи «классических» технологий CGI (Computer-Generated Imaginery, Сгенерированные компьютером изображения), таких как 3D-сканирование и скульптурное моделирование, создателям потребовались специальное оборудование и трудоёмкий процесс, для выполнения которого была привлечена большая команда специалистов [2904] , [2905] , [2906] , [2907] . Два года спустя создатель YouTube-канала derpfakes, молодой специалист по машинному обучению из Великобритании, продемонстрировал на своём канале фрагменты фильма «Хан Соло. Звёздные войны: Истории» (Solo: A Star Wars Story), в которых на место Олдена Эренрайка, сыгравшего в этом фильме главного героя, было вмонтировано лицо молодого Харрисона Форда. И хотя результат не был на 100% идеальным, он смотрелся, пожалуй, не хуже, чем творение профессиональных «клоноделов» [2908] . Появление цифровых двойников в кино послужило толчком к дискуссиям о «призрачном актёрстве» [ghost acting] [2909] , [2910] . В вышедшем в конце 2020 г. предновогоднем рекламном ролике «Сбера» в роли Жоржа Милославского появился воссозданный при помощи нейронных сетей молодой Леонид Куравлёв [2911] , что также спровоцировало активную полемику в прессе и социальных сетях [2912] , [2913] .
2903
Reichert C. (2019). This deepfake shows an impressionist taking on 20 celebrities, convincingly / c|net, Oct. 10, 2019 // https://www.cnet.com/news/this-deepfake-shows-an-impressionist-take-on-20-celebrities-convincingly/
2904
Grossman D. (2017). How LucasFilm Made Grand Moff Tarkin Look Real in 'Rogue One' / Popular Mechanics, Jan 6, 2017 // https://www.popularmechanics.com/culture/movies/a24641/grand-moff-tarkin-rogue-one/
2905
Orange B. A. (2016). Lucasfilm Responds to Rogue One CG Character Backlash / MovieWeb, December 27, 2016 // https://movieweb.com/rogue-one-tarkin-leia-cg-character-backlash-lucasfilm/
2906
Clarke C. (2017). How 3D scanning brought grand moff Tarkin back to life for Rogue One / 3D Printing Industry, January 27th 2017 // https://3dprintingindustry.com/news/3d-scanning-brought-grand-moff-tarkin-back-life-rogue-one-104458/
2907
Itzkoff D. (2016). How ‘Rogue One’ Brought Back Familiar Faces / The New York Times, Dec. 27, 2016 // https://www.nytimes.com/2016/12/27/movies/how-rogue-one-brought-back-grand-moff-tarkin.html
2908
Grossman D. (2018). Here's Harrison Ford Starring in 'Solo' Thanks to Deepfakes / Popular Mechanics, Oct, 17, 2018 // https://www.popularmechanics.com/culture/movies/a23867069/harrison-ford-han-solo-deepfakes/
2909
Radulovic P. (2018). Harrison Ford is the star of Solo: A Star Wars Story thanks to deepfake technology / Polygon, Oct 17, 2018 // https://www.polygon.com/2018/10/17/17989214/harrison-ford-solo-movie-deepfake-technology
2910
Winick E. (2018). How acting as Carrie Fisher's puppet made a career for Rogue One's Princess Leia / MIT Technology Review, October 16, 2018 // https://www.technologyreview.com/2018/10/16/139739/how-acting-as-carrie-fishers-puppet-made-a-career-for-rogue-ones-princess-leia/
2911
Петров О. (2020). Как из четырёх минут речи мы воссоздали голос молодого Леонида Куравлёва / Хабр, 2 декабря // https://habr.com/ru/company/sberbank/blog/530876/
2912
Буйлов М. (2020). Сберегательный образ жулика / Коммерсант. № 227 от 10.12.2020. С. 7 // https://www.kommersant.ru/doc/4604689
2913
Старовойтов О. (2020). Сбер 2020 и его амбассадор Жорж Милославский / finversia, 13.12.2020 // https://www.finversia.ru/publication/sber-2020-i-ego-ambassador-zhorzh-miloslavskii-86613
В наши дни самостоятельные эксперименты в области дипфейков может осуществить каждый желающий, для этого можно воспользоваться одним из инструментов с открытым исходным кодом — например Faceswap [2914] или DeepFaceLab [2915] , [2916] .
Современные генеративные модели могут также создавать видео на основе статических изображений. Например, авторы работы «Двигательная модель первого порядка для анимации изображений» (First Order Motion Model for Image Animation) [2917] демонстрируют, как нейросетевая модель заставляет двигаться фотографии и рисунки, привязав их к управляющему видео. Таким образом можно «оживить» портрет или старинное фото. В целом подход, базирующийся на генерации нового видео на основе геометрии опорного, приобрёл в последние годы заметную популярность. Управляющая информация из исходного видео извлекается при помощи различных вспомогательных нейросетей, например упоминавшейся ранее ControlNet или какой-либо сети, предназначенной для получения карты глубин, например MiDaS [2918] . Такой подход реализован, в частности, в моделях Gen-1 и Gen-2 от компании Runway Research [2919] , [2920] .
2914
https://github.com/deepfakes/faceswap
2915
Perov I., Gao D., Chervoniy N., Liu K., Marangonda S., Ume C., Mr. Dpfks, Facenheim C. S., RP L., Jiang J., Zhang S., Wu P., Zhou B., Zhang W. (2020). DeepFaceLab: A simple, flexible and extensible face swapping framework // https://arxiv.org/abs/2005.05535
2916
https://github.com/iperov/DeepFaceLab
2917
Siarohin A., Lathuiliere S., Tulyakov S., Ricci E., Sebe N. (2020). First Order Motion Model for Image Animation // https://arxiv.org/abs/2003.00196
2918
Ranftl R., Lasinger K., Hafner D., Schindler K., Koltun V. (2019). Towards Robust Monocular Depth Estimation: Mixing Datasets for Zero-shot Cross-dataset Transfer // https://arxiv.org/abs/1907.01341
2919
Esser P., Chiu J., Atighehchian P., Granskog J., Germanidis A. (2023). Structure and Content-Guided Video Synthesis with Diffusion Models // https://arxiv.org/abs/2302.03011
2920
Runway Research (2023). Gen-2: The Next Step Forward for Generative AI. // https://research.runwayml.com/gen2