Охота на электроовец. Большая книга искусственного интеллекта
Шрифт:
Используя модель PEPSI, энтузиасты быстро соорудили инструмент [2774] под названием DeepCreamPy, предназначенный для удаления цензуры с изображений, относящихся к жанру хентай (жанр японских комиксов и анимации, отличающийся наличием элементов эротики и/или порнографии).
Различных моделей GAN и их модификаций в наши дни создано превеликое множество: DCGAN [2775] , InfoGAN [2776] , DiscoGAN [2777] , ProGAN [2778] , WGAN [2779] , ImprovedWGAN [2780] , StyleGAN [2781] , StyleGAN2 [2782] , StyleGAN3 [2783] , StarGAN v2 [2784] и так далее.
2774
DeepCreamPy: Decensoring Hentai with Deep Neural Networks // https://github.com/deeppomf/DeepCreamPy
2775
Radford A., Metz L., Chintala S. (2015). Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks // https://arxiv.org/abs/1511.06434
2776
Chen X., Duan Y., Houthooft R., Schulman J., Sutskever I., Abbeel P. (2016). InfoGAN: Interpretable Representation Learning by Information Maximizing Generative Adversarial Nets // https://arxiv.org/abs/1606.03657
2777
Kim T., Cha M., Kim H., Lee J. K., Kim J. (2017). Learning to Discover Cross-Domain Relations with Generative Adversarial Networks // https://arxiv.org/abs/1703.05192
2778
Karras T., Aila T., Laine S., Lehtinen J. (2017). Progressive Growing of GANs for Improved Quality, Stability, and Variation // https://arxiv.org/abs/1710.10196
2779
Arjovsky M., Chintala S., Bottou L. (2017). Wasserstein GAN // https://arxiv.org/abs/1701.07875
2780
Gulrajani I., Ahmed F., Arjovsky M., Dumoulin V., Courville A. (2017). Improved Training of Wasserstein GANs // https://arxiv.org/abs/1704.00028
2781
Karras T., Laine S., Aila T. (2018). A Style-Based Generator Architecture for Generative Adversarial Networks // https://arxiv.org/abs/1812.04948
2782
Karras T., Laine S., Aittala M., Hellsten J., Lehtinen J., Aila T. (2019). Analyzing and Improving the Image Quality of StyleGAN // https://arxiv.org/abs/1912.04958
2783
Karras T., Aittala M., Laine S., Harkonen E., Hellsten J., Lehtinen J., Aila T. (2021). Alias-Free Generative Adversarial Networks // https://arxiv.org/abs/2106.12423
2784
Choi Y., Uh Y., Yoo J., Ha J.-W. (2019). StarGAN v2: Diverse Image Synthesis for Multiple Domains // https://arxiv.org/abs/1912.01865
Вот
А вот фотографии несуществующих людей, созданные при помощи модели StyleGAN2 от компании Nvidia:
В 2022 г. исследователи из Google Research продемонстрировали [2785] , как при помощи специальной техники, получившей название «самодистилляция» [self-distillation], можно обучать StyleGAN на неразмеченных изображениях, собранных в интернете. При этом модель успешно генерирует картинки высокого качества во многих доменах (в работе приводятся примеры генерации изображений львов, жирафов, слонов, попугаев и т. д.).
2785
Mokady R., Yarom M., Tov O., Lang O., Cohen-Or D., Dekel T., Irani M., Mosseri I. (2022). Self-Distilled StyleGAN: Towards Generation from Internet Photos // https://arxiv.org/abs/2202.12211
На сайте thisxdoesnotexist.com можно найти коллекцию GAN’ов для генерации изображений самых разных объектов: человеческих лиц, котиков, интерьеров, посуды, еды и даже несуществующих членов британского парламента.
Ниже приведено изображение из стэнфордского ежегодного доклада Artificial Intelligence Index Report за 2021 г. (AIIR-2021) [2786] , которое наглядно показывает прогресс в области генерации лиц.
Рис. 163. Прогресс в области генерации лиц
2786
Stanford Human-Centered Artificial Intelligence (HAI) (2021). Artificial Intelligence Index Report 2021 // https://aiindex.stanford.edu/wp-content/uploads/2021/03/2021-AI-Index-Report_Master.pdf
Тема генеративно-состязательных моделей заслуживает, бесспорно, отдельной книги. Но создание такой книги является довольно непростой задачей, поскольку новые архитектуры появляются так быстро, что автору книги будет непросто поспевать за исследователями.
В последнее время появляются модели, работающие более чем с двумя модальностями. Например, модель VATT (Video-Audio-Text Transformer, Видеоаудиотекстовый трансформер), созданная совместными усилиями исследователей Google, Корнеллского и Колумбийского университетов [2787] , а также модель data2vec от Meta (бывшей Facebook) [2788] , помимо текста и изображений, умеют оперировать со звуковыми данными.
2787
Akbari H., Yuan L., Qian R., Chuang W.-H., Chang S.-F., Cui Y., Gong B. (2021). VATT: Transformers for Multimodal Self-Supervised Learning from Raw Video, Audio and Text // https://arxiv.org/abs/2104.11178
2788
Baevski A., Hsu W.-N., Xu Q., Babu A., Gu J., Auli M. (2022). The first high-performance self-supervised algorithm that works for speech, vision, and text / Meta AI, January 20, 2022
Исследователи из DeepMind развивают технологию, получившую название ReLIC (Representation Learning via Invariant Causal Mechanisms, Обучение представлениям через инвариантные причинные механизмы), позволяющую обучать большие свёрточные сети с архитектурной ResNet в режиме самообучения [self-supervised learning], чтобы затем использовать выученные ими представления в решении самых разных задач, в которых востребовано компьютерное зрение, — от классификации картинок до создания систем искусственного интеллекта для аркадных игр [2789] , [2790] .
2789
Mitrovic J., McWilliams B., Walker J., Buesing L., Blundell C. (2020). Representation Learning via Invariant Causal Mechanisms // https://arxiv.org/abs/2010.07922
2790
Tomasev N., Bica I., McWilliams B., Buesing L., Pascanu R., Blundell C., Mitrovic J. (2022). Pushing the limits of self-supervised ResNets: Can we outperform supervised learning without labels on ImageNet? // https://arxiv.org/abs/2201.05119
Несмотря
2791
* В машинном обучении авторегрессионными обычно называют модели для предсказания следующего элемента последовательности на основе предыдущих её элементов.
2792
van den Oord A., Kalchbrenner N., Kavukcuoglu K. (2016). Pixel Recurrent Neural Networks // https://arxiv.org/abs/1601.06759
2793
van den Oord A., Kalchbrenner N., Vinyals O., Espeholt L., Graves A., Kavukcuoglu K. (2016). Conditional Image Generation with PixelCNN Decoders // https://arxiv.org/abs/1606.05328
Вскоре после появления оригинальной PixelCNN (и предложенной в оригинальной работе её модифицированной версии — Gated PixelCNN) был создан и её усовершенствованный вариант — PixelCNN++ [2794] . Сама по себе идея авторегрессионного моделирования многомерных дискретных данных при помощи глубоких нейронных сетей появилась задолго до PixelRNN и PixelCNN, но популярность в области генерации изображений она обрела только в середине 2010-х гг., под влиянием возросшего интереса к этой области.
2794
Salimans T., Karpathy A., Chen X., Kingma D. P. (2017). PixelCNN++: Improving the PixelCNN with Discretized Logistic Mixture Likelihood and Other Modifications // https://arxiv.org/abs/1701.05517
Авторегрессионные модели можно рассматривать в качестве декодеров, роль латентного пространства в которых выполняет обусловливающий вектор.
Ещё одной альтернативой генеративно-состязательным сетям являются так называемые диффузионные модели [Diffusion Model], создатели которых черпали своё вдохновение в неравновесной термодинамике. Обычно диффузионные модели учатся выполнять шаги, восстанавливающие изображение по его зашумлённой версии, для чего в обучающую выборку включаются пары картинок, в которых одна картинка была создана из другой путём диффузии, то есть добавления шума. Научившись обращать процесс диффузии вспять, модель затем может быть использована для того, чтобы в ходе цепочки последовательных шагов создавать картинки вообще из случайного шума. В качестве примеров диффузионных моделей можно назвать «Диффузионные вероятностные модели» [Diffusion probabilistic models] [2795] и «Диффузионные вероятностные модели, устраняющие шум» [Denoising diffusion probabilistic models] [2796] , [2797] . Исследования последних лет демонстрируют способность диффузионных моделей превзойти генеративно-состязательные сети в качестве генерации изображений [2798] , но сам процесс синтеза у диффузионных моделей вычислительно более затратен, так как требует выполнения большого количества шагов.
2795
Sohl-Dickstein J., Weiss E. A., Maheswaranathan N., Ganguli S. (2015). Deep Unsupervised Learning using Nonequilibrium Thermodynamics // https://arxiv.org/abs/1503.03585
2796
Ho J., Jain A., Abbeel P. (2020). Denoising Diffusion Probabilistic Models // https://arxiv.org/abs/2006.11239
2797
Nichol A., Dhariwal P. (2021). Improved denoising diffusion probabilistic models // https://arxiv.org/abs/2102.09672
2798
Dhariwal P., Nichol A. (2021). Diffusion Models Beat GANs on Image Synthesis // https://arxiv.org/abs/2105.05233
В принципе, в рамках GAN роль генератора вполне может выполнять авторегрессионная или даже диффузионная модель, однако в реальных генеративно-состязательных сетях в качестве генераторов обычно используются относительно легковесные модели (например, развёрточные [deconvolutional] сети, а в последнее время даже и трансформеры [2799] ), в противном случае и без того затратный и плохо предсказуемый процесс обучения GAN грозит стать непомерно дорогим и рискованным. Если же исключить из обучения состязательную часть, то можно позволить себе использование более сложной модели, в том числе такой, которая будет генерировать изображение при помощи многошагового процесса. Выбор конкретного подхода, как всегда, зависит во многом от специфики задачи — требований к скорости генерации и к её качеству, объёма обучающей выборки, наличия и типа разметки и так далее.
2799
Jiang Y., Chang S., Wang Z. (2021). TransGAN: Two Pure Transformers Can Make One Strong GAN, and That Can Scale Up // https://arxiv.org/abs/2102.07074
6.6.9 Машина как художник. Создание изображения по текстовому описанию
Конечно, возможности современных генеративных моделей компьютерного зрения не безграничны. Решать некоторые творческие задачи на уровне, сопоставимом с уровнем людей-профессионалов, машины пока что не умеют. И попытки решения таких сложных задач представляют, как мне кажется, наибольший интерес на данный момент — ведь они демонстрируют то, что в наши дни составляет передовой край искусственного интеллекта. Примером такой сложной задачи является генерация изображения по его текстовому описанию. Качество полученных результатов пока что вызывает вопросы, однако видно, что цель уже близка.