Охота на электроовец. Большая книга искусственного интеллекта
Шрифт:
Но вернёмся к DALL·E. Помимо генератора, DALL·E использует специальный ранжировщик, позволяющий отобрать из 512 изображений-кандидатов 32 наиболее удачных примера [2834] , [2835] . Этот ранжировщик оценивает степень соответствия изображения и его текстового описания и является отдельной нейронной сетью, получившей название CLIP (Contrastive Language–Image Pre-training, Контрастное предобучение для пары «язык — изображение») [2836] , [2837] .
2834
Ramesh A., Pavlov M., Goh G., Gray S., Chen M., Child R., Misra V., Mishkin P, Krueger G., Agarwal S., Sutskever I. (2021). DALL·E: Creating Images from Text / OpenAI Blog, January 5, 2021 // https://openai.com/blog/dall-e/
2835
Radford A., Sutskever I., Kim J. W., Krueger G., Agarwal S. (2021). CLIP: Connecting Text and Images / OpenAI Blog, January 5, 2021 // https://openai.com/blog/clip/
2836
Radford A., Sutskever I., Kim J. W., Krueger G., Agarwal S. (2021). CLIP: Connecting Text and Images / OpenAI Blog, January 5, 2021 // https://openai.com/blog/clip/
2837
Radford A., Kim J. W., Hallacy C., Ramesh A., Goh G., Agarwal S., Sastry G., Askell A., Mishkin P., Clark J., Krueger G., Sutskever I. (2021). Learning Transferable Visual Models From Natural Language Supervision // https://arxiv.org/abs/2103.00020
Изображения,
В 2021 г. моя команда стала одним из участников проекта по созданию русскоязычного аналога модели DALL·E. В начале ноября плодом объединённых усилий Управления экспериментальных систем машинного обучения, наших коллег из Sber AI, а также команды исследователей Самарского университета при деятельной помощи специалистов из SberCloud, обеспечивших нас ресурсами суперкомпьютеров «Кристофари» и «Кристофари Нео», на свет появились модели ruDALL-E XL (Malevich) с 1,3 млрд параметров, ruDALL-E XXL (Kandinsky) с 12 млрд параметров и две версии модели ruCLIP. С возможностями ruDALL-E XL вы можете познакомиться на сайте rudalle.ru или воспользовавшись виртуальными ассистентами семейства «Салют».
Для обучения ruDALL-E мы собрали 130 млн пар «текст — картинка» (на тот момент ещё не существовало таких внушительных публичных датасетов, как LAION-5B [2838] , содержащий 5 млрд пар «текст — картинка»; даже LAION-400M [2839] c 400 млн пар появился лишь в конце 2021 г.). Проект по обучению ruDALL-E потребовал около 30 000 часов вычислений GPU Nvidia Tesla V100 и тем самым стал самым большим нейросетевым вычислительным проектом в России и СНГ.
2838
Schuhmann C., Beaumont R., Vencu R., Gordon C., Wightman R., Cherti M., Coombes T., Katta A., Mullis C., Wortsman M., Schramowski P., Kundurthy S., Crowson K., Schmidt L., Kaczmarczyk R., Jitsev J. (2022). LAION-5B: An open large-scale dataset for training next generation image-text models // https://arxiv.org/abs/2210.08402
2839
Schuhmann C., Vencu R., Beaumont R., Kaczmarczyk R., Mullis C., Katta A., Coombes T., Jitsev J., Komatsuzaki A. (2021). LAION-400M: Open Dataset of CLIP-Filtered 400 Million Image-Text Pairs // https://arxiv.org/abs/2111.02114
Тогдашний исполнительный вице-президент, CTO Сбера, руководитель блока «Технологии» Давид Рафаловский так прокомментировал первые результаты этого проекта: «Помимо вклада в прогресс в области ИИ, генерация изображений закрывает две важных потребности современного бизнеса: возможность получить уникальную картинку под собственное описание, а также в любой момент создавать необходимое количество license-free-иллюстраций. При этом создание „мультимодальных“ нейронных сетей, которые обучаются сразу на нескольких видах данных, даже сейчас, в эпоху big data и огромных возможностей поиска, будет очень востребованным, поскольку решает задачи на принципиально ином уровне. Технология пока совсем новая, первые шаги в этом направлении были сделаны только в 2020 году, а ещё в 2018–2019 годах даже постановку такого рода задачи нельзя было себе представить. ruDALL-E можно считать настоящим прорывом для русскоязычной индустрии».
ruDALL-E в действительности является не просто реконструкцией DALL·E на основе разрозненных публикаций OpenAI, а в некотором роде развитием исходной модели. Так, оригинальный автокодировщик dVAE [2840] был заменён нами на собственный SBER VQ-GAN [2841] , обеспечивающий более качественную передачу человеческих лиц и некоторых других элементов изображений. Кроме того, к модели была добавлена ещё одна нейронная сеть на базе архитектуры ESRGAN [2842] , позволяющая увеличить размер сгенерированного изображения [2843] , [2844] . Младшие версии моделей были опубликованы [2845] нами в открытом доступе, что позволяет всем желающим использовать их в качестве компонентов собственных продуктов и сервисов.
2840
Ramesh A., Pavlov M., Goh G., Gray S., Voss C., Radford A., Chen M., Sutskever I. (2021). Zero-Shot Text-to-Image Generation // https://arxiv.org/abs/2102.12092
2841
https://github.com/sberbank-ai/sber-vq-gan
2842
Wang X., Yu K., Wu S., Gu J., Liu Y., Dong C., Loy C. C., Qiao Y., Tang X. (2018). ESRGAN: Enhanced Super-Resolution Generative Adversarial Networks // https://arxiv.org/abs/1809.00219
2843
Сбер создал первую мультимодальную нейросеть ruDALL-E, которая генерирует картинки по описанию на русском языке (2021) / Sber Press, 2 ноября 2021 // https://press.sber.ru/publications/sber-sozdal-pervuiu-multimodalnuiu-neiroset-rudall-e-kotoraia-generiruet-kartinki-po-opisaniiu-na-russkom-iazyke
2844
Димитров
2845
https://github.com/sberbank-ai/ru-dalle
20 декабря 2021 г. исследователи из OpenAI представили публике новую модель, получившую название GLIDE (Guided Language to Image Diffusion for Generation and Editing, Управляемая диффузия «язык в изображение» для генерации и редактирования). В ней получили дальнейшее развитие идеи, воплощённые ранее в DALL-E. Модель состоит из двух нейросетей, первая из которых (с 3,5 млрд параметров) генерирует изображение размером 64x64 пикселя, а вторая (с 1,5 млрд параметров) увеличивает его размер до 256x256. GLIDE может быть использована как для создания новых изображений, так и для изменения существующих. Создатели модели обучили также её уменьшенную версию с 300 млн параметров, получившую название GLIDE (filtered), и выложили последнюю в открытый доступ [2846] .
2846
Nichol A., Dhariwal P., Ramesh A., Shyam P., Mishkin P., McGrew B., Sutskever I., Chen M. (2021). GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models // https://arxiv.org/abs/2112.10741
Ещё одна интересная модель, способная работать одновременно с естественным языком и с изображениями, — сеть GPV-I (General Purpose Vision system, Система общего назначения для задач компьютерного зрения) [2847] . Она получает на вход изображение, а также описание задания, которое необходимо выполнить. На выходе сеть генерирует ответы по заданию: набор ограничительных рамок [bounding boxes], степеней уверенности [confidences] и текстовую часть. Авторы приводят примеры работы модели, в которых сеть успешно справляется с заданиями «Какого цвета собака?», «Видны ли на изображении деревья?», «Найди собаку», «Сгенерируй описание картинки» и «Что это?» (с указанием ограничительной рамки вокруг кошки на картинке). Подобные DALL·E и GPV-I модели приближают момент, когда машины смогут решать произвольные интеллектуальные задачи для произвольных наборов входных данных, представленных в произвольных модальностях.
2847
Gupta T., Kamath A., Kembhavi A., Hoiem D. (2021). Towards General Purpose Vision Systems // https://arxiv.org/abs/2104.00743
Ещё одна перспективная мультимодальная модель была создана усилиями моего коллеги по «Сберу» Алексея Шоненкова и известного эксперта в области глубокого обучения Михаила Константинова. Эта модель получила название RuDOLPH (Russian Diffusion On Language Picture Hyper-modality, Русская диффузионная [модель] на базе гипермодальности язык/изображения). RuDOLPH — это модель на основе трансформера, построенного из декодирующих блоков (подобного GPT-3), работающая с последовательностями вида «текст — изображение — текст» за счёт особой карты внимания. Это позволяет говорить о наличии у модели гипермодальности [2848] . Модель предназначена для быстрого и лёгкого применения, дообучения и open-source-исследований — код модели и веса опубликованы в открытом доступе. В режиме zero-shot (без дообучения под конкретную задачу и без примеров в затравке) RuDOLPH может решать следующие задачи: генерация текста, генерация изображений, ранжирование и классификация изображений, текста или их сочетания на основе их перплексии, построение текстового описания к изображениям, линейный пробинг [Linear Probing или Linear Probe] (т. е. обучение линейных моделей, опирающихся на представление, выученное глубокой моделью). RuDOLPH обладает интересным механизмом оценки качества собственной генерации изображения по тексту и текста по изображению за счёт гипермодальности, что позволяет значительно улучшить генеративные способности без применения сторонних нейронных сетей (в отличие, например, от связки DALL·E и CLIP). Ещё один новаторский механизм RuDOLPH, демонстрирующий силу гипермодальности, — это линейный пробинг в режиме zero-shot. Он состоит в следующем: модель по текстовым описаниям классов генерирует синтетические изображения, оценивает их качество (в роли такой оценки выступает перплексия текстового описания картинки для случая, если бы оно было размещено не до, а после сгенерированного изображения; то есть по сути оценивается степень соответствия описания полученному изображению), после чего состояние модели, возникающее вслед за получением последнего токена изображения, подаётся на вход линейному классификатору для его обучения. Это значительно повышает качество классификации, демонстрируемое моделью в режиме zero-shot.
2848
* Гипермодальность — свойство мультимодальной модели, позволяющее ей использовать как на входе, так и на выходе данные, представленные любым подмножеством поддерживаемых модальностей, а не только какой-либо одной. В случае ruDOLPH это означает, что как на входе, так и на выходе модели могут быть либо только текст, либо только изображение, либо последовательности вида «изображение — текст» или «текст — изображение».
Для декодирования модель может использовать как декодер на основе VQ-GAN, так и диффузионную модель с более высоким качеством синтеза сгенерированных изображений. В настоящее время опубликована версия модели с 350 млн параметров, а в ближайшем будущем планируется выпустить и более крупные версии [2849] .
В 2022 г. специалисты OpenAI опубликовали работу [2850] , посвящённую модели, получившей название DALL·E 2. Ниже приведено несколько примеров картинок, сгенерированных этой моделью по текстовому запросу. DALL·E 2 использует диффузионную генерацию и поражает не только удивительным качеством генерируемых изображений и умением визуализировать сложные абстрактные концепции, но и способностью выполнять широкий спектр задач, связанных с семантической манипуляцией изображениями. В этом смысле новая модель от OpenAI следует последним тенденциям развития фундаментальных моделей.
2849
Shonenkov A., Konstantinov M. (2021). RuDOLPH: One Hyper-Modal Transformer can be creative as DALL-E and smart as CLIP // https://github.com/sberbank-ai/ru-dolph
2850
Ramesh A., Dhariwal P., Nichol A., Chu C., Chen M. (2022). Hierarchical Text-Conditional Image Generation with CLIP Latents // https://arxiv.org/pdf/2204.06125.pdf