Чтение онлайн

на главную - закладки

Жанры

Охота на электроовец. Большая книга искусственного интеллекта
Шрифт:

Вышедшая в мае 2022 г. работа [2983] исследователей из DeepMind под лаконичным названием «Универсальный агент» [A Generalist Agent] представила миру модель под названием Gato (gato по-испански означает «кот»; в статье это название никак не расшифровывается). Модель обучали выполнению 604 различных задач, в числе которых ведение диалога, написание подписей к изображениям, игра в игры Atari и даже складывание блоков при помощи роборуки. Хотя модель по современным меркам была весьма небольшой (всего 1,2 млрд параметров), она смогла превзойти людей в 450 из 604 вышеупомянутых задач. Архитектурно Gato — это трансформер, в котором словарь включает в себя токены, относящиеся к разным модальностям (фрагменты текстовых последовательностей, фрагменты изображений, действия роборуки и т. д.). Способность Gato управлять различными устройствами подводит нас к ещё одной букве M, а именно к такому свойству модели, как «мультивоплощение» [multi-embodiment]. Если бы Gato была ещё и MoE-моделью, то её смело можно было бы отнести к типу M5.

2983

Reed S., Zolna K., Parisotto E., Colmenarejo S. G., Novikov A., Barth-Maron G., Gimenez M., Sulsky Y., Kay J., Springenberg J. T., Eccles T., Bruce J., Razavi A., Edwards A., Heess N., Chen Y., Hadsell R., Vinyals O., Bordbar M., de Freitas N. (2022). A Generalist Agent // https://arxiv.org/abs/2205.06175

Эстафету исследователей из DeepMind подхватили их коллеги из Google. Немного раньше они экспериментировали с бимодальной текстово-визуальной моделью под названием PaLI (Pathways Language and Image model, Языковая и визуальная модель на основе системы Pathways) [2984] , и, взяв за основу свою большую (540 млрд параметров) языковую модель PaLM, они расширили её, добавив новые модальности (изображения,

а также модальности для сенсоров и действий). Итоговая модель с 562 млрд параметров получила название PaLM-E, где буква E является сокращением от слова embodied [воплощённая] [2985] .

2984

Chen X., Wang X., Changpinyo S., Piergiovanni A., Padlewski P., Salz D., Goodman S., Grycner A., Mustafa B., Beyer L., Kolesnikov A., Puigcerver J., Ding N., Rong K., Akbari H., Mishra G., Xue L., Thapliyal A., Bradbury J., Kuo W., Seyedhosseini M., Jia C., Ayan B. K., Riquelme C., Steiner A., Angelova A., Zhai X., Houlsby N., Soricut R. (2022). PaLI: A Jointly-Scaled Multilingual Language-Image Model // https://arxiv.org/abs/2209.06794

2985

Driess D., Xia F., Sajjadi M. S. M., Lynch C., Chowdhery A., Ichter B., Wahid A., Tompson J., Vuong Q., Yu T., Huang W., Chebotar Y., Sermanet P., Duckworth D., Levine S., Vanhoucke V., Hausman K., Toussaint M., Greff K., Zeng A., Mordatch I., Florence P. (2023). PaLM-E: An Embodied Multimodal Language Model // https://arxiv.org/abs/2303.03378

В конце 2022 г. исследователи из Google порадовали общественность ещё одной многозадачной трансформерной моделью — RT-1 (Robotic Transformer-1, Трансформер для роботов — 1) [2986] , предназначенной для управления роботом, решающим задачи в реальном мире. В июле 2023 г. была представлена вторая версия модели — RT-2 [2987] , а в начале октября 2023 г. был опубликован набор данных под названием RT-X [2988] . Он был создан DeepMind совместно с партнёрами из 33 академических лабораторий и содержит в себе примерно миллион примеров решений 22 моделями роборук 150 000 задач, относящихся к более чем 500 навыкам. Исследователи смогли показать, что добавление в обучающую выборку трансформерной модели данных, относящихся не только к целевому, но и к другим типам роботов, приводит к существенному росту доли успешно решаемых задач. Чтобы исследовать этот эффект передачи знаний, авторы изучили работу роборуки под управлением модели RT-2, обученной с привлечением данных, полученных на других роборуках. Оказалось, что этот подход позволяет примерно в три раза повысить долю успешных решений на новых для системы задачах.

2986

Brohan A., Brown N., Carbajal J., Chebotar Y., Dabis J., Finn C., Gopalakrishnan K., Hausman K., Herzog A., Hsu J., Ibarz J., Ichter B., Irpan A., Jackson T., Jesmonth S., Joshi N. J., Julian R., Kalashnikov D., Kuang Y., Leal I., Lee K., Levine S., Lu Y., Malla U., Manjunath D., Mordatch I., Nachum O., Parada C., Peralta J., Perez E., Pertsch K., Quiambao J., Rao K., Ryoo M., Salazar G., Sanketi P., Sayed K., Singh J., Sontakke S., Stone A., Tan C., Tran H., Vanhoucke V., Vega S., Vuong Q., Xia F., Xiao T., Xu P., Xu S., Yu T., Zitkovich B. (2022). RT-1: Robotics Transformer for Real-World Control at Scale // https://arxiv.org/abs/2212.06817

2987

Brohan A., Brown N., Carbajal J., Chebotar Y., Chen X., Choromanski K., Ding T., Driess D., Dubey A., Finn C., Florence P., Fu C., Arenas M. G., Gopalakrishnan K., Han K., Hausman K., Herzog A., Hsu J., Ichter B., Irpan A., Joshi N., Julian R., Kalashnikov D., Kuang Y., Leal I., Lee L., Lee T. E., Levine S., Lu Y., Michalewski H., Mordatch I., Pertsch K., Rao K., Reymann K., Ryoo M., Salazar G., Sanketi P., Sermanet P., Singh J., Singh A., Soricut R., Tran H., Vanhoucke V., Vuong Q., Wahid A., Welker S., Wohlhart P., Wu J., Xia F., Xiao T., Xu P., Xu S., Yu T., Zitkovich B. (2023). RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control // https://arxiv.org/abs/2307.15818

2988

Vuong Q., Sanketi P. (2023). Scaling up learning across many different robot types / DeepMind blog, October 3, 2023 // https://www.deepmind.com/blog/scaling-up-learning-across-many-different-robot-types

Нейросети, используемые для моделирования мультимодальных последовательностей, в последнее время принято обозначать термином MLLM (Multimodal Large Language Models, Мультимодальные большие языковые модели). За последние годы появилось довольно много MLLM, помимо PaLI тут стоит упомянуть вышедшие в 2023 г. FROMAGe [2989] от Руслана Салахутдинова и его команды из Университета Карнеги — Меллона, Qwen-VL от исследователей из Alibaba Cloud [2990] , а также Kosmos-1 [2991] и Kosmos-2 [2992] от исследователей из Microsoft.

2989

Koh J. Y., Salakhutdinov R., Fried D. (2023). Grounding Language Models to Images for Multimodal Inputs and Outputs // https://arxiv.org/abs/2301.13823

2990

Bai J., Bai S., Yang S., Wang S., Tan S., Wang P., Lin J., Zhou C., Zhou J. (2023). Qwen-VL: A Frontier Large Vision-Language Model with Versatile Abilities // https://arxiv.org/abs/2308.12966

2991

Huang S., Dong L., Wang W., Hao Y., Singhal S., Ma S., Lv T., Cui L., Mohammed O. K., Patra B., Liu Q., Aggarwal K., Chi Z., Bjorck J., Chaudhary V., Som S., Song X., Wei F. (2023). Language Is Not All You Need: Aligning Perception with Language Models // https://arxiv.org/abs/2302.14045

2992

Peng Z., Wang W., Dong L., Hao Y., Huang S., Ma S., Wei F. (2023). Kosmos-2: Grounding Multimodal Large Language Models to the World // https://arxiv.org/abs/2306.14824

В универсальности дизайна Gato и PaLM-E и RT-1 усматривается глубинная аналогия с нервной системой живых организмов. Соматосенсорная кора нашего мозга получает на вход поток сигналов от сенсорных систем организма, а моторная кора, в свою очередь, генерирует импульсы для наших мышц. В некотором роде наш мозг, подобно генеративной трансформерной модели, также решает задачу продолжения последовательности, в данном случае — последовательности электрохимических импульсов длиною в нашу жизнь.

Для того чтобы модели могли работать с самыми разными модальностями представления данных, активно исследуются подходы, при которых модель должна самостоятельно определять пространственную структуру данных. В случае с текстом следующий токен последовательности зависит более всего от предыдущего; в случае чёрно-белого изображения, записанного в виде последовательности чисел, представляющей собой градации серого цвета, следующий токен последовательности будет примерно одинаково сильно зависеть как от предыдущего токена, так и от токена, отстоящего от текущего на число позиций, равное ширине изображения (т. е. цвет пикселя примерно одинаково зависит от пикселя, расположенного слева от него, и от пикселя, расположенного сверху); в случае же цветного изображения, представленного путём разложения цвета на несколько цветовых каналов, появится ещё и зависимость между токенами, относящимися к разным каналам. Почему бы не поручить нейросетевой модели самой разбираться с тем, какие именно пространственные зависимости существуют в используемой последовательности? Тогда она сможет эффективно работать и с разными типами информации, и с разными способами её представления. Для решения этой задачи исследователи из DeepMind разработали модель под названием Perceiver (дословно: «Восприниматель») [2993] , а также её усовершенствованную версию — Hierarchical Perceiver (Иерархический восприниматель) [2994] . В этих исследованиях мы видим, как выстраивается мостик между такими, казалось бы, частными задачами, как генерация изображений или генерация текста, и задачей создания систем общего искусственного интеллекта.

2993

Jaegle A., Gimeno F., Brock A., Zisserman A., Vinyals O., Carreira J. (2021). Perceiver: General Perception with Iterative Attention // https://arxiv.org/abs/2103.03206

2994

Carreira J., Koppula S., Zoran D., Recasens A., Ionescu C., Henaff O., Shelhamer E., Arandjelovic R., Botvinick M., Vinyals O., Simonyan K., Zisserman A., Jaegle A. (2022). Hierarchical Perceiver // https://arxiv.org/abs/2202.10890

6.6.13 Другие творческие успехи машин

Генеративные модели машинного обучения, созданные в последние годы, применяются в самых разных областях человеческой деятельности, требующих решения творческих задач. Например, за последние десять лет заключен ряд альянсов между командами, специализирующимися на создании алгоритмов для генеративной биохимии, и крупными фармкомпаниями. В частности, фармацевтический гигант Pfizer объявил о сотрудничестве с IBM Watson, другой — Sanofi —

приобрёл компанию Genzyme и подписал соглашение о сотрудничестве с Recursion Pharmaceuticals. Лидер британской фармацевтики GlaxoSmithKline вступил в союз с компанией Exscientia, американский фармгигант Celgene — с Evotec, швейцарский Roche в лице своего дочернего предприятия Genentech использует технологии ИИ компании GNS Healthcare, один из лидеров мировой офтальмологии Santen объединил усилия с компанией twoXAR в поиске новых лекарств от глаукомы, а фонд Royal Free London NHS Foundation Trust заключил соглашение с компанией DeepMind в целях поиска эффективной терапии острой почечной недостаточности и так далее [2995] , [2996] .

2995

Mak K.-R., Pichika M. R. (2019). Artificial intelligence in drug development: present status and future prospects / Drug Discovery Today, Vol. 24, Iss. 3, March 2019, pp. 773—780 // https://doi.org/10.1016/j.drudis.2018.11.014

2996

Fleming N. (2018). How artificial intelligence is changing drug discovery / Nature, Vol. 557, S55-S57 (2018) // https://doi.org/10.1038/d41586-018-05267-x

Для поиска новых лекарств-кандидатов в наши дни активно применяют модели, основанные на трансформерах. Например, при помощи трансформеров успешно предсказывают результаты химических реакций, что позволяет эффективнее отбирать наиболее интересные молекулы [2997] .

В соответствии с данными исследования, проведённого специалистами компании MarketsAndMarkets, прогнозируется, что к 2024 г. мировой рынок технологий ИИ для открытия лекарств достигнет 1434 млн долларов США, по сравнению с 259 млн долларов США в 2019 г., при среднегодовом росте около 40% в течение прогнозируемого периода [2998] .

2997

Grand G. (2020). Training Transformers for Practical Drug Discovery with Tensor2Tensor / Reverie Labs Engineering Blog, Apr 20, 2020 // https://blog.reverielabs.com/transformers-for-drug-discovery/

2998

Artificial Intelligence (AI) in Drug Discovery Market (2019). Report Code: HIT 7445 / MarketsAndMarkets, Nov 2019 // https://www.marketsandmarkets.com/Market-Reports/ai-in-drug-discovery-market-151193446.html

Настоящая революция произошла под влиянием генеративных моделей в современной химии. Разработанный профессором Артёмом Огановым эффективный метод предсказания кристаллических структур [2999] , основанный на эволюционном алгоритме, стал основой системы USPEX (Universal Structure Predictor: Evolutionary Xtallography, Универсальный предсказатель структур эволюционной кристаллографии) [3000] , которую в наши дни используют более 6000 исследователей во всём мире. При помощи USPEX Оганову удалось предсказать сверхтвёрдую структуру бора [3001] , прозрачную фазу натрия [3002] , новый сверхтвёрдый аллотроп углерода [3003] , стабильные соединения гелия и натрия [3004] , а также, казалось бы, невозможные соединения, такие как Na3Cl [3005] . Впоследствии эти предсказания удалось подтвердить экспериментально, что существенно повлияло на основы современной химии и материаловедения. Разработанные Огановым теоретические методы позволяют предсказывать и получать материалы с заданными свойствами.

2999

Oganov A. R., Glass C. W. (2006). Crystal structure prediction using ab initio evolutionary techniques: principles and applications / Journal of Chemical Physics, Vol. 124, p. 244704 // https://doi.org/10.1063/1.2210932

3000

USPEX Computational Materials Discovery // https://uspex-team.org/

3001

Oganov A. R., Chen J., Gatti C., Ma Y.-Z., Ma Y.-M., Glass C. W., Liu Z., Yu T., Kurakevych O. O., Solozhenko V. L. (2009). Ionic high-pressure form of elemental boron / Nature, Vol. 457, pp. 863—867 // https://doi.org/10.1038/nature07736

3002

Ma Y., Eremets M. I., Oganov A. R., Xie Y., Trojan I., Medvedev S., Lyakhov A. O., Valle M., Prakapenka V. (2009). Transparent dense sodium / Nature, Vol. 458, pp. 182—185 // https://doi.org/10.1038/nature07786

3003

Li Q., Ma Y., Oganov A. R., Wang H., Wang H., Xu Y., Cui T., Mao H.-K., Zou G. (2009). Superhard monoclinic polymorph of carbon / Physical Review Letters, Vol. 102, p. 175506 // https://doi.org/10.1103/physrevlett.102.175506

3004

Dong X., Oganov A. R., Goncharov A. F., Stavrou E., Lobanov S., Saleh G., Qian G. R., Zhu Q., Gatti C., Deringer V. L., Dronskowski R., Zhou X. F., Prakapenka V. B., Konopkova Z., Popov I. A., Boldyrev A. I., Wang H. T. (2017). A stable compound of helium and sodium at high pressure / Nature Chemistry, Vol. 9, pp. 440—445 // https://doi.org/10.1038/nchem.2716

3005

Zhang W. W., Oganov A. R., Goncharov A. F., Zhu Q., Boulfelfel S. E., Lyakhov A. O., Stavrou E., Somayazulu M., Prakapenka V. B., Konopkova Z. (2013). Unexpected stoichiometries of stable sodium chlorides / Science, Vol. 342, pp. 1502—1505 // https://doi.org/10.1126/science.1244989

Благодаря нейросетевым моделям удалось значительно продвинуться в решении задачи предсказания пространственной структуры белков [protein structure prediction] — одной из самых важных целей теоретической химии и биоинформатики. Информация о структуре белка используется в медицине (например, в фармацевтике) и биотехнологиях (например, при создании новых ферментов).

В ноябре 2020 г. в Nature вышла статья «Это изменит всё: ИИ DeepMind совершает гигантский скачок в решении [задачи предсказания] белковых структур» (‘It will change everything’: DeepMind’s AI makes gigantic leap in solving protein structures) [3006] , написанная по результатам прошедших в августе того же года соревнований CASP14 (14th Community Wide Experiment on the Critical Assessment of Techniques for Protein Structure Prediction, 14-й общественный эксперимент по критической оценке методов прогнозирования структуры белка). Система AlphaFold, разработанная специалистами DeepMind, уже становилась победительницей предыдущих соревнований CASP двумя годами ранее, но в 2020 г. результаты новой версии системы оказались потрясающими. AlphaFold 2 практически достигла точности, соответствующей возможностям современных дорогостоящих лабораторных методов. «Это меняет правила игры», — говорит Андрей Лупас, биолог-эволюционист из Института биологии развития Общества Макса Планка в Тюбингене, который оценивал эффективность команд, участвовавших в CASP. AlphaFold уже помог ему найти структуру белка, над которой его лаборатория билась в течение десяти лет. «Это изменит медицину. Это изменит исследования. Это изменит биоинженерию. Это всё изменит», — добавляет Лупас.

3006

Callaway E. (2020). ‘It will change everything’: DeepMind’s AI makes gigantic leap in solving protein structures / Nature, Vol. 588, pp. 203—204 // https://doi.org/10.1038/d41586-020-03348-4

После успеха AlphaFold 2 многие команды постарались на основе доступной информации создать собственную версию системы и получили неплохие результаты (здесь можно отметить, например, проект RoseTTAFold [3007] ). А в июле 2021 г. авторы AlphaFold наконец опубликовали исходный код своей системы и статью с её детальным описанием: «Высокоточное предсказание структуры белка с помощью AlphaFold» (Highly accurate protein structure prediction with AlphaFold) [3008] .

3007

Baek M., DiMaio F., Anishchenko I., Dauparas J., Ovchinnikov S., Lee G. R., Wang J., Cong Q., Kinch L. N., Schaeffer R. D., Millan C., Park H., Adams C., Glassman C. R., DeGiovanni A., Pereira J. H., Rodrigues A. V., van Dijk A. A., Ebrecht A. C., Opperman D. J., Sagmeister T., Buhlheller C., Pavkov-Keller T., Rathinaswamy M. K., Dalwadi U., Yip C. K., Burke J. E., Garcia K. C., Grishin N. V., Adams P. D., Read R. J., Baker D. (2021). Accurate prediction of protein structures and interactions using a 3-track network // https://www.biorxiv.org/content/10.1101/2021.06.14.448402v1

3008

Jumper J., Evans R., Pritzel A., Green T., Figurnov M., Ronneberger O., Tunyasuvunakool K., Bates R., Zidek A., Potapenko A., Bridgland A., Meyer C., Kohl S. A. A., Ballard A. J., Cowie A., Romera-Paredes B., Nikolov S., Jain R., Hassabis D. (2021). Highly accurate protein structure prediction with AlphaFold / Nature, 15 July 2021 // https://doi.org/10.1038/s41586-021-03819-2

Поделиться:
Популярные книги

Всемирная энциклопедия афоризмов. Собрание мудрости всех народов и времен

Агеева Елена А.
Документальная литература:
публицистика
5.40
рейтинг книги
Всемирная энциклопедия афоризмов. Собрание мудрости всех народов и времен

Лисья нора

Сакавич Нора
1. Всё ради игры
Фантастика:
боевая фантастика
8.80
рейтинг книги
Лисья нора

Купец III ранга

Вяч Павел
3. Купец
Фантастика:
фэнтези
попаданцы
аниме
5.00
рейтинг книги
Купец III ранга

На границе империй. Том 10. Часть 2

INDIGO
Вселенная EVE Online
Фантастика:
космическая фантастика
5.00
рейтинг книги
На границе империй. Том 10. Часть 2

Пространственная Удача

Larchout
Фантастика:
фэнтези
5.00
рейтинг книги
Пространственная Удача

Красные и белые

Алдан-Семенов Андрей Игнатьевич
Проза:
историческая проза
6.25
рейтинг книги
Красные и белые

Офицер-разведки

Поселягин Владимир Геннадьевич
2. Красноармеец
Фантастика:
боевая фантастика
попаданцы
5.00
рейтинг книги
Офицер-разведки

Адвокат Империи 7

Карелин Сергей Витальевич
7. Адвокат империи
Фантастика:
городское фэнтези
попаданцы
альтернативная история
аниме
фантастика: прочее
5.00
рейтинг книги
Адвокат Империи 7

О, мой бомж

Джема
1. Несвятая троица
Любовные романы:
современные любовные романы
5.00
рейтинг книги
О, мой бомж

Прометей: повелитель стали

Рави Ивар
3. Прометей
Фантастика:
фэнтези
7.05
рейтинг книги
Прометей: повелитель стали

В семье не без подвоха

Жукова Юлия Борисовна
3. Замуж с осложнениями
Фантастика:
социально-философская фантастика
космическая фантастика
юмористическое фэнтези
9.36
рейтинг книги
В семье не без подвоха

Кодекс Охотника. Книга XIV

Винокуров Юрий
14. Кодекс Охотника
Фантастика:
боевая фантастика
попаданцы
аниме
5.00
рейтинг книги
Кодекс Охотника. Книга XIV

В прятки с отчаянием

AnnysJuly
Детективы:
триллеры
7.00
рейтинг книги
В прятки с отчаянием

Третий. Том 3

INDIGO
Вселенная EVE Online
Фантастика:
боевая фантастика
космическая фантастика
попаданцы
5.00
рейтинг книги
Третий. Том 3