Охота на электроовец. Большая книга искусственного интеллекта
Шрифт:
Вышедшая в мае 2022 г. работа [2983] исследователей из DeepMind под лаконичным названием «Универсальный агент» [A Generalist Agent] представила миру модель под названием Gato (gato по-испански означает «кот»; в статье это название никак не расшифровывается). Модель обучали выполнению 604 различных задач, в числе которых ведение диалога, написание подписей к изображениям, игра в игры Atari и даже складывание блоков при помощи роборуки. Хотя модель по современным меркам была весьма небольшой (всего 1,2 млрд параметров), она смогла превзойти людей в 450 из 604 вышеупомянутых задач. Архитектурно Gato — это трансформер, в котором словарь включает в себя токены, относящиеся к разным модальностям (фрагменты текстовых последовательностей, фрагменты изображений, действия роборуки и т. д.). Способность Gato управлять различными устройствами подводит нас к ещё одной букве M, а именно к такому свойству модели, как «мультивоплощение» [multi-embodiment]. Если бы Gato была ещё и MoE-моделью, то её смело можно было бы отнести к типу M5.
2983
Reed S., Zolna K., Parisotto E., Colmenarejo S. G., Novikov A., Barth-Maron G., Gimenez M., Sulsky Y., Kay J., Springenberg J. T., Eccles T., Bruce J., Razavi A., Edwards A., Heess N., Chen Y., Hadsell R., Vinyals O., Bordbar M., de Freitas N. (2022). A Generalist Agent // https://arxiv.org/abs/2205.06175
Эстафету исследователей из DeepMind подхватили их коллеги из Google. Немного раньше они экспериментировали с бимодальной текстово-визуальной моделью под названием PaLI (Pathways Language and Image model, Языковая и визуальная модель на основе системы Pathways) [2984] , и, взяв за основу свою большую (540 млрд параметров) языковую модель PaLM, они расширили её, добавив новые модальности (изображения,
2984
Chen X., Wang X., Changpinyo S., Piergiovanni A., Padlewski P., Salz D., Goodman S., Grycner A., Mustafa B., Beyer L., Kolesnikov A., Puigcerver J., Ding N., Rong K., Akbari H., Mishra G., Xue L., Thapliyal A., Bradbury J., Kuo W., Seyedhosseini M., Jia C., Ayan B. K., Riquelme C., Steiner A., Angelova A., Zhai X., Houlsby N., Soricut R. (2022). PaLI: A Jointly-Scaled Multilingual Language-Image Model // https://arxiv.org/abs/2209.06794
2985
Driess D., Xia F., Sajjadi M. S. M., Lynch C., Chowdhery A., Ichter B., Wahid A., Tompson J., Vuong Q., Yu T., Huang W., Chebotar Y., Sermanet P., Duckworth D., Levine S., Vanhoucke V., Hausman K., Toussaint M., Greff K., Zeng A., Mordatch I., Florence P. (2023). PaLM-E: An Embodied Multimodal Language Model // https://arxiv.org/abs/2303.03378
В конце 2022 г. исследователи из Google порадовали общественность ещё одной многозадачной трансформерной моделью — RT-1 (Robotic Transformer-1, Трансформер для роботов — 1) [2986] , предназначенной для управления роботом, решающим задачи в реальном мире. В июле 2023 г. была представлена вторая версия модели — RT-2 [2987] , а в начале октября 2023 г. был опубликован набор данных под названием RT-X [2988] . Он был создан DeepMind совместно с партнёрами из 33 академических лабораторий и содержит в себе примерно миллион примеров решений 22 моделями роборук 150 000 задач, относящихся к более чем 500 навыкам. Исследователи смогли показать, что добавление в обучающую выборку трансформерной модели данных, относящихся не только к целевому, но и к другим типам роботов, приводит к существенному росту доли успешно решаемых задач. Чтобы исследовать этот эффект передачи знаний, авторы изучили работу роборуки под управлением модели RT-2, обученной с привлечением данных, полученных на других роборуках. Оказалось, что этот подход позволяет примерно в три раза повысить долю успешных решений на новых для системы задачах.
2986
Brohan A., Brown N., Carbajal J., Chebotar Y., Dabis J., Finn C., Gopalakrishnan K., Hausman K., Herzog A., Hsu J., Ibarz J., Ichter B., Irpan A., Jackson T., Jesmonth S., Joshi N. J., Julian R., Kalashnikov D., Kuang Y., Leal I., Lee K., Levine S., Lu Y., Malla U., Manjunath D., Mordatch I., Nachum O., Parada C., Peralta J., Perez E., Pertsch K., Quiambao J., Rao K., Ryoo M., Salazar G., Sanketi P., Sayed K., Singh J., Sontakke S., Stone A., Tan C., Tran H., Vanhoucke V., Vega S., Vuong Q., Xia F., Xiao T., Xu P., Xu S., Yu T., Zitkovich B. (2022). RT-1: Robotics Transformer for Real-World Control at Scale // https://arxiv.org/abs/2212.06817
2987
Brohan A., Brown N., Carbajal J., Chebotar Y., Chen X., Choromanski K., Ding T., Driess D., Dubey A., Finn C., Florence P., Fu C., Arenas M. G., Gopalakrishnan K., Han K., Hausman K., Herzog A., Hsu J., Ichter B., Irpan A., Joshi N., Julian R., Kalashnikov D., Kuang Y., Leal I., Lee L., Lee T. E., Levine S., Lu Y., Michalewski H., Mordatch I., Pertsch K., Rao K., Reymann K., Ryoo M., Salazar G., Sanketi P., Sermanet P., Singh J., Singh A., Soricut R., Tran H., Vanhoucke V., Vuong Q., Wahid A., Welker S., Wohlhart P., Wu J., Xia F., Xiao T., Xu P., Xu S., Yu T., Zitkovich B. (2023). RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control // https://arxiv.org/abs/2307.15818
2988
Vuong Q., Sanketi P. (2023). Scaling up learning across many different robot types / DeepMind blog, October 3, 2023 // https://www.deepmind.com/blog/scaling-up-learning-across-many-different-robot-types
Нейросети, используемые для моделирования мультимодальных последовательностей, в последнее время принято обозначать термином MLLM (Multimodal Large Language Models, Мультимодальные большие языковые модели). За последние годы появилось довольно много MLLM, помимо PaLI тут стоит упомянуть вышедшие в 2023 г. FROMAGe [2989] от Руслана Салахутдинова и его команды из Университета Карнеги — Меллона, Qwen-VL от исследователей из Alibaba Cloud [2990] , а также Kosmos-1 [2991] и Kosmos-2 [2992] от исследователей из Microsoft.
2989
Koh J. Y., Salakhutdinov R., Fried D. (2023). Grounding Language Models to Images for Multimodal Inputs and Outputs // https://arxiv.org/abs/2301.13823
2990
Bai J., Bai S., Yang S., Wang S., Tan S., Wang P., Lin J., Zhou C., Zhou J. (2023). Qwen-VL: A Frontier Large Vision-Language Model with Versatile Abilities // https://arxiv.org/abs/2308.12966
2991
Huang S., Dong L., Wang W., Hao Y., Singhal S., Ma S., Lv T., Cui L., Mohammed O. K., Patra B., Liu Q., Aggarwal K., Chi Z., Bjorck J., Chaudhary V., Som S., Song X., Wei F. (2023). Language Is Not All You Need: Aligning Perception with Language Models // https://arxiv.org/abs/2302.14045
2992
Peng Z., Wang W., Dong L., Hao Y., Huang S., Ma S., Wei F. (2023). Kosmos-2: Grounding Multimodal Large Language Models to the World // https://arxiv.org/abs/2306.14824
В универсальности дизайна Gato и PaLM-E и RT-1 усматривается глубинная аналогия с нервной системой живых организмов. Соматосенсорная кора нашего мозга получает на вход поток сигналов от сенсорных систем организма, а моторная кора, в свою очередь, генерирует импульсы для наших мышц. В некотором роде наш мозг, подобно генеративной трансформерной модели, также решает задачу продолжения последовательности, в данном случае — последовательности электрохимических импульсов длиною в нашу жизнь.
Для того чтобы модели могли работать с самыми разными модальностями представления данных, активно исследуются подходы, при которых модель должна самостоятельно определять пространственную структуру данных. В случае с текстом следующий токен последовательности зависит более всего от предыдущего; в случае чёрно-белого изображения, записанного в виде последовательности чисел, представляющей собой градации серого цвета, следующий токен последовательности будет примерно одинаково сильно зависеть как от предыдущего токена, так и от токена, отстоящего от текущего на число позиций, равное ширине изображения (т. е. цвет пикселя примерно одинаково зависит от пикселя, расположенного слева от него, и от пикселя, расположенного сверху); в случае же цветного изображения, представленного путём разложения цвета на несколько цветовых каналов, появится ещё и зависимость между токенами, относящимися к разным каналам. Почему бы не поручить нейросетевой модели самой разбираться с тем, какие именно пространственные зависимости существуют в используемой последовательности? Тогда она сможет эффективно работать и с разными типами информации, и с разными способами её представления. Для решения этой задачи исследователи из DeepMind разработали модель под названием Perceiver (дословно: «Восприниматель») [2993] , а также её усовершенствованную версию — Hierarchical Perceiver (Иерархический восприниматель) [2994] . В этих исследованиях мы видим, как выстраивается мостик между такими, казалось бы, частными задачами, как генерация изображений или генерация текста, и задачей создания систем общего искусственного интеллекта.
2993
Jaegle A., Gimeno F., Brock A., Zisserman A., Vinyals O., Carreira J. (2021). Perceiver: General Perception with Iterative Attention // https://arxiv.org/abs/2103.03206
2994
Carreira J., Koppula S., Zoran D., Recasens A., Ionescu C., Henaff O., Shelhamer E., Arandjelovic R., Botvinick M., Vinyals O., Simonyan K., Zisserman A., Jaegle A. (2022). Hierarchical Perceiver // https://arxiv.org/abs/2202.10890
6.6.13 Другие творческие успехи машин
Генеративные модели машинного обучения, созданные в последние годы, применяются в самых разных областях человеческой деятельности, требующих решения творческих задач. Например, за последние десять лет заключен ряд альянсов между командами, специализирующимися на создании алгоритмов для генеративной биохимии, и крупными фармкомпаниями. В частности, фармацевтический гигант Pfizer объявил о сотрудничестве с IBM Watson, другой — Sanofi —
2995
Mak K.-R., Pichika M. R. (2019). Artificial intelligence in drug development: present status and future prospects / Drug Discovery Today, Vol. 24, Iss. 3, March 2019, pp. 773—780 // https://doi.org/10.1016/j.drudis.2018.11.014
2996
Fleming N. (2018). How artificial intelligence is changing drug discovery / Nature, Vol. 557, S55-S57 (2018) // https://doi.org/10.1038/d41586-018-05267-x
Для поиска новых лекарств-кандидатов в наши дни активно применяют модели, основанные на трансформерах. Например, при помощи трансформеров успешно предсказывают результаты химических реакций, что позволяет эффективнее отбирать наиболее интересные молекулы [2997] .
В соответствии с данными исследования, проведённого специалистами компании MarketsAndMarkets, прогнозируется, что к 2024 г. мировой рынок технологий ИИ для открытия лекарств достигнет 1434 млн долларов США, по сравнению с 259 млн долларов США в 2019 г., при среднегодовом росте около 40% в течение прогнозируемого периода [2998] .
2997
Grand G. (2020). Training Transformers for Practical Drug Discovery with Tensor2Tensor / Reverie Labs Engineering Blog, Apr 20, 2020 // https://blog.reverielabs.com/transformers-for-drug-discovery/
2998
Artificial Intelligence (AI) in Drug Discovery Market (2019). Report Code: HIT 7445 / MarketsAndMarkets, Nov 2019 // https://www.marketsandmarkets.com/Market-Reports/ai-in-drug-discovery-market-151193446.html
Настоящая революция произошла под влиянием генеративных моделей в современной химии. Разработанный профессором Артёмом Огановым эффективный метод предсказания кристаллических структур [2999] , основанный на эволюционном алгоритме, стал основой системы USPEX (Universal Structure Predictor: Evolutionary Xtallography, Универсальный предсказатель структур эволюционной кристаллографии) [3000] , которую в наши дни используют более 6000 исследователей во всём мире. При помощи USPEX Оганову удалось предсказать сверхтвёрдую структуру бора [3001] , прозрачную фазу натрия [3002] , новый сверхтвёрдый аллотроп углерода [3003] , стабильные соединения гелия и натрия [3004] , а также, казалось бы, невозможные соединения, такие как Na3Cl [3005] . Впоследствии эти предсказания удалось подтвердить экспериментально, что существенно повлияло на основы современной химии и материаловедения. Разработанные Огановым теоретические методы позволяют предсказывать и получать материалы с заданными свойствами.
2999
Oganov A. R., Glass C. W. (2006). Crystal structure prediction using ab initio evolutionary techniques: principles and applications / Journal of Chemical Physics, Vol. 124, p. 244704 // https://doi.org/10.1063/1.2210932
3000
USPEX Computational Materials Discovery // https://uspex-team.org/
3001
Oganov A. R., Chen J., Gatti C., Ma Y.-Z., Ma Y.-M., Glass C. W., Liu Z., Yu T., Kurakevych O. O., Solozhenko V. L. (2009). Ionic high-pressure form of elemental boron / Nature, Vol. 457, pp. 863—867 // https://doi.org/10.1038/nature07736
3002
Ma Y., Eremets M. I., Oganov A. R., Xie Y., Trojan I., Medvedev S., Lyakhov A. O., Valle M., Prakapenka V. (2009). Transparent dense sodium / Nature, Vol. 458, pp. 182—185 // https://doi.org/10.1038/nature07786
3003
Li Q., Ma Y., Oganov A. R., Wang H., Wang H., Xu Y., Cui T., Mao H.-K., Zou G. (2009). Superhard monoclinic polymorph of carbon / Physical Review Letters, Vol. 102, p. 175506 // https://doi.org/10.1103/physrevlett.102.175506
3004
Dong X., Oganov A. R., Goncharov A. F., Stavrou E., Lobanov S., Saleh G., Qian G. R., Zhu Q., Gatti C., Deringer V. L., Dronskowski R., Zhou X. F., Prakapenka V. B., Konopkova Z., Popov I. A., Boldyrev A. I., Wang H. T. (2017). A stable compound of helium and sodium at high pressure / Nature Chemistry, Vol. 9, pp. 440—445 // https://doi.org/10.1038/nchem.2716
3005
Zhang W. W., Oganov A. R., Goncharov A. F., Zhu Q., Boulfelfel S. E., Lyakhov A. O., Stavrou E., Somayazulu M., Prakapenka V. B., Konopkova Z. (2013). Unexpected stoichiometries of stable sodium chlorides / Science, Vol. 342, pp. 1502—1505 // https://doi.org/10.1126/science.1244989
Благодаря нейросетевым моделям удалось значительно продвинуться в решении задачи предсказания пространственной структуры белков [protein structure prediction] — одной из самых важных целей теоретической химии и биоинформатики. Информация о структуре белка используется в медицине (например, в фармацевтике) и биотехнологиях (например, при создании новых ферментов).
В ноябре 2020 г. в Nature вышла статья «Это изменит всё: ИИ DeepMind совершает гигантский скачок в решении [задачи предсказания] белковых структур» (‘It will change everything’: DeepMind’s AI makes gigantic leap in solving protein structures) [3006] , написанная по результатам прошедших в августе того же года соревнований CASP14 (14th Community Wide Experiment on the Critical Assessment of Techniques for Protein Structure Prediction, 14-й общественный эксперимент по критической оценке методов прогнозирования структуры белка). Система AlphaFold, разработанная специалистами DeepMind, уже становилась победительницей предыдущих соревнований CASP двумя годами ранее, но в 2020 г. результаты новой версии системы оказались потрясающими. AlphaFold 2 практически достигла точности, соответствующей возможностям современных дорогостоящих лабораторных методов. «Это меняет правила игры», — говорит Андрей Лупас, биолог-эволюционист из Института биологии развития Общества Макса Планка в Тюбингене, который оценивал эффективность команд, участвовавших в CASP. AlphaFold уже помог ему найти структуру белка, над которой его лаборатория билась в течение десяти лет. «Это изменит медицину. Это изменит исследования. Это изменит биоинженерию. Это всё изменит», — добавляет Лупас.
3006
Callaway E. (2020). ‘It will change everything’: DeepMind’s AI makes gigantic leap in solving protein structures / Nature, Vol. 588, pp. 203—204 // https://doi.org/10.1038/d41586-020-03348-4
После успеха AlphaFold 2 многие команды постарались на основе доступной информации создать собственную версию системы и получили неплохие результаты (здесь можно отметить, например, проект RoseTTAFold [3007] ). А в июле 2021 г. авторы AlphaFold наконец опубликовали исходный код своей системы и статью с её детальным описанием: «Высокоточное предсказание структуры белка с помощью AlphaFold» (Highly accurate protein structure prediction with AlphaFold) [3008] .
3007
Baek M., DiMaio F., Anishchenko I., Dauparas J., Ovchinnikov S., Lee G. R., Wang J., Cong Q., Kinch L. N., Schaeffer R. D., Millan C., Park H., Adams C., Glassman C. R., DeGiovanni A., Pereira J. H., Rodrigues A. V., van Dijk A. A., Ebrecht A. C., Opperman D. J., Sagmeister T., Buhlheller C., Pavkov-Keller T., Rathinaswamy M. K., Dalwadi U., Yip C. K., Burke J. E., Garcia K. C., Grishin N. V., Adams P. D., Read R. J., Baker D. (2021). Accurate prediction of protein structures and interactions using a 3-track network // https://www.biorxiv.org/content/10.1101/2021.06.14.448402v1
3008
Jumper J., Evans R., Pritzel A., Green T., Figurnov M., Ronneberger O., Tunyasuvunakool K., Bates R., Zidek A., Potapenko A., Bridgland A., Meyer C., Kohl S. A. A., Ballard A. J., Cowie A., Romera-Paredes B., Nikolov S., Jain R., Hassabis D. (2021). Highly accurate protein structure prediction with AlphaFold / Nature, 15 July 2021 // https://doi.org/10.1038/s41586-021-03819-2