Охота на электроовец. Большая книга искусственного интеллекта, Марков Сергей Николаевич

Охота на электроовец. Большая книга искусственного интеллекта

на обложку

Марков Сергей Николаевич

Шрифт:

Не остались без внимания китайских исследователей и MoE-модели. Исследователи из Пекинской академии искусственного интеллекта (???????????, Beijing Academy of Artificial Intelligence, BAAI) создали собственную платформу для обучения таких моделей, получившую название FastMoE. Эта платформа позволяет использовать для обучения MoE-моделей как суперкомпьютеры, так и обычные GPU. Благодаря FastMoE китайские исследователи весной 2021 г. смогли обучить модель под названием Wudao (??, так зовут повара-монаха, героя Джеки Чана в фильме «Новый храм Шаолинь»), вторая версия которой, представленная общественности 31 мая, имела 1,75 трлн параметров (что на 150 млрд больше, чем у модели Switch-C) [2616] .

2616

Du C. (2021). Chinese AI lab challenges Google, OpenAI with a model of 1.75 trillion parameters / PingWest, June 1, 2021 // https://en.pingwest.com/a/8693

В октябре 2021 г. исследователи из Академии DAMO (Academy for Discovery, Adventure, Momentum and Outlook, Академия открытий, авантюр, импульса и перспектив) — исследовательского подразделения компании Alibaba — сообщили [2617] о создании новой версии своей MoE-модели M6 (MultiModality-to-MultiModality Multitask Mega-Transformer, Многозадачный мегатрансформер из мультимодальных представлений в мультимодальные) с 10 трлн параметров.

В апреле 2022 г. группа китайских исследователей из DAMO, Университета Цинхуа, Пекинской академии искусственного интеллекта и Лаборатории Чжэцзян (?????) (научно-исследовательского учреждения, созданного совместно правительством провинции Чжэцзян, Чжэцзянским университетом и Alibaba Group) сообщила [2618] о создании MoE-модели MoDa-174T (от MoE и Data — название отсылает к гибридной стратегии параллелизма MoE и данных) с 173,9 трлн параметров, в состав которой входят целых 96 000 сетей-экспертов. Для обучения модели использовались фреймворк BaGuaLu [2619] и суперкомпьютер Sunway последнего поколения. Модель обучали на самом большом китайском мультимодальном датасете — M6-Corpus [2620] , содержащем 1,9 Тб изображений и 292 Гб текстов. К сожалению,

авторы не приводят информации о результатах решения моделью различных тестовых задач, поэтому о способностях MoDa-174T мы пока что можем только догадываться.

2617

Lin J., Yang A., Bai J., Zhou C., Jiang L., Jia X., Wang A., Zhang J., Li Y., Lin W., Zhou J., Yang H. (2021). M6-10T: A Sharing-Delinking Paradigm for Efficient Multi-Trillion Parameter Pretraining // https://arxiv.org/abs/2110.03888

2618

Ma Z., He J., Qiu J., Cao H., Wang Y., Sun Z., Zheng L., Wang H., Tang S., Zheng T., Lin J., Feng G., Huang Z., Gao J., Zeng A., Zhang J., Zhong R., Shi T., Liu S., Zheng W., Tang J., Yang H., Liu X., Zhai J., Chen W. (2022). BaGuaLu: targeting brain scale pretrained models with over 37 million cores // PPoPP '22: Proceedings of the 27th ACM SIGPLAN Symposium on Principles and Practice of Parallel Programming, pp. 192–204. // https://doi.org/10.1145/3503221.3508417

2619

* BaGuaLu (???), печь восьми триграмм (восьми гуа), волшебная печь из древнекитайской мифологии, позволяющая создавать эффективные лекарства. Восемь триграмм гуа используются в даосской космологии, чтобы представить фундаментальные принципы бытия.

2620

Lin J., Men R., Yang A., Zhou C., Ding M., Zhang Y., Wang P., Wang A., Jiang L., Jia X., Zhang J., Zhang J., Zou X., Li Z., Deng X., Liu J., Xue J., Zhou H., Ma J., Yu J., Li Y., Lin W., Zhou J., Tang J., Yang H. (2021). M6: A Chinese Multimodal Pretrainer // https://arxiv.org/abs/2103.00823

На сентябрь 2023 г. MoDa-174T, по всей видимости, является самой большой MoE-нейросетевой моделью, а первую по числу параметров позицию среди «монолитных» генеративных языковых трансформерных моделей (и нейросетевых моделей вообще) заняла сеть Megatron-Turing NLG 530B с 530 млрд параметров, созданная специалистами из Nvidia и Microsoft [2621] , [2622] .

Если же рассматривать только модели, веса которых были выложены в открытый доступ, то лидерство принадлежит опубликованной в сентябре 2023 г. самой крупной версии модели Falcon [2623] со 180 млрд параметров от Института технологических инноваций (Technology Innovation Institute) — правительственной исследовательской организации из Объединённых Арабских Эмиратов. Второе место принадлежит модели BLOOM [2624] со 176 млрд параметров, увидевшей свет в ноябре 2022 г. и созданной международной группой из 391 исследователя, входящих в коллаборацию BigScience (в их числе и Татьяна Шаврина из моей команды в Сбере). Третье место удерживает модель OPT-175B [2625] , [2626] , созданная ещё полугодом ранее исследователями компании Meta (бывшая Facebook) и отставшая от BLOOM на 1 млрд параметров. Четвёртое же место достаётся вышедшей на неделю позже BLOOM модели Galactica [2627] со 120 млрд параметров, в обучающий корпус которой вошли преимущественно научные тексты.

2621

Kharya P., Alvi A. (2021). Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, the World’s Largest and Most Powerful Generative Language Model / Nvidia Developer Blog, Oct 11, 2021 // https://developer.nvidia.com/blog/using-deepspeed-and-megatron-to-train-megatron-turing-nlg-530b-the-worlds-largest-and-most-powerful-generative-language-model/

2622

Smith S., Patwary M., Norick B., LeGresley P., Rajbhandari S., Casper J., Liu Z., Prabhumoye S., Zerveas G., Korthikanti V., Zhang E., Child R., Aminabadi R. Y., Bernauer J., Song X., Shoeybi M., He Y., Houston M., Tiwary S., Catanzaro B. (2022). Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, A Large-Scale Generative Language Model // https://arxiv.org/abs/2201.11990

2623

Almazrouei E., Alobeidli H., Alshamsi A., Cappelli A., Cojocaru R., Alhammadi M., Mazzotta D., Heslow D., Launay J., Malartic Q., Noune B., Pannier B., Penedo G. (2023). The Falcon Series of Language Models: Towards Open Frontier Models // https://huggingface.co/tiiuae/falcon-180B

2624

Le Scao T., Fan A., Akiki C., Pavlick E., Ilic S., Hesslow D., Castagne R., Luccioni A. S., Yvon F., Galle M., Tow J., Rush A. M., Biderman S., Webson A., Ammanamanchi P. S., Wang T., Sagot B., Muennighoff N., Moral A. V. d., Ruwase O., Bawden R., Bekman S., McMillan-Major A., Beltagy I., Nguyen H., Saulnier L., Tan S., Suarez P. O., Sanh V., Laurencon H., Jernite Y., Launay J., Mitchell M., Raffel C., Gokaslan A., Simhi A., Soroa A., Aji A. F., Alfassy A., Rogers A., Nitzav A. K., Xu C., Mou C., Emezue C., Klamm C., Leong C., Strien D. v., Adelani D. I., Radev D., Ponferrada E. G., Levkovizh E., Kim E., Natan E. B., Toni F. D., Dupont G., Kruszewski G., Pistilli G., Elsahar H., Benyamina H., Tran H., Yu I., Abdulmumin I., Johnson I., Gonzalez-Dios I., Rosa J. d. l., Chim J., Dodge J., Zhu J., Chang J., Frohberg J., Tobing J., Bhattacharjee J., Almubarak K., Chen K., Lo K., Von Werra L., Weber L., Phan L., allal L. B., Tanguy L., Dey M., Munoz M. R., Masoud M., Grandury M., Sasko M., Huang M., Coavoux M., Singh M., Jiang M. T., Vu M. C., Jauhar M. A., Ghaleb M., Subramani N., Kassner N., Khamis N., Nguyen O., Espejel O., Gibert O. d., Villegas P., Henderson P., Colombo P., Amuok P., Lhoest Q., Harliman R., Bommasani R., Lopez R. L., Ribeiro R., Osei S., Pyysalo S., Nagel S., Bose S., Muhammad S. H., Sharma S., Longpre S., Nikpoor S., Silberberg S., Pai S., Zink S., Torrent T. T., Schick T., Thrush T., Danchev V., Nikoulina V., Laippala V., Lepercq V., Prabhu V., Alyafeai Z., Talat Z., Raja A., Heinzerling B., Si C., Tasar D. E., Salesky E., Mielke S. J., Lee W. Y., Sharma A., Santilli A., Chaffin A., Stiegler A., Datta D., Szczechla E., Chhablani G., Wang H., Pandey H., Strobelt H., Fries J. A., Rozen J., Gao L., Sutawika L., Bari M. S., Al-shaibani M. S., Manica M., Nayak N., Teehan R., Albanie S., Shen S., Ben-David S., Bach S. H., Kim T., Bers T., Fevry T., Neeraj T., Thakker U., Raunak V., Tang X., Yong Z., Sun Z., Brody S., Uri Y., Tojarieh H., Roberts A., Chung H. W., Tae J., Phang J., Press O., Li C., Narayanan D., Bourfoune H., Casper J., Rasley J., Ryabinin M., Mishra M., Zhang M., Shoeybi M., Peyrounette M., Patry N., Tazi N., Sanseviero O., von Platen P., Cornette P., Lavallee P. F., Lacroix R., Rajbhandari S., Gandhi S., Smith S., Requena S., Patil S., Dettmers T., Baruwa A., Singh A., Cheveleva A., Ligozat A., Subramonian A., Neveol A., Lovering C., Garrette D., Tunuguntla D., Reiter E., Taktasheva E., Voloshina E., Bogdanov E., Winata G. I., Schoelkopf H., Kalo J., Novikova J., Forde J. Z., Clive J., Kasai J., Kawamura K., Hazan L., Carpuat M., Clinciu M., Kim N., Cheng N., Serikov O., Antverg O., Wal O. v. d., Zhang R., Zhang R., Gehrmann S., Mirkin S., Pais S., Shavrina T., Scialom T., Yun T., Limisiewicz T., Rieser V., Protasov V., Mikhailov V., Pruksachatkun Y., Belinkov Y., Bamberger Z., Kasner Z., Rueda A., Pestana A., Feizpour A., Khan A., Faranak A., Santos A., Hevia A., Unldreaj A., Aghagol A., Abdollahi A., Tammour A., HajiHosseini A., Behroozi B., Ajibade B., Saxena B., Ferrandis C. M., Contractor D., Lansky D., David D., Kiela D., Nguyen D. A., Tan E., Baylor E., Ozoani E., Mirza F., Ononiwu F., Rezanejad H., Jones H., Bhattacharya I., Solaiman I., Sedenko I., Nejadgholi I., Passmore J., Seltzer J., Sanz J. B., Dutra L., Samagaio M., Elbadri M., Mieskes M., Gerchick M., Akinlolu M., McKenna M., Qiu M., Ghauri M., Burynok M., Abrar N., Rajani N., Elkott N., Fahmy N., Samuel O., An R., Kromann R., Hao R., Alizadeh S., Shubber S., Wang S., Roy S., Viguier S., Le T., Oyebade T., Le T., Yang Y., Nguyen Z., Kashyap A. R., Palasciano A., Callahan A., Shukla A., Miranda-Escalada A., Singh A., Beilharz B., Wang B., Brito C., Zhou C., Jain C., Xu C., Fourrier C., Perinan D. L., Molano D., Yu D., Manjavacas E., Barth F., Fuhrimann F., Altay G., Bayrak G., Burns G., Vrabec H. U., Bello I., Dash I., Kang J., Giorgi J., Golde J., Posada J. D., Sivaraman K. R., Bulchandani L., Liu L., Shinzato L., Bykhovetz M. H. d., Takeuchi M., Pamies M., Castillo M. A., Nezhurina M., Sanger M., Samwald M., Cullan M., Weinberg M., Wolf M. D., Mihaljcic M., Liu M., Freidank M., Kang M., Seelam N., Dahlberg N., Broad N. M., Muellner N., Fung P., Haller P., Chandrasekhar R., Eisenberg R., Martin R., Canalli R., Su R., Su R., Cahyawijaya S., Garda S., Deshmukh S. S., Mishra S., Kiblawi S., Ott S., Sang-aroonsiri S., Kumar S., Schweter S., Bharati S., Laud T., Gigant T., Kainuma T., Kusa W., Labrak Y., Bajaj Y. S., Venkatraman Y., Xu Y., Xu Y., Xu Y., Tan Z., Xie Z., Ye Z., Bras M., Belkada Y., Wolf T. (2022). BLOOM: A 176B-Parameter Open-Access Multilingual Language Model // https://arxiv.org/abs/2211.05100

2625

Zhang S., Roller S., Goyal N., Artetxe M., Chen M., Chen S., Dewan C., Diab M., Li X., Lin X. V., Mihaylov T., Ott M., Shleifer S., Shuster K., Simig D., Koura P. S., Sridhar A., Wang T., Zettlemoyer L. (2022). OPT: Open Pre-trained Transformer Language Models // https://arxiv.org/abs/2205.01068

2626

Zhang S., Diab M., Zettlemoyer L. (2022). Democratizing access to large-scale language models with OPT-175B / Meta AI, May 3, 2022 // https://ai.facebook.com/blog/democratizing-access-to-large-scale-language-models-with-opt-175b/

2627

Taylor R., Kardas M., Cucurull G., Scialom T., Hartshorn A., Saravia E., Poulton A., Kerkez V., Stojnic R. (2022). Galactica: A Large Language Model for Science // https://arxiv.org/abs/2211.09085

6.6.5 Лучше меньше, да умнее! Появление ChatGPT

Сегодня совершенствование генеративных трансформерных моделей происходит не только в направлении увеличения числа параметров и разработки новых вариантов архитектуры сетей. Конечно, с момента появления GPT-3 было создано несколько монолитных генеративных трансформерных моделей, превосходящих её по числу параметров, например уже упомянутая нами PANGU-?, модель Jurassic со 178 млрд параметров от израильской исследовательской компании AI21 Labs [2628] и модель Gopher с 280 млрд параметров от DeepMind [2629] , [2630] , а в обзорных исследованиях 2020–2022 гг. часто делался акцент на экспоненциальном росте со временем числа параметров языковых моделей. Однако этих эмпирических наблюдений было явно недостаточно для того, чтобы чётко сформулировать законы оптимального масштабирования трансформерных нейросетей. Многие исследователи задавались вопросом о том, как количество параметров модели должно соотноситься с размером обучающей выборки и объёмом вычислений, затраченных

на обучение.

2628

AI21 Labs Makes Language AI Applications Accessible to Broader Audience (2021) / businesswire: a Berkshire Hathaway Company, August 11, 2021 // https://www.businesswire.com/news/home/20210811005033/en/AI21-Labs-Makes-Language-AI-Applications-Accessible-to-Broader-Audience

2629

Rae J., Irving G., Weidinger L. (2021). Language modelling at scale: Gopher, ethical considerations, and retrieval / DeepMind blog, 08 Dec 2021 // https://deepmind.com/blog/article/language-modelling-at-scale

2630

Rae J. W., Borgeaud S., Cai T., Millican K., Hoffmann J., Song F., Aslanides J., Henderson S., Ring R., Young S., Rutherford E., Hennigan T., Menick J., Cassirer A., Powell R., Driessche G. v. d., Hendricks L. A., Rauh M., Huang P., Glaese A., Welbl J., Dathathri S., Huang S., Uesato J., Mellor J., Higgins I., Creswell A., McAleese N., Wu A., Elsen E., Jayakumar S., Buchatskaya E., Budden D., Sutherland E., Simonyan K., Paganini M., Sifre L., Martens L., Li X. L., Kuncoro A., Nematzadeh A., Gribovskaya E., Donato D., Lazaridou A., Mensch A., Lespiau J., Tsimpoukelli M., Grigorev N., Fritz D., Sottiaux T., Pajarskas M., Pohlen T., Gong Z., Toyama D., d'Autume C. d. M., Li Y., Terzi T., Mikulik V., Babuschkin I., Clark A., Casas D. d. L., Guy A., Jones C., Bradbury J., Johnson M., Hechtman B., Weidinger L., Gabriel I., Isaac W., Lockhart E., Osindero S., Rimell L., Dyer C., Vinyals O., Ayoub K., Stanway J., Bennett L., Hassabis D., Kavukcuoglu K., Irving G. (2021). Scaling Language Models: Methods, Analysis & Insights from Training Gopher // https://arxiv.org/abs/2112.11446

В течение почти двух лет научное сообщество ориентировалось во многом на результаты, полученные в 2020 г. исследователями из OpenAI и представленные в статье «Законы масштабирования нейронных языковых моделей» [Scaling Laws for Neural Language Models] [2631] . Вот основные выводы этого исследования:

• точность трансформерной языковой модели плавно растёт по мере увеличения числа её параметров, размера датасета и объёма вычислений, затраченных на обучение;

2631

Kaplan J., McCandlish S., Henighan T., Brown T. B., Chess B., Child R., Gray S., Radford A., Wu J., Amodei D. (2020). Scaling Laws for Neural Language Models // https://arxiv.org/abs/2001.08361

• для достижения оптимума все три фактора должны увеличиваться совместно;

• точность предсказаний модели является степенной функцией каждого отдельного фактора, если она не ограничена двумя другими;

• каждый раз, когда мы увеличиваем размер модели в восемь раз, нам нужно увеличивать объём датасета примерно в пять раз.

Однако в 2022 г. исследователям из DeepMind удалось доказать, что эти оценки были недостаточно точными. С точки зрения оптимальности языковые модели должны быть значительно меньше по размеру или обучаться существенно дольше, а объём датасета и число параметров модели должны увеличиваться в равной пропорции. Фактически это означало, что и GPT-3 с её 175 млрд параметров, и Gopher с 280 млрд параметров, и тем более Megatron-Turing NLG с 540 млрд параметров были трагически недообучены. Авторы работы продемонстрировали, что обученная ими модель, получившая название Chinchilla, несмотря на сравнительно скромное число параметров (70 млрд) на большом наборе тестов, уверенно превосходит своих более крупных «собратьев» [2632] , [2633] .

2632

Hoffmann J., Borgeaud S., Mensch A., Sifre L. (2022). An empirical analysis of compute-optimal large language model training / DeepMind blog, April 12, 2022 // https://www.deepmind.com/publications/an-empirical-analysis-of-compute-optimal-large-language-model-training

2633

Hoffmann J., Borgeaud S., Mensch A., Buchatskaya E., Cai T., Rutherford E., de Las Casas D., Hendricks L. A., Welbl J., Clark A., Hennigan T., Noland E., Millican K., van den Driessche G., Damoc B., Guy A., Osindero S., Simonyan K., Elsen E., Rae J. W., Vinyals O., Sifre L. (2022). Training Compute-Optimal Large Language Models // https://arxiv.org/abs/2203.15556

Результаты, полученные исследователями DeepMind при работе над моделью Chinchilla, существенно повлияли на следующее поколение больших языковых моделей. В первую очередь к ним обратились исследователи из Google Research (обе команды на тот момент входили в один и тот же холдинг — Alphabet, — а сегодня и вовсе объединены в единую структуру в рамках мер, предпринятых Alphabet с целью завоевать лидерство в конкуренции с союзом OpenAI и Microsoft [2634] ). Технические отчёты создателей моделей PaLM [2635] и PaLM 2 [2636] из Google Research пестрят отсылками к работам коллег. Хотя «генетически» модели семейства PaLM куда ближе к T5 и mT5 (например, они унаследовали от семейства T5 способы токенизации текста), а Chinchilla можно с некоторой натяжкой считать наследницей модели Gopher, выводы, сделанные создателями Chinchilla, оказались достаточно универсальными, чтобы подтвердиться в экспериментах с совсем другой моделью.

2634

Pichai S. (2023). Google DeepMind: Bringing together two world-class AI teams. / Google Blog, Apr 20, 2023 // https://blog.google/technology/ai/april-ai-update/

2635

Chowdhery A., Narang S., Devlin J., Bosma M., Mishra G., Roberts A., Barham P., Chung H. W., Sutton C., Gehrmann S., Schuh P., Shi K., Tsvyashchenko S., Maynez J., Rao A., Barnes P., Tay Y., Shazeer N., Prabhakaran V., Reif E., Du N., Hutchinson B., Pope R., Bradbury J., Austin J., Isard M., Gur-Ari G., Yin P., Duke T., Levskaya A., Ghemawat S., Dev S., Michalewski H., Garcia X., Misra V., Robinson K., Fedus L., Zhou D., Ippolito D., Luan D., Lim H., Zoph B., Spiridonov A., Sepassi R., Dohan D., Agrawal S., Omernick M., Dai A. M., Pillai T. S., Pellat M., Lewkowycz A., Moreira E., Child R., Polozov O., Lee K., Zhou Z., Wang X., Saeta B., Diaz M., Firat O., Catasta M., Wei J., Meier-Hellstern K., Eck D., Dean J., Petrov S., Fiedel N. (2022). PaLM: Scaling Language Modeling with Pathways // https://arxiv.org/abs/2204.02311

2636

Anil R., Dai A. M., Firat O., Johnson M., Lepikhin D., Passos A., Shakeri S., Taropa E., Bailey P., Chen Z., Chu E., Clark J. H., Shafey L. E., Huang Y., Meier-Hellstern K., Mishra G., Moreira E., Omernick M., Robinson K., Ruder S., Tay Y., Xiao K., Xu Y., Zhang Y., Abrego G. H., Ahn J., Austin J., Barham P., Botha J., Bradbury J., Brahma S., Brooks K., Catasta M., Cheng Y., Cherry C., Choquette-Choo C. A., Chowdhery A., Crepy C., Dave S., Dehghani M., Dev S., Devlin J., Diaz M., Du N., Dyer E., Feinberg V., Feng F., Fienber V., Freitag M., Garcia X., Gehrmann S., Gonzalez L., Gur-Ari G., Hand S., Hashemi H., Hou L., Howland J., Hu A., Hui J., Hurwitz J., Isard M., Ittycheriah A., Jagielski M., Jia W., Kenealy K., Krikun M., Kudugunta S., Lan C., Lee K., Lee B., Li E., Li M., Li W., Li Y., Li J., Lim H., Lin H., Liu Z., Liu F., Maggioni M., Mahendru A., Maynez J., Misra V., Moussalem M., Nado Z., Nham J., Ni E., Nystrom A., Parrish A., Pellat M., Polacek M., Polozov A., Pope R., Qiao S., Reif E., Richter B., Riley P., Ros A. C., Roy A., Saeta B., Samuel R., Shelby R., Slone A., Smilkov D., So D. R., Sohn D., Tokumine S., Valter D., Vasudevan V., Vodrahalli K., Wang X., Wang P., Wang Z., Wang T., Wieting J., Wu Y., Xu K., Xu Y., Xue L., Yin P., Yu J., Zhang Q., Zheng S., Zheng C., Zhou W., Zhou D., Petrov S., Wu Y. (2023). PaLM 2 Technical Report // https://arxiv.org/abs/2305.10403

Другое потенциальное направление улучшения нейронных языковых моделей связано с применением более совершенных алгоритмов оптимизации. Например, новые алгоритмы оптимизации Lion и Sophia обещают в некоторых случаях ускорить обучение гигантских моделей в несколько раз [2637] , [2638] . Результаты более совершенных, чем AdamW, оптимизаторов не всегда хорошо воспроизводятся, но вселяют определённые надежды.

Ещё одна перспективная область исследований — применение на этапе предобучения языковой модели не только задачи предсказания следующего токена, но и других задач. В настоящее время многие команды заняты поиском оптимального набора задач для предобучения языковых моделей. Для архитектур типа «кодировщик — декодер», подобных модели T5, здесь можно отметить такие модели, как UL2 [2639] от исследователей из Google и FRED-T5, созданную в нашей команде группой под руководством Дмитрия Змитровича.

2637

Chen X., Liang C., Huang D., Real E., Wang K., Liu Y., Pham H., Dong X., Luong T., Hsieh C.-J., Lu Y., Le Q. V. (2023). Symbolic Discovery of Optimization Algorithms // https://arxiv.org/abs/2302.06675

2638

Liu H., Li Z., Hall D., Liang P., Ma T. (2023). Sophia: A Scalable Stochastic Second-order Optimizer for Language Model Pre-training // https://arxiv.org/abs/2305.14342

2639

Tay Y., Dehghani M., Tran V. Q., Garcia X., Wei J., Wang X., Chung H. W., Shakeri s., Bahri D., Schuster T., Zheng H. S., Zhou D., Houlsby N., Metzler D. (2022). UL2: Unifying Language Learning Paradigms // https://arxiv.org/abs/2205.05131

Подход, лежащий в основе этих моделей, был предложен авторами UL2 и получил название «смесь денойзеров» [mixture of denoisers], denoiser дословно переводится на русский язык как «удалитель шума». «Шум» в данном случае заключается в случайном повреждении части токенов у используемой для обучения последовательности с тем, чтобы модель затем научилась восстанавливать повреждённые участки, основываясь на неповреждённой части последовательности. Под отдельным денойзером в составе смеси понимают конкретный способ подготовки примера для обучения. Например, в модели UL2 два вида денойзеров (R и X) построены на задаче span corruption (т. е. «повреждение спана», под спаном понимают участок последовательности, состоящий из одного или нескольких следующих подряд токенов) с различными параметрами выбора спанов. В этой задаче берут исходную последовательность, удаляют случайные спаны (R — мало и редко, X — много или часто), подменяя их спецтокенами, и учат модель восстанавливать пропущенные спаны. Третий вид денойзера (S) основан на задаче продолжения последовательности, как в случае обычной языковой модели.

Задача восстановления повреждённого спана похожа на задачу MLM (masked language modeling, маскированное языковое моделирование), которую нередко используют для предобучения энкодерных трансформерных моделей (BERT, RoBERTa и др.). Но восстановление спана несколько сложнее, так как модель должна определить, какой длины спан ей нужно сгенерировать, при этом нередко длина спана может составлять 64 токена и более.

В процессе обучения удалению шума модель выучивает взаимосвязи между различными частями текста, что затем позволяет ей решать множество задач, связанных с пониманием языка. Основное архитектурное различие UL2 и FRED-T5 заключается в наборах денойзеров [2640] .

2640

Змитрович Д. (2023). FRED-T5. Новая SOTA модель для русского языка от SberDevices. / Хабр, 19 апр 2023 // https://habr.com/ru/companies/sberdevices/articles/730088/