Охота на электроовец. Большая книга искусственного интеллекта
Шрифт:
Рекламные тексты, гороскопы и жёлтые статьи [2586] в исполнении ruGPT-3 ничем не уступают настоящим. Впрочем, подобные тексты и при написании их людьми редко относятся к разряду шедевров. Однако ruGPT-3 неплохо подходит и для генерации образцов художественной литературы. Вот, например, литературный анекдот в стиле Хармса, сочинённый нейросетью:
2586
* Чего стоит хотя бы такой пассаж: «Кроме того, Пугачёва раскрыла подробности своей биографии, в которой оказалось немало скандальных эпизодов. Например, она утверждала, что в молодости была гейшей, а также что у неё в шкафу хранился сухой паёк на случай атомной войны, а её зять Г. Л. Рамазанов открыл для себя ясновидение».
Навсегда запомнилось Пушкину, как Гоголь стал матросом. Он вышел из кабака и заглянул в один кабак, заглянул в другой, потом пошел домой, постучал в свою мазанку и сказал: «Я матрос!»
В мае 2022 г. издательство Individuum выпустило весьма примечательный сборник рассказов под названием «Пытаясь проснуться». Его соавторами стали писатель Павел Пепперштейн и нейросеть «Нейропепперштейн», представлявшая собой специальную версию ruGPT-3, дообученную на текстах самого Пепперштейна с небольшой примесью текстов других авторов (оказавших, по мнению экспертов, влияние на авторский стиль писателя). Двенадцать рассказов в сборнике принадлежат перу человека и ещё двенадцать написаны нейросетью. Хотя эта книга
2587
Larson D. (2013). Irritant. Blue Square Press // https://books.google.ru/books?id=lOdOmwEACAAJ
2588
Green O. (2020). Bob The Robot: Exploring the Universe — A Cozy Bedtime Story Produced by Artificial Intelligence. Kindle Edition // https://www.amazon.com/Bob-Robot-Exploring-Artificial-Intelligence-ebook/dp/B08GL2YWGY
2589
Green O. (2020). How to write and publish a book using Machine Learning (GPT-3) // https://www.youtube.com/watch?v=oKh_Jxfeae0
2590
Пепперштейн Н., Пепперштейн П. (2022). Пытаясь проснуться // https:///book/neyro-peppershteyn/pytayas-prosnutsya-68292629/
2591
Шаврина Т. (2022). Это наконец произошло: нейросеть и человек написали книгу. Вместе! Рассказываем, как им помогали разработчики. / Хабр, 25 мая 2022 // https://habr.com/ru/companies/sberdevices/articles/667582/
Сегодня в содружестве с генеративными языковыми моделями созданы уже десятки, если не сотни книг [2592] , [2593] .
Наследниками ruGPT-3 стали модели ruGPT-3.5 [2594] , [2595] , [2596] и mGPT [2597] . Первая представляет собой усовершенствованную версию модели (с более современной реализацией блоков внимания), дообученную на расширенной версии датасета (в него, в частности, вошли обширные библиотеки правовых текстов и программного кода), вторая — многоязычную версию модели, способную работать с текстами на 61 языке. Многоязычность сегодня стала одним из важных направлений развития языковых моделей [2598] — многоязычные версии в наши дни можно найти практически для любых трансформерных архитектур. Например, многоязычными аналогами BERT являются модели mBERT [2599] (обученная авторами оригинальной модели) и XLM-R [2600] , а среди множества многоязычных GPT помимо нашей mGPT можно отметить модель XGLM [2601] от исследователей из Meta AI.
2592
Thompson D. A. (2022). Books by AI (GPT-3, GPT-3.5, ChatGPT) / LifeArchitect.ai // https://lifearchitect.ai/books-by-ai/
2593
Branwen G. (2020). GPT-3 Creative Fiction // https://www.gwern.net/GPT-3
2594
Аверкиев С. (2023). Сбер открывает доступ к нейросетевой модели ruGPT-3.5 / Хабр, 20 июля 2023 // https://habr.com/ru/companies/sberbank/articles/746736/
2595
Аверкиев С. (2023). Это не чат, это GigaChat. Русскоязычная ChatGPT от Сбера / Хабр, 24 апреля 2023 // https://habr.com/ru/companies/sberbank/articles/730108/
2596
Zmitrovich D., Abramov A., Kalmykov A., Tikhonova M., Taktasheva E., Astafurov D., Baushenko M., Snegirev A., Shavrina T., Markov S., Mikhailov V., Fenogenova A. (2023). A Family of Pretrained Transformer Language Models for Russian // https://arxiv.org/abs/2309.10931
2597
Shliazhko O., Fenogenova A., Tikhonova M., Mikhailov V., Kozlova A., Shavrina T. (2022). mGPT: Few-Shot Learners Go Multilingual // https://arxiv.org/abs/2204.07580
2598
Ruder S. (2023). The State of Multilingual AI // https://www.ruder.io/state-of-multilingual-ai/
2599
Devlin J., Chang M.-W., Lee K., Toutanova K. (2018). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding // https://arxiv.org/abs/1810.04805
2600
Conneau A., Khandelwal K., Goyal N., Chaudhary V., Wenzek G., Guzman F., Grave E., Ott M., Zettlemoyer L., Stoyanov V. (2019). Unsupervised Cross-lingual Representation Learning at Scale // https://arxiv.org/abs/1911.02116
2601
Lin X. V., Mihaylov T., Artetxe M., Wang T., Chen S., Simig D., Ott M., Goyal N., Bhosale S., Du J., Pasunuru R., Shleifer S., Koura P. S., Chaudhary V., O'Horo B., Wang J., Zettlemoyer L., Kozareva Z., Diab M., Stoyanov V., Li X. (2021). Few-shot Learning with Multilingual Language Models // https://arxiv.org/abs/2112.10668
Модели семейства GPT на сегодняшний день являются не единственными представителями класса NLP-моделей, претендующих на универсальность при решении широкого спектра задач, связанных с обработкой естественного языка. Ещё в октябре 2019 г. в статье под названием «Исследование пределов переноса знаний при помощи унифицированного трансформера вида „текст-в-текст“» [Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer] публике была представлена модель T5 (Text-to-Text Transfer Transformer, Основанный на переносе трансформер вида «текст-в-текст») от исследователей из Google. Эта модель содержит равное количество блоков трансформера в кодирующей и декодирующей частях сети. Самый большой обученный создателями модели вариант T5 содержит 11 млрд параметров. Для обучения использовался корпус объёмом около 750 Гб, получивший название C4 (Colossal Clean Crawled Corpus, Колоссальный, очищенный, собранный в интернете корпус), являющийся отфильтрованной версией корпуса Common Crawl. T5 успешно справляется с такими задачами, как классификация высказываний, ответы на вопросы, перевод текста или его реферирование, показывая на ряде задач SOTA-результаты [2602] . В октябре 2020 г. исследователи из Google выложили в общий доступ многоязычную версию своей модели, получившую название mT5. Для её обучения был использован гигантский датасет mC4, включающий в себя 6,6 млрд веб-страниц на 101 языке. Суммарный объём файлов датасета составляет почти 27 терабайт, что соответствует 6,3 млрд токенов [2603] .
2602
Raffel C., Shazeer N., Roberts A., Lee K., Narang S., Matena M., Zhou Y., Li W., Liu P. J. (2019). Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer // https://arxiv.org/abs/1910.10683
2603
Xue L., Constant N., Roberts A., Kale M., Al-Rfou R., Siddhant A., Barua A., Raffel C. (2020). mT5: A massively multilingual pre-trained text-to-text transformer // https://arxiv.org/abs/2010.11934
В ноябре 2021 г. свет увидела ещё одна усовершенствованная версия модели T5, получившая название ExT5. В данном случае фокус был сделан на экстремальной многозадачности модели. Датасет для её обучения, получивший название ExMix (Extreme Mixture, Экстремальная смесь), включает в себя тексты заданий и решений для 107 различных задач, относящихся к разным доменам и семействам. ExT5 смогла заметно превзойти свою прародительницу на задачах из набора SuperGLUE и других сборниках тестов [2604] .
2604
Aribandi V., Tay Y., Schuster T., Rao J., Zheng H. S., Mehta S. V., Zhuang H., Tran V. Q., Bahri D., Ni J., Gupta J., Hui K., Ruder S., Metzler D. (2021). ExT5: Towards Extreme Multi-Task Scaling for Transfer Learning // https://arxiv.org/abs/2111.10952
Модели,
• В Австралии бытует мнение, что если на тебя пристально смотрит лев, то это значит, что у тебя в руках морковка.
• В Арктике нет почтовых голубей. Все письма для белых медведей доставляет летчик-истребитель по радио.
• Выросший в утробе матери скорпион быстрее развивает скорость, чем обычный.
• Джентльмены делятся своими сигарами, если хотят произвести впечатление на женщин.
• Первый государственный банк открылся в России в 1769 г., в США — в 1792-м и так далее.
К такого рода фантазиям склонны в большей мере модели с небольшим числом параметров, но даже от модели с 13 млрд параметров не стоит ждать 100% проверенных фактов. В какой-то мере этим свойством модели можно управлять (например, изменяя параметры генератора последовательностей), но стоит задаться вопросом: а насколько с фактической точки зрения хороши ответы людей? Мир, полный псевдонаучных фриков, сторонников различных теорий заговора, антипрививочников, плоскоземельцев и так далее, генерирует соответствующий цифровой след. Неудивительно, что модели, обученные на случайных текстах из интернета, да ещё и использующие значительную случайную компоненту при выборе токенов во время генерации, периодически начинают производить на свет полную ересь. Обычно, если мне задают вопрос, требующий тех или иных фактических знаний, я обращаюсь к более-менее надёжным источникам во Всемирной сети, таким, например, как энциклопедии, научные статьи и обзоры и так далее. И главным помощником тут становятся поисковые сервисы, такие как Google (кстати говоря, алгоритмы их работы также основаны на современных моделях машинного обучения). Может быть, можно сделать ещё один шаг вперёд и научить нейронную сеть автоматически формировать поисковые запросы для извлечения фактических знаний из большой базы данных? Возможность этого продемонстрировали исследователи из DeepMind, создавшие модель, получившую название RETRO (Retrieval-Enhanced Transformer, Трансформер, усовершенствованный за счёт поиска). RETRO извлекает из большого набора документов релевантные фрагменты текста, чтобы затем использовать их при формировании ответа. Сравнивая сгенерированные тексты с отрывками, на которые модель опиралась при генерации, можно понять, на чём именно основаны полученные ответы [2605] . В 2022 г. создатели модели Re-Imagen (Retrieval-augmented Text-to-Image Generator, Дополненный поиском генератор изображений по тексту) [2606] применили аналогичный подход при генерации изображений, позволяя модели при генерации картинки «подглядывать» в извлекаемые из базы данных изображения объектов, редко встречающихся в обучающей выборке.
2605
Rae J., Irving G., Weidinger L. (2021). Language modelling at scale: Gopher, ethical considerations, and retrieval / DeepMind blog, 08 Dec 2021 // https://deepmind.com/blog/article/language-modelling-at-scale
2606
Chen W., Hu H., Saharia C., Cohen W. W. (2022). Re-Imagen: Retrieval-Augmented Text-to-Image Generator // https://arxiv.org/abs/2209.14491
В январе 2021 г. исследователи из Google сообщили [2607] о создании новой архитектуры для разреженных трансформерных моделей, названной Switch Transformer (дословно «переключатель-трансформер» или «коммутатор-трансформер»), — наследника архитектуры GShard [2608] . Самая большая модель на основе этой архитектуры получила название Switch-C. Число обучаемых параметров этой модели — 1,571 трлн, что почти в девять раз больше, чем у GPT-3. Таким образом, Switch-C стала первой трансформерной моделью, преодолевшей порог в триллион параметров. Помимо увеличения размера модели, авторам удалось также добиться существенного ускорения её работы по сравнению с предшественниками. Впрочем, сравнивать Switch-трансформеры с моделями типа GPT-3 или T5 не совсем правильно, поскольку в данном случае речь идёт не о монолитной нейросетевой архитектуре, а о сети с разреженным типом активации, состоящей из множества отдельных подсетей-экспертов, переключение между которыми выполняет отдельная нейросетевая модель-диспетчер (Gating Network). При этом каждая сеть-эксперт может располагаться на отдельном узле вычислительного кластера. В итоге на каждом шаге обучения сети обновляется лишь сравнительно небольшое подмножество весов сети, что делает задачу обучения и выполнения сети более экономной с вычислительной точки зрения (впрочем, ценой некоторого падения точности модели). Такую архитектуру сети называют «смесь экспертов» (Mixture-of-Experts, MoE). Процесс обучения MoE-модели чем-то похож на послойное обучение глубоких сетей, популярное на границе тысячелетий. Неслучайно, что первое описание MoE-подхода мы находим в работах [2609] , [2610] Джеффри Хинтона и его коллег с начала 1990-х гг.
2607
Fedus W., Zoph B., Shazeer N. (2021). Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity // https://arxiv.org/abs/2101.03961
2608
Lepikhin D., Lee H., Xu Y., Chen D., Firat O., Huang Y., Krikun M., Shazeer N., Chen Z. (2020). GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding // https://arxiv.org/abs/2006.16668
2609
Jacobs R. A., Jordan M. I., Nowlan S. J., Hinton G. E. (1991). Adaptive Mixtures of Local Experts // http://www.cs.toronto.edu/~fritz/absps/jjnh91.pdf
2610
Shazeer N., Mirhoseini A., Maziarz K., Davis A., Le Q., Hinton G., Dean J. (2017). Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer // https://arxiv.org/abs/1701.06538
В наши дни исследования в области MoE-моделей ведутся довольно активно. Например, в сентябре 2021 г. исследователи из Microsoft рассказали о модели под названием Z-code M3 (M3 означает Multitask, Multilingual и MoE — Многозадачная, многоязычная и MoE) [2611] , в декабре появилась новая MoE-модель от Google под названием GLaM (Generalist Language Model, Универсальная языковая модель) [2612] , а под конец года о создании собственных языковых моделей на основе парадигмы MoE заявили исследователи из Meta (бывшей Facebook) [2613] . По слухам, MoE-подход был использован и при создании GPT-4 от OpenAI [2614] .
2611
Kim Y. J., Awan A. A., Muzio A., Salinas A. F. C., Lu L., Hendy A., Rajbhandari S., He Y., Awadalla H. H. (2021). Scalable and Efficient MoE Training for Multitask Multilingual Models // https://arxiv.org/abs/2109.10465
2612
Du N., Huang Y., Dai A. M., Tong S., Lepikhin D., Xu Y., Krikun M., Zhou Y., Yu A. W., Firat O., Zoph B., Fedus L., Bosma M., Zhou Z., Wang T., Wang Y. E., Webster K., Pellat M., Robinson K., Meier-Hellstern K., Duke T., Dixon L., Zhang K., Le Q. V., Wu Y., Chen Z., Cui C. (2021). GLaM: Efficient Scaling of Language Models with Mixture-of-Experts // https://arxiv.org/abs/2112.06905
2613
Artetxe M., Bhosale S., Goyal N., Mihaylov T., Ott M., Shleifer S., Lin X. V., Du J., Iyer S., Pasunuru R., Anantharaman G., Li X., Chen S., Akin H., Baines M., Martin L., Zhou X., Koura P. S., O'Horo B., Wang J., Zettlemoyer L., Diab M., Kozareva Z., Stoyanov V. (2021). Efficient Large Scale Language Modeling with Mixtures of Experts // https://arxiv.org/abs/2112.10684
2614
Schreiner M. (2023). GPT-4 architecture, datasets, costs and more leaked. / The Decoder, Jul. 11, 2023. // https://the-decoder.com/gpt-4-architecture-datasets-costs-and-more-leaked/
В апреле 2021 г. исследователи из китайской компании Huawei опубликовали генеративную языковую модель для китайского языка, получившую название PANGU-? [2615] . В древнекитайской мифологии Пань-гу (кит. трад. ??, упр. ??, пиньинь Pangu) — первый человек на земле, появившийся из вселенского яйца и взмахом огромного топора отделивший мутную часть — землю (Инь) от светлой части — неба (Ян).
В самой большой версии PANGU-? 207 млрд параметров, что на 32 млрд параметров больше, чем в самой большой версии GPT-3. Модель обучена на специально созданном текстовом корпусе объёмом около 1,1 терабайта.
2615
Zeng W., Ren X., Su T., Wang H., Liao Y., Wang Z., Jiang X., Yang Z., Wang K., Zhang X., Li C., Gong Z., Yao Y., Huang X., Wang J., Yu J., Guo Q., Yu Y., Zhang Y., Wang J., Tao H., Yan D., Yi Z., Peng F., Jiang F., Zhang H., Deng L., Zhang Y., Lin Z., Zhang C., Zhang S., Guo M., Gu S., Fan G., Wang Y., Jin X., Liu Q., Tian Y. (2021). PanGu-?: Large-scale Autoregressive Pretrained Chinese Language Models with Auto-parallel Computation // https://arxiv.org/abs/2104.12369
Аргумент барона Бронина 3
3. Аргумент барона Бронина
Фантастика:
попаданцы
аниме
сказочная фантастика
фэнтези
рейтинг книги
Венецианский купец
1. Венецианский купец
Фантастика:
фэнтези
героическая фантастика
альтернативная история
рейтинг книги
Темный Лекарь 4
4. Темный Лекарь
Фантастика:
фэнтези
аниме
рейтинг книги
Невеста на откуп
2. Невеста на откуп
Фантастика:
фэнтези
рейтинг книги
Сын Багратиона
Фантастика:
попаданцы
альтернативная история
рейтинг книги
Барону наплевать на правила
7. Закон сильного
Фантастика:
боевая фантастика
попаданцы
аниме
рейтинг книги
Зайти и выйти
Проза:
военная проза
рейтинг книги
Барон Дубов
1. Его Дубейшество
Фантастика:
юмористическое фэнтези
аниме
сказочная фантастика
фэнтези
рейтинг книги
Я все еще князь. Книга XXI
21. Дорогой барон!
Фантастика:
юмористическое фэнтези
попаданцы
аниме
рейтинг книги
Как я строил магическую империю 2
2. Как я строил магическую империю
Фантастика:
попаданцы
аниме
рейтинг книги
Пограничная река. (Тетралогия)
Пограничная река
Фантастика:
фэнтези
боевая фантастика
рейтинг книги
Предатель. Ты променял меня на бывшую
7. Измены
Любовные романы:
современные любовные романы
рейтинг книги
Отрок (XXI-XII)
Фантастика:
альтернативная история
рейтинг книги
