Охота на электроовец. Большая книга искусственного интеллекта
Шрифт:
NaNoGenMo — не единственная коллективная онлайн-инициатива, посвящённая литературному творчеству машин. В 2016 г. поэтесса и программистка Кармел Аллисон запустила веб-сайт CuratedAI — «Литературный журнал, написанный машинами для людей» (A literary magazine written by machines, for people) — онлайн-издание, специализирующееся на публикации произведений, созданных при помощи методов искусственного интеллекта. Первыми произведениями, опубликованными на сайте, стали стихи, сгенерированные созданной Кармел нейронной сетью Deep Gimble I («Глубокая Гимбл I») [2545] , [2546] .
2545
Haridy R. (2016). 2016: The year AI got creative / New Atlas, December 12, 2016 // https://newatlas.com/ai-art-film-writing-review/46891/
2546
About CuratedAI // http://curatedai.com/about
Хотя к форме в случае стихотворного текста предъявляются дополнительные требования, порой весьма жёсткие, задача написания стихотворений, по всей видимости, является более простой с точки зрения искусственного интеллекта. Причина этого довольно банальна: стихотворения в массе своей сравнительно невелики, а значит, при их «написании» генеративная модель не должна «сочинять» крупномасштабную структуру повествования, основой которой являются зависимости между токенами, разнесёнными на очень большие расстояния. Представьте, что какой-то герой вводится автором в
Даже книга, которую вы читаете в настоящий момент, по числу слов превосходит «Шахнаме». Конечно, у модели с длиной контекста в 1024 токена наверняка возникли бы проблемы и при написании большой стихотворной поэмы, но в массе своей шедевры стихотворного жанра без особых проблем поместятся в такой контекст целиком. В стихотворении «Имя твоё — птица в руке…» Цветаевой 81 слово, в «Незнакомке» Блока — 219, в «Сероглазом короле» Ахматовой — 69, а «Я вас любил…» Пушкина и вовсе насчитывает всего 50 слов. При автоматическом создании стихотворений борьба сейчас идёт скорее за то, чтобы научить модели понимать, чем шедевры отличаются от проходных текстов, и научить машины создавать именно шедевры. Впрочем, я думаю, что эта задача не так уж сложна, как может показаться на первый взгляд. По крайней мере, у нас есть множество рейтингов стихотворений, которые можно использовать в качестве обучающих выборок. С проблемой недостаточной длины контекста генеративных моделей ситуация выглядит несколько менее оптимистичной — здесь, по всей видимости, необходимы новые нейросетевые архитектуры, и в настоящее время в этой области активно ведутся исследования.
Среди примеров перспективных архитектур можно назвать разреженный трансформер [sparse transformer] [2547] , лонгформер [longformer] [2548] , реформер [reformer] [2549] , трансформер с адаптивным диапазоном внимания [adaptive attention span] [2550] , сжимающий трансформер [compressive transformer] [2551] , поблочный трансформер [blockwise transformer] [2552] , Linformer [2553] , BigBird [2554] , перформер [performer] [2555] , ?-формер [?-former] [2556] , LongNet [2557] , транcформер Синкхорна [Sinkhorn Transformer] [2558] , синтезатор [Synthesizer] [2559] , Mega (Moving Average Equipped Gated Attention, Вентильное внимание, оснащённое скользящим средним) [2560] , MEGABYTE [2561] и ряд других аналогичных моделей. Такие модели обычно позволяют увеличить размеры рецептивного поля в несколько раз. Для оценки возможностей моделей, предназначенных для моделирования «долгих» (до 16 тыс. токенов) зависимостей в последовательностях, исследователями из DeepMind и Google в 2020 г. был разработан специальный набор тестов под названием «Арена больших расстояний» [Long Range Arena] [2562] , [2563] . По состоянию на середину 2023 г. наилучшие результаты на этом наборе тестов были достигнуты моделью Mega. В 2023 г. было опубликовано ещё два набора тестов для моделей, способных работать с длинными последовательностями: L-Eval [2564] и LongBench [2565] . Интересно, что неплохие результаты при моделировании длинных последовательностей показывают старые добрые свёрточные нейронные сети — для языкового моделирования в последние годы на основе свёрток было создано несколько интересных архитектур, например SGConv (Structured Global Convolution, Структурированная глобальная свёртка) [2566] или «Иерархия гиен» [Hyena Hierarchy] [2567] .
2547
Child R., Gray S., Radford A., Sutskever I. (2019). Generating Long Sequences with Sparse Transformers // https://arxiv.org/abs/1904.10509
2548
Beltagy I., Peters M. E., Cohan A. (2020). Longformer: The Long-Document Transformer // https://arxiv.org/abs/2004.05150
2549
Kitaev N., Kaiser L., Levskaya A. (2020). Reformer: The Efficient Transformer // https://arxiv.org/abs/2001.04451
2550
Sukhbaatar S., Grave E., Bojanowski P., Joulin A. (2019). Adaptive Attention Span in Transformers // https://arxiv.org/abs/1905.07799
2551
Rae J. W., Potapenko A., Jayakumar S. M., Lillicrap T. P. (2019). Compressive Transformers for Long-Range Sequence Modelling // https://arxiv.org/abs/1911.05507
2552
Qiu J., Ma H., Levy O., Yih S. W.-t., Wang S., Tang J. (2019). Blockwise Self-Attention for Long Document Understanding / CLR 2020 Conference Blind Submission // https://openreview.net/forum?id=H1gpET4YDB
2553
Wang S., Li B. Z., Khabsa M., Fang H., Ma H. (2020). Linformer: Self-Attention with Linear Complexity // https://arxiv.org/abs/2006.04768
2554
Zaheer M., Guruganesh G., Dubey A., Ainslie J., Alberti C., Ontanon S., Pham P., Ravula A., Wang Q., Yang L., Ahmed A. (2020). Big Bird: Transformers for Longer Sequences // https://arxiv.org/abs/2007.14062
2555
Choromanski K., Likhosherstov V., Dohan D., Song X., Gane A., Sarlos T., Hawkins P., Davis J., Mohiuddin A., Kaiser L., Belanger D., Colwell L., Weller A. (2020). Rethinking Attention with Performers // https://arxiv.org/abs/2009.14794
2556
Martins P. H., Marinho Z., Martins A. F. T. (2021). ?-former: Infinite Memory Transformer // https://arxiv.org/abs/2109.00301
2557
Ding J., Ma S., Dong L., Zhang X., Huang S., Wang W., Zheng N., Wei F. (2023). LongNet: Scaling Transformers to 1,000,000,000 Tokens // https://arxiv.org/abs/2307.02486
2558
Tay Y., Bahri D., Yang L., Metzler D., Juan D.-C. (2020). Sparse Sinkhorn Attention // https://arxiv.org/abs/2002.11296
2559
Tay Y., Bahri D., Metzler D., Juan D.-C., Zhao Z., Zheng C. (2020). Synthesizer: Rethinking Self-Attention in Transformer Models // https://arxiv.org/abs/2005.00743
2560
Ma X., Zhou C., Kong X., He J., Gui L., Neubig G., May J., Zettlemoyer L. (2022). Mega: Moving Average Equipped Gated Attention // https://arxiv.org/abs/2209.10655
2561
Yu L., Simig D., Flaherty C., Aghajanyan A., Zettlemoyer L., Lewis M. (2023). MEGABYTE: Predicting Million-byte Sequences with Multiscale Transformers // https://arxiv.org/abs/2305.07185
2562
Tay Y., Dehghani M., Abnar S., Shen Y., Bahri D., Pham P., Rao J., Yang L., Ruder S., Metzler D. (2020). Long Range Arena: A Benchmark for Efficient Transformers // https://arxiv.org/abs/2011.04006
2563
Long-range modeling on LRA (2023) // https://paperswithcode.com/sota/long-range-modeling-on-lra
2564
An C., Gong S., Zhong M., Zhao X., Li M., Zhang J., Kong L., Qiu X. (2023). L-Eval: Instituting Standardized Evaluation for Long Context Language Models // https://arxiv.org/abs/2307.11088
2565
Bai Y., Lv X., Zhang J., Lyu H., Tang J., Huang Z., Du Z., Liu X., Zeng A., Hou L., Dong Y., Tang J., Li J. (2023). LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding // https://arxiv.org/abs/2308.14508
2566
Li Y., Cai T., Zhang Y., Chen D., Dey D. (2022). What Makes Convolutional Models Great on Long Sequence Modeling? // https://arxiv.org/abs/2210.09298
2567
Poli M., Massaroli S., Nguyen E., Fu D. Y., Dao T., Baccus S., Bengio Y., Ermon S., Re C. (2023). Hyena Hierarchy: Towards Larger Convolutional Language Models // https://arxiv.org/abs/2302.10866
В
6.6.4 GPT-3 и гонка за триллионом параметров
Появление в мае 2020 г. новой модели семейства GPT под названием GPT-3 вызвало волну обсуждений как среди специалистов, так и в среде широкой общественности. Эта модель совместила в себе блоки обычного, «плотного» [dense] трансформера и блоки разреженного трансформера, при этом размер её рецептивного поля составляет 2048 токенов. Самый большой вариант GPT-3 со 175 млрд весов стал на момент появления самой большой моделью в своём семействе. Специалисты OpenAI описали в своей публикации [2568] множество интересных экспериментов с этой моделью. В одном из них люди должны были в двойном слепом тесте отличить короткие (около 200 слов) статьи, сгенерированные моделью, от статей, написанных людьми. Всего было использовано 25 пар статей. Люди (их было 80) справились с задачей в 52% случаев, что при 95%-ном доверительном интервале даёт разброс 49–54%, из чего можно сделать вывод, что выбор людей статистически значимо не отличался от случайного. Ниже пример статьи, написанной GPT-3.
2568
Brown T. B., Mann B., Ryder N., Subbiah M., Kaplan J., Dhariwal P., Neelakantan A., Shyam P., Sastry G., Askell A., Agarwal S., Herbert-Voss A., Krueger G., Henighan T., Child R., Ramesh A., Ziegler D. M., Wu J., Winter C., Hesse C., Chen M., Sigler E., Litwin M., Gray S., Chess B., Clark J., Berner C., McCandlish S., Radford A., Sutskever I., Amodei D. (2020). Language Models are Few-Shot Learners // https://arxiv.org/abs/2005.14165
Название: Объединённые методисты договорились об историческом расколе
Подзаголовок: Те, кто выступает против однополых браков, сформируют свою собственную деноминацию
Статья: После двух дней интенсивных дебатов Объединённая методистская церковь согласилась на исторический раскол — тот, который, как ожидается, закончится созданием новой деноминации, которая будет «богословски и социально консервативной», согласно The Washington Post. Большинство делегатов, присутствовавших на ежегодной Генеральной конференции церкви в мае, проголосовали за усиление ограничений на рукоположение духовенства, принадлежащего к LGBTQ, и за разработку новых правил, включающих дисциплинарные меры против священнослужителей, которые исполняют обязанности на однополых свадьбах. Но те, кто выступал против этих мер, имеют свой план: они говорят, что к 2020 г. сформируют отдельную деноминацию, назвав свою церковь Христианской методистской деноминацией.
Post отмечает, что деноминация, которая заявляет численность в 12,5 млн членов, была в начале 20-го века «крупнейшей протестантской деноминацией в США», но в последние десятилетия её численность сокращалась. Новый раскол станет вторым в истории церкви. Первый произошёл в 1968 г., когда примерно 10 процентов деноминации ушли в Евангелическую объединённую церковь братьев. Post отмечает, что предлагаемый раскол «наступил в критический момент для церкви, которая теряет членов в течение многих лет», которая была «выдвинута на грань раскола из-за роли людей LGBTQ в церкви». Однополые браки — не единственная проблема, которая разделила церковь. В 2016 г. деноминация была разделена по вопросу трансгендерного духовенства, при этом Северно-Тихоокеанская региональная конференция проголосовала за то, чтобы запретить им выполнять функции духовенства, а Южно-Тихоокеанская — против запрета.
[Title: United Methodists Agree to Historic Split
Subtitle: Those who oppose gay marriage will form their own denomination
Article: After two days of intense debate, the United Methodist Church has agreed to a historic split - one that is expected to end in the creation of a new denomination, one that will be “theologically and socially conservative,” according to The Washington Post. The majority of delegates attending the church’s annual General Conference in May voted to strengthen a ban on the ordination of LGBTQ clergy and to write new rules that will “discipline” clergy who officiate at same-sex weddings. But those who opposed these measures have a new plan: They say they will form a separate denomination by 2020, calling their church the Christian Methodist denomination.
The Post notes that the denomination, which claims 12.5 million members, was in the early 20th century the “largest Protestant denomination in the U. S.,” but that it has been shrinking in recent decades. The new split will be the second in the church’s history. The first occurred in 1968, when roughly 10 percent of the denomination left to form the Evangelical United Brethren Church. The Post notes that the proposed split “comes at a critical time for the church, which has been losing members for years,” which has been “pushed toward the brink of a schism over the role of LGBTQ people in the church.” Gay marriage is not the only issue that has divided the church. In 2016, the denomination was split over ordination of transgender clergy, with the North Pacific regional conference voting to ban them from serving as clergy, and the South Pacific regional conference voting to allow them.]
GPT-3 оказалась способна не только генерировать тексты (в том числе стихи, шутки и литературные пародии), но и исправлять грамматические ошибки, вести диалоги и даже (ВНЕЗАПНО!) писать более-менее осмысленный программный код. Множество интересных применений GPT-3 можно найти на сайте независимого исследователя Гверна Бренуэна. Бренуэн, развивая идею, высказанную в шуточном твите Андрея Карпатого, задаётся интересным вопросом: не являемся ли мы свидетелями появления новой парадигмы программирования?
Аргумент барона Бронина 3
3. Аргумент барона Бронина
Фантастика:
попаданцы
аниме
сказочная фантастика
фэнтези
рейтинг книги
Венецианский купец
1. Венецианский купец
Фантастика:
фэнтези
героическая фантастика
альтернативная история
рейтинг книги
Темный Лекарь 4
4. Темный Лекарь
Фантастика:
фэнтези
аниме
рейтинг книги
Невеста на откуп
2. Невеста на откуп
Фантастика:
фэнтези
рейтинг книги
Сын Багратиона
Фантастика:
попаданцы
альтернативная история
рейтинг книги
Барону наплевать на правила
7. Закон сильного
Фантастика:
боевая фантастика
попаданцы
аниме
рейтинг книги
Зайти и выйти
Проза:
военная проза
рейтинг книги
Барон Дубов
1. Его Дубейшество
Фантастика:
юмористическое фэнтези
аниме
сказочная фантастика
фэнтези
рейтинг книги
Я все еще князь. Книга XXI
21. Дорогой барон!
Фантастика:
юмористическое фэнтези
попаданцы
аниме
рейтинг книги
Как я строил магическую империю 2
2. Как я строил магическую империю
Фантастика:
попаданцы
аниме
рейтинг книги
Пограничная река. (Тетралогия)
Пограничная река
Фантастика:
фэнтези
боевая фантастика
рейтинг книги
Предатель. Ты променял меня на бывшую
7. Измены
Любовные романы:
современные любовные романы
рейтинг книги
Отрок (XXI-XII)
Фантастика:
альтернативная история
рейтинг книги
