Охота на электроовец. Большая книга искусственного интеллекта, Марков Сергей Николаевич

Охота на электроовец. Большая книга искусственного интеллекта

на обложку

Марков Сергей Николаевич

Шрифт:

На что же способны такие гигантские модели [2536] , как GPT-2-xlarge? Эта модель установила новые SOTA-результаты для семи из восьми использованных для тестов текстовых корпусов без какого-либо дообучения.

Итак, у авторов в руках оказалась мощная модель, способная оценивать для каждого токена из словаря вероятность того, что именно этот токен будет продолжением некоторой последовательности. Как можно использовать её для генерации самой последовательности? Казалось бы, достаточно на каждом шаге генерации просто выбирать наиболее вероятный с точки зрения модели токен. Такой подход называют жадным [greedy]. Проблема жадного подхода заключается в том же, в чём заключается проблема жадности вообще. В моменте он позволяет максимизировать результат, но на более длинном промежутке времени может привести к далеко не оптимальному итогу. То есть «схватившись» за наиболее

вероятный токен на первом шаге генерации, такой метод может столкнуться с тем, что на следующем шаге у него не будет хороших кандидатов, в результате чего вся последовательность окажется не такой хорошей, как в случае, когда выбор первого токена был бы не таким жадным. Другой крайностью по отношению к жадному методу является метод полного перебора. Мы можем рассмотреть все варианты первого токена генерируемой последовательности, для каждого из них, в свою очередь, рассмотреть все варианты второго токена и так далее. В теории такой метод может позволить нам найти самое вероятное продолжение последовательности, однако на практике вычислительные затраты в случае более-менее длинной последовательности будут неприемлемыми. Действительно, если мы генерируем последовательность из одного токена, то нам необходимо будет изучить около 50 000 вариантов (по одному варианту на каждый токен в словаре), для двух — 50 000 x 50 000, то есть 2,5 млрд и так далее. Разумным компромиссом между этими двумя подходами являются методы, которые на каждом шаге генерации каким-либо образом ограничивают количество рассматриваемых вариантов. Например, если на каждом шаге мы будем оставлять только N наиболее перспективных вариантов, то на каждом шаге генерации нам потребуется рассмотреть лишь N x 50 000 возможностей. То есть мы на первом шаге рассматриваем 50 000 вариантов, оставляем из них N лучших, затем смотрим для каждого из них 50 000 возможных продолжений, оставляем из полученных последовательностей из двух токенов N лучших и так далее. Такой метод называется методом лучевого поиска [beam search]. Он получил такое название, потому что, подобно лучу прожектора, выхватывает из гигантского поискового дерева небольшую его часть, при этом число N называется шириной луча. Существуют и другие, более сложные алгоритмы поиска, в которых число вариантов на каждом шаге генерации не фиксировано. К их числу относится, например, ядерное семплирование [nucleus sampling] [2537] , применяемое во многих современных реализациях GPT-2.

2536

* Поскольку благодаря появлению трансформерной архитектуры возник ряд моделей с числом параметров, превышающим 100 миллионов, для обозначения таких моделей в научной литературе стали применять специальный термин — «большие языковые модели» (Large Language Model, LLM). Конечно, само значение в 100 миллионов параметров является весьма условным (в некоторых источниках вы найдёте другие значения этой границы, например 1 млрд параметров), поэтому в отношении некоторых моделей могут возникнуть сомнения: считать их большими или нет. Но с практической точки зрения эти споры вряд ли представляют какой-либо интерес.

2537

Holtzman A., Buys J., Du L, Forbes M., Choi Y. (2020). The curious case of neural text degeneration // https://arxiv.org/abs/1904.09751

Давайте посмотрим на образец «творчества» GPT-2, приводимый авторами оригинального исследования.

«Затравка» (текст, написанный человеком, в качестве начала генерируемой истории):

Шокирующим открытием стало обнаружение учёным стада единорогов, живущих в отдалённой, ранее не исследованной долине, в Андах. Ещё более удивительным для исследователей стало то, что единороги прекрасно говорили по-английски. [In a shocking finding, scientist discovered a herd of unicorns living in a remote, previously unexplored valley, in the Andes Mountains. Even more surprising to the researchers was the fact that the unicorns spoke perfect English.]

Продолжение текста от GPT-2:

Учёный назвал популяцию в честь их характерного рога единорогами Овидия. Эти серебристо-белые единороги с четырьмя рогами были ранее неизвестны науке.

Теперь, спустя почти два столетия, тайна того, что вызвало это странное явление, наконец разгадана.

Доктор Хорхе Перес, биолог-эволюционист

из Университета Ла-Паса, и несколько его компаньонов исследовали Анды, когда обнаружили небольшую долину, в которой не было других животных или людей. Перес заметил, что в долине бил естественный фонтан, окружённый двумя пиками из камня и серебряного снега.

Затем Перес и остальные спустились дальше в долину. «К тому времени, когда мы достигли вершины одного пика, вода стала голубой, а сверху обнаружилось несколько кристаллов», — сказал Перес.

Перес и его друзья были поражены, увидев стадо единорогов. Этих существ можно было разглядеть с воздуха без особого труда — они были так близко, что можно было коснуться их рогов.

Исследуя этих странных существ, учёные обнаружили, что эти существа также говорят на довольно распространённой версии английского языка. Перес заявил: «Например, мы видим, что у них общий „язык“, что-то вроде диалекта или диалектики».

Доктор Перес полагает, что единороги, возможно, происходят из Аргентины, где эти животные считались потомками потерянной человеческой расы, которая обитала там до прибытия людей в эти части Южной Америки.

Хотя их происхождение до сих пор неясно, некоторые полагают, что, возможно, существа были созданы, когда человек и единорог встретились друг с другом во времена, предшествовавшие человеческой цивилизации. По словам Переса, «в Южной Америке подобные инциденты встречаются довольно часто».

Тем не менее Перес также указал, что, вероятно, мы можем узнать наверняка, являются ли единороги действительно потомками потерянной чужой расы, только при помощи ДНК. «Но они, кажется, способны хорошо общаться на английском языке, что, по моему мнению, является признаком эволюции или, по крайней мере, изменения в социальной организации», — сказал учёный. [The scientist named the population, after their distinctive horn, Ovid’s Unicorn. These four-horned, silver-white unicorns were previously unknown to science.

Now, after almost two centuries, the mystery of what sparked this odd phenomenon is finally solved.

Dr. Jorge Perez, an evolutionary biologist from the University of La Paz, and several companions, were exploring the Andes Mountains when they found a small valley, with no other animals or humans. Perez noticed that the valley had what appeared to be a natural fountain, surrounded by two peaks of rock and silver snow.

Perez and the others then ventured further into the valley. “By the time we reached the top of one peak, the water looked blue, with some crystals on top,” said Perez.

Perez and his friends were astonished to see the unicorn herd. These creatures could be seen from the air without having to move too much to see them — they were so close they could touch their horns.

While examining these bizarre creatures the scientists discovered that the creatures also spoke some fairly regular English. Perez stated, “We can see, for example, that they have a common ‘language,’ something like a dialect or dialectic.”

Dr. Perez believes that the unicorns may have originated in Argentina, where the animals were believed to be descendants of a lost race of people who lived there before the arrival of humans in those parts of South America.

While their origins are still unclear, some believe that perhaps the creatures were created when a human and a unicorn met each other in a time before human civilization. According to Perez, “In South America, such incidents seem to be quite common.”

However, Perez also pointed out that it is likely that the only way of knowing for sure if unicorns are indeed the descendants of a lost alien race is through DNA. “But they seem to be able to communicate in English quite well, which I believe is a sign of evolution, or at least a change in social organization,” said the scientist.] [2538]

Как видим, модель успешно справилась с задачей генерации осмысленного текста, который вполне мог бы сойти за статью в какой-нибудь жёлтой газете.

2538

Radford A., Wu J., Child R., Luan D., Amodei D., Sutskever I. (2019). Language Models are Unsupervised Multitask Learners // https://paperswithcode.com/paper/language-models-are-unsupervised-multitask