Охота на электроовец. Большая книга искусственного интеллекта
Шрифт:
На что же способны такие гигантские модели [2536] , как GPT-2-xlarge? Эта модель установила новые SOTA-результаты для семи из восьми использованных для тестов текстовых корпусов без какого-либо дообучения.
Итак, у авторов в руках оказалась мощная модель, способная оценивать для каждого токена из словаря вероятность того, что именно этот токен будет продолжением некоторой последовательности. Как можно использовать её для генерации самой последовательности? Казалось бы, достаточно на каждом шаге генерации просто выбирать наиболее вероятный с точки зрения модели токен. Такой подход называют жадным [greedy]. Проблема жадного подхода заключается в том же, в чём заключается проблема жадности вообще. В моменте он позволяет максимизировать результат, но на более длинном промежутке времени может привести к далеко не оптимальному итогу. То есть «схватившись» за наиболее
2536
* Поскольку благодаря появлению трансформерной архитектуры возник ряд моделей с числом параметров, превышающим 100 миллионов, для обозначения таких моделей в научной литературе стали применять специальный термин — «большие языковые модели» (Large Language Model, LLM). Конечно, само значение в 100 миллионов параметров является весьма условным (в некоторых источниках вы найдёте другие значения этой границы, например 1 млрд параметров), поэтому в отношении некоторых моделей могут возникнуть сомнения: считать их большими или нет. Но с практической точки зрения эти споры вряд ли представляют какой-либо интерес.
2537
Holtzman A., Buys J., Du L, Forbes M., Choi Y. (2020). The curious case of neural text degeneration // https://arxiv.org/abs/1904.09751
Давайте посмотрим на образец «творчества» GPT-2, приводимый авторами оригинального исследования.
«Затравка» (текст, написанный человеком, в качестве начала генерируемой истории):
Шокирующим открытием стало обнаружение учёным стада единорогов, живущих в отдалённой, ранее не исследованной долине, в Андах. Ещё более удивительным для исследователей стало то, что единороги прекрасно говорили по-английски. [In a shocking finding, scientist discovered a herd of unicorns living in a remote, previously unexplored valley, in the Andes Mountains. Even more surprising to the researchers was the fact that the unicorns spoke perfect English.]
Продолжение текста от GPT-2:
Учёный назвал популяцию в честь их характерного рога единорогами Овидия. Эти серебристо-белые единороги с четырьмя рогами были ранее неизвестны науке.
Теперь, спустя почти два столетия, тайна того, что вызвало это странное явление, наконец разгадана.
Доктор Хорхе Перес, биолог-эволюционист
Затем Перес и остальные спустились дальше в долину. «К тому времени, когда мы достигли вершины одного пика, вода стала голубой, а сверху обнаружилось несколько кристаллов», — сказал Перес.
Перес и его друзья были поражены, увидев стадо единорогов. Этих существ можно было разглядеть с воздуха без особого труда — они были так близко, что можно было коснуться их рогов.
Исследуя этих странных существ, учёные обнаружили, что эти существа также говорят на довольно распространённой версии английского языка. Перес заявил: «Например, мы видим, что у них общий „язык“, что-то вроде диалекта или диалектики».
Доктор Перес полагает, что единороги, возможно, происходят из Аргентины, где эти животные считались потомками потерянной человеческой расы, которая обитала там до прибытия людей в эти части Южной Америки.
Хотя их происхождение до сих пор неясно, некоторые полагают, что, возможно, существа были созданы, когда человек и единорог встретились друг с другом во времена, предшествовавшие человеческой цивилизации. По словам Переса, «в Южной Америке подобные инциденты встречаются довольно часто».
Тем не менее Перес также указал, что, вероятно, мы можем узнать наверняка, являются ли единороги действительно потомками потерянной чужой расы, только при помощи ДНК. «Но они, кажется, способны хорошо общаться на английском языке, что, по моему мнению, является признаком эволюции или, по крайней мере, изменения в социальной организации», — сказал учёный. [The scientist named the population, after their distinctive horn, Ovid’s Unicorn. These four-horned, silver-white unicorns were previously unknown to science.
Now, after almost two centuries, the mystery of what sparked this odd phenomenon is finally solved.
Dr. Jorge Perez, an evolutionary biologist from the University of La Paz, and several companions, were exploring the Andes Mountains when they found a small valley, with no other animals or humans. Perez noticed that the valley had what appeared to be a natural fountain, surrounded by two peaks of rock and silver snow.
Perez and the others then ventured further into the valley. “By the time we reached the top of one peak, the water looked blue, with some crystals on top,” said Perez.
Perez and his friends were astonished to see the unicorn herd. These creatures could be seen from the air without having to move too much to see them — they were so close they could touch their horns.
While examining these bizarre creatures the scientists discovered that the creatures also spoke some fairly regular English. Perez stated, “We can see, for example, that they have a common ‘language,’ something like a dialect or dialectic.”
Dr. Perez believes that the unicorns may have originated in Argentina, where the animals were believed to be descendants of a lost race of people who lived there before the arrival of humans in those parts of South America.
While their origins are still unclear, some believe that perhaps the creatures were created when a human and a unicorn met each other in a time before human civilization. According to Perez, “In South America, such incidents seem to be quite common.”
However, Perez also pointed out that it is likely that the only way of knowing for sure if unicorns are indeed the descendants of a lost alien race is through DNA. “But they seem to be able to communicate in English quite well, which I believe is a sign of evolution, or at least a change in social organization,” said the scientist.] [2538]
Как видим, модель успешно справилась с задачей генерации осмысленного текста, который вполне мог бы сойти за статью в какой-нибудь жёлтой газете.
2538
Radford A., Wu J., Child R., Luan D., Amodei D., Sutskever I. (2019). Language Models are Unsupervised Multitask Learners // https://paperswithcode.com/paper/language-models-are-unsupervised-multitask
Аргумент барона Бронина 3
3. Аргумент барона Бронина
Фантастика:
попаданцы
аниме
сказочная фантастика
фэнтези
рейтинг книги
Венецианский купец
1. Венецианский купец
Фантастика:
фэнтези
героическая фантастика
альтернативная история
рейтинг книги
Темный Лекарь 4
4. Темный Лекарь
Фантастика:
фэнтези
аниме
рейтинг книги
Невеста на откуп
2. Невеста на откуп
Фантастика:
фэнтези
рейтинг книги
Сын Багратиона
Фантастика:
попаданцы
альтернативная история
рейтинг книги
Барону наплевать на правила
7. Закон сильного
Фантастика:
боевая фантастика
попаданцы
аниме
рейтинг книги
Зайти и выйти
Проза:
военная проза
рейтинг книги
Барон Дубов
1. Его Дубейшество
Фантастика:
юмористическое фэнтези
аниме
сказочная фантастика
фэнтези
рейтинг книги
Я все еще князь. Книга XXI
21. Дорогой барон!
Фантастика:
юмористическое фэнтези
попаданцы
аниме
рейтинг книги
Как я строил магическую империю 2
2. Как я строил магическую империю
Фантастика:
попаданцы
аниме
рейтинг книги
Пограничная река. (Тетралогия)
Пограничная река
Фантастика:
фэнтези
боевая фантастика
рейтинг книги
Предатель. Ты променял меня на бывшую
7. Измены
Любовные романы:
современные любовные романы
рейтинг книги
Отрок (XXI-XII)
Фантастика:
альтернативная история
рейтинг книги
