Охота на электроовец. Большая книга искусственного интеллекта, Марков Сергей Николаевич

Охота на электроовец. Большая книга искусственного интеллекта

на обложку

Марков Сергей Николаевич

Шрифт:

Для того чтобы решить проблему с обработкой длинных последовательностей, исследователи из Google изобрели альтернативный способ кодирования позиции, который получил название «относительных позиционных эмбеддингов» (Relative Position Embeddings, RPE). Вместо того чтобы опираться на абсолютную позицию токенов, они используют расстояние между токенами (при этом если оно превышает максимальное значение, то считается равным ему) и выучивают векторы эмбеддингов, соответствующие этой относительной позиции. Эти векторы затем используются при расчёте матрицы внимания «на лету», поскольку каждой из её ячеек соответствуют конкретные позиции токенов входной последовательности. Способы учёта относительной позиционной информации при расчёте матрицы внимания могут различаться в зависимости от конкретной реализации. В первой работе, посвящённой позиционному кодированию, векторы эмбеддингов относительной позиции складываются с матрицей ключей (K) и с матрицей значений (V) [2167] . Позже было показано, что можно ограничиться лишь сложением с матрицей ключей (K) [2168] .

2167

Shaw P., Uszkoreit J., Vaswani A. (2018). Self-Attention with Relative Position Representations // https://arxiv.org/abs/1803.02155

2168

Huang C.-Z. A., Vaswani A., Uszkoreit J., Shazeer N., Simon I., Hawthorne C., Dai A. M., Hoffman M. D., Dinculescu M., Eck D. (2018). Music Transformer // https://arxiv.org/abs/1809.04281

современных трансформерных моделях обычно используются и более изощрённые способы позиционного кодирования — такие, например, как ротационные позиционные эмбеддинги (Rotational Position Embeddings, RoPE) [2169] , экстраполируемые позиционные эмбеддинги (Extrapolatable Position Embeddings, xPos) [2170] или внимание с линейными смещениями (Attention with Linear Biases, ALiBi) [2171] . Более того, некоторые исследования показывают, что трансформерные модели могут иногда работать и вовсе без позиционного кодирования [2172] .

2169

Su J., Lu Y., Pan S., Murtadha A., Wen B., Liu Y. (2021). RoFormer: Enhanced Transformer with Rotary Position Embedding // https://arxiv.org/abs/2104.09864

2170

Sun Y., Dong L., Patra B., Ma S., Huang S., Benhaim A., Chaudhary V., Song X., Wei F. (2022). A Length-Extrapolatable Transformer // https://arxiv.org/abs/2212.10554

2171

Press O., Smith N. A., Lewis M. (2021). Train Short, Test Long: Attention with Linear Biases Enables Input Length Extrapolation // https://arxiv.org/abs/2108.12409

2172

Kazemnejad A., Padhi I., Ramamurthy K. N., Das P., Reddy S. (2023). The Impact of Positional Encoding on Length Generalization in Transformers // https://arxiv.org/abs/2305.19466

Благодаря пригодности к эффективной параллелизации многослойные трансформеры быстро стали лидерами в самых разных задачах, причём не только в области обработки естественного языка, но и в других, связанных с обработкой последовательностей, вне зависимости от их природы. Музыка, записанная в виде последовательности нот, человеческая речь, представленная в виде последовательностей амплитуд звуковых волн, программный код, химические формулы, изображения, представленные в виде последовательностей пикселей, и даже последовательности действий в компьютерной игре — всё это может обрабатываться при помощи трансформеров.

Последующее переосмысление изначальной архитектуры привело к появлению трёх важных классов трансформерных сетей: сетей, основанных только на кодирующих блоках трансформера (энкодерные архитектуры), сетей, основанных только на декодирующих блоках (декодерные архитектуры), и архитектуры типа «кодировщик — декодер», использующие, подобно оригинальному трансформеру, оба типа блоков.

Энкодерные архитектуры чаще всего применяются в задачах, связанных с классификацией и поиском последовательностей. К их числу относятся, например, уже упоминавшаяся нами модель BERT и её наследники — ALBERT [2173] , RoBERTa [2174] и так далее.

2173

Lan Z., Chen M., Goodman S., Gimpel K., Sharma P., Soricut R. (2019). ALBERT: A Lite BERT for Self-supervised Learning of Language Representations // https://arxiv.org/abs/1909.11942

2174

Liu Y., Ott M., Goyal N., Du J., Joshi M., Chen D., Levy O., Lewis M., Zettlemoyer L., Stoyanov V. (2019). RoBERTa: A Robustly Optimized BERT Pretraining Approach // https://arxiv.org/abs/1907.11692

Сама идея кодирования блока текста в вектор фиксированного размера, который можно использовать в задачах классификации или оценки семантической близости, значительно старше трансформеров — мы уже говорили об этом ранее. Благодаря комбинации векторных вложений с LSTM-сетями были созданы такие модели, как CoVe [2175] , ELMo [2176] , ULMFiT [2177] , позволившие заметно улучшить результаты методов, использовавших простые способы комбинации векторов отдельных слов (уже упоминавшийся нами dov2vec). Но с появлением BERT и других трансформерных кодировщиков подход с векторизацией текстов при помощи нейронных сетей приобрёл действительно широкую популярность.

2175

McCann B., Bradbury J., Xiong C., Socher R. (2017). Learned in Translation: Contextualized Word Vectors // https://arxiv.org/abs/1708.00107

2176

Peters M. E., Neumann M., Iyyer M., Gardner M., Clark C., Lee K., Zettlemoyer L. (2018). Deep contextualized word representations // https://arxiv.org/abs/1802.05365

2177

Howard J., Ruder S. (2018). Universal Language Model Fine-tuning for Text Classification // https://arxiv.org/abs/1801.06146

Декодерные архитектуры более популярны в задачах генерации. Именно к этому классу относятся генеративные монстры GPT [2178] , GPT-2 [2179] , GPT-3 [2180] и так далее от OpenAI, о которых мы поговорим несколько позже.

Сети типа «кодировщик — декодер» (T5 [2181] и др.) могут использоваться в самых разных задачах, и, хотя обычно они более затратны

с вычислительной точки зрения, именно при их помощи удалось получить рекордные результаты во многих задачах, связанных с обработкой естественного языка.

2178

Radford A., Narasimhan K., Salimans T., Sutskever I. (2018). Improving Language Understanding by Generative Pre-Training // https://paperswithcode.com/paper/improving-language-understanding-by

2179

Radford A., Wu J., Child R., Luan D., Amodei D., Sutskever I. (2019). Language Models are Unsupervised Multitask Learners // https://paperswithcode.com/paper/language-models-are-unsupervised-multitask

2180

Brown T. B., Mann B., Ryder N., Subbiah M., Kaplan J., Dhariwal P., Neelakantan A., Shyam P., Sastry G., Askell A., Agarwal S., Herbert-Voss A., Krueger G., Henighan T., Child R., Ramesh A., Ziegler D. M., Wu J., Winter C., Hesse C., Chen M., Sigler E., Litwin M., Gray S., Chess B., Clark J., Berner C., McCandlish S., Radford A., Sutskever I., Amodei D. (2020). Language Models are Few-Shot Learners // https://arxiv.org/abs/2005.14165

2181

Raffel C., Shazeer N., Roberts A., Lee K., Narang S., Matena M., Zhou Y., Li W., Liu P. J. (2019). Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer // https://arxiv.org/abs/1910.10683

Модели на основе трансформеров задали новую планку в качестве машинного перевода, сентимент-анализа (анализ тональности высказываний), языковом моделировании, диалоговых системах. Уровень «понимания» естественного языка, демонстрируемый этими моделями, существенно превосходит «способности» моделей предыдущего поколения.

Для оценки способности модели понимать естественный язык можно использовать тесты на понимание прочитанного. В английском языке для этого предназначен раздел «Чтение» (Reading) теста SAT (Scholastic Assessment Test/Scholastic Aptitude Test, Академический оценочный тест, стандартизованный тест, применяемый для оценки способностей абитуриентов при приёме в высшие учебные заведения в США, аналог российского ЕГЭ). На данном тесте основан крупнейший общедоступный ресурс для сравнения моделей — набор данных RACE (Large-scale ReAding Comprehension Dataset From Examinations, Крупномасштабный набор данных с экзаменов для понимания прочитанного), созданный в 2017 г. и содержащий около 28 000 отрывков и около 100 000 вопросов, сформулированных преподавателями английского языка. При случайном выборе ответов точность составляет 25%, а точность, показанная людьми (пользователями платформы Amazon Mechanical Turk) после отбрасывания вопросов с неоднозначным ответом и вопросов без правильного ответа, — около 95% [2182] .

2182

Guokun Lai, Qizhe Xie, Hanxiao Liu, Yiming Yang, Eduard Hovy, RACE: Large-scale ReAding Comprehension Dataset From Examinations // https://www.aclweb.org/anthology/D17-1082.pdf

Успехи систем в области обработки естественного языка на данном наборе хорошо отражают достижения последних лет. Модель предыдущего поколения Gated-Attention Reader показала на данном наборе точность в 46%, модель BERT — 72%, усовершенствованные версии модели BERT — XLNet и RoBERTa — улучшили точность до 82–83%, а самая новая версия модели BERT — ALBERT-xxlarge — смогла показать на данном наборе рекордную точность в 89,4% [2183] .

2183

Soricut R., Lan Z. (2019). ALBERT: A Lite BERT for Self-Supervised Learning of Language Representations / Google AI Blog, Friday, December 20, 2019 // https://ai.googleblog.com/2019/12/albert-lite-bert-for-self-supervised.html

6.3.3.6 Тесты на понимание естественного языка

Прогресс в решении задач, связанных с пониманием естественного языка, нуждался в появлении стандартизированных тестов для численной оценки этого прогресса. Конечно, для этого можно было бы использовать процедуру, подобную тесту Тьюринга, но на практике такие способы оценки не всегда удобны. Они требуют привлечения людей, значительного времени, а также существенных усилий для обеспечения единообразных условий и статистической значимости тестов. Для того чтобы сделать процедуру оценки быстрой, недорогой и максимально стандартизованной, необходимо устранить из неё проблемный элемент, а именно — человека. Примерно этими же соображениями руководствовались создатели тестов SAT или ЕГЭ, и применение последних показывает, что, решая некоторые проблемы, они создают ряд новых: например возможность утечки условий теста или невозможность использования творческих заданий со свободными развёрнутыми (открытыми) ответами. Разработчики систем ИИ, разумеется, видят недостатки подобных методов, но им важно иметь в распоряжении инструменты для быстрой оценки возможностей новых моделей.

В конце 2018 г. на роль такого инструмента был предложен набор тестов под названием GLUE (General Language Understanding Evaluation, Оценка общего понимания языка) [2184] , на смену которому год спустя пришёл его усложнённый вариант — SuperGLUE [2185] .

Фактически SuperGLUE объединяет восемь наборов тестов, каждый из которых включает множество однотипных задач.

1. BoolQ (Boolean Questions, Булевские вопросы) [2186] — каждая задача в этом наборе состоит из короткого фрагмента текста (позаимствованного из «Википедии») и вопроса, подразумевающего один из двух ответов: «да» или «нет». При этом текст содержит информацию, необходимую для того, чтобы дать ответ на поставленный вопрос.

2184

Wang A., Singh A., Michael J., Hill F., Levy O., Bowman S. R. (2018). GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding // https://openreview.net/forum?id=rJ4km2R5t7

2185

Wang A., Pruksachatkun Y., Nangia N., Singh A., Michael J., Hill F., Levy O., Bowman S. R. (2019). SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems // https://arxiv.org/abs/1905.00537

2186

Clark C., Lee K., Chang M.-W., Kwiatkowski T., Collins M., Toutanova K. (2019). BoolQ: Exploring the Surprising Difficulty of Natural Yes/No Questions // https://arxiv.org/abs/1905.10044