Охота на электроовец. Большая книга искусственного интеллекта, Марков Сергей Николаевич

Охота на электроовец. Большая книга искусственного интеллекта

на обложку

Марков Сергей Николаевич

Шрифт:

Подобный подход неплохо работает в относительно простых случаях, однако по мере усложнения предметной области и соответствующей ей структуры повествования система правил для её описания становится всё более сложной и запутанной. Как следствие — растут затраты на разработку диалоговой системы и снижается её надёжность.

Основная идея, лежащая в основе коннекционистского подхода к описанным проблемам, заключается в том, что текущий диалоговый контекст может быть описан при помощи некоторого вектора признаков, который может затем быть использован для подбора подходящей реплики бота. Представим себе модель, способную превращать фразы в векторы, обладающие таким свойством, что расстояния между векторами, соответствующими близким по значению фразам, будут малы, в то время как расстояния между двумя существенно разнящимися по значению фразами будут велики. В таком случае нам не нужно больше будет заботиться о различных способах формулирования вопроса. Достаточно будет лишь выбрать ответ из той вопросно-ответной пары, вектор признаков вопроса которой ближе всего к вектору вопроса, заданного пользователем. Для разрешения анафоры необходимо будет использовать модель, которая будет превращать в векторы не единичные реплики, а их последовательности.

Для решения проблемы с запоминанием фактов, сообщённых собеседником, могут использоваться нейросетевые архитектуры, дополненные

памятью (MANN), такие как «Нейронные машины Тьюринга» (Neural Turing machines, NTM) [2255] , «Дифференцируемые нейронные вычислители» (Differentiable neural computers, DNC) [2256] , «рекуррентный трансформер с памятью» (Recurrent Memory Transformer, RMT) [2257] , «дополненный памятью рекуррентный трансформер» (Memory-Augmented Recurrent Transformer, MART) [2258] , модификации трансформерных архитектур с «адаптивным диапазоном внимания» (Adaptive attention span) [2259] и «угасающим диапазоном» (Expire-span) [2260] и так далее. Такие модели оснащены адресуемой памятью и при этом способны научиться выбирать в обрабатываемых последовательностях информацию для запоминания, а также использовать информацию, находящуюся в памяти, для формирования ответов.

2255

Graves A., Wayne G., Danihelka I. (2014). Neural Turing Machines // https://arxiv.org/abs/1410.5401

2256

Graves A., Wayne G., Reynolds M., Harley T., Danihelka I., Grabska-Barwinska A., Colmenarejo S. G., Grefenstette E., Ramalho T., Agapiou J., Badia A. P., Hermann K. M., Zwols Y., Ostrovski G., Cain A., King H., Summerfield C., Blunsom P., Kavukcuoglu K., Hassabis D. (2016). Hybrid computing using a neural network with dynamic external memory / Nature, Vol. 538, pp. 471—476 (2016) // https://doi.org/10.1038/nature20101

2257

Bulatov A., Kuratov Y., Burtsev M. S. (2022). Recurrent Memory Transformer // https://arxiv.org/abs/2207.06881

2258

Lei J., Wang L, Shen Y., Yu D., Berg T. L., Bansal M. (2020). MART: Memory-Augmented Recurrent Transformer for Coherent Video Paragraph Captioning / Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics // https://aclanthology.org/2020.acl-main.233/

2259

Sukhbaatar S., Grave E., Bojanowski P., Joulin A. (2019). Adaptive Attention Span in Transformers // https://arxiv.org/abs/1905.07799

2260

Sukhbaatar S., Ju D., Poff S., Roller S., Szlam A., Weston J., Fan A. (2021). Not All Memories are Created Equal: Learning to Forget by Expiring // https://arxiv.org/abs/2105.06548

Использование нейронных сетей для кодирования текущего контекста позволяет сделать ещё один шаг вперёд и перейти к полностью генеративным моделям. Действительно, почему бы не перейти от заготовленного списка реплик к списку слов и вместо целой реплики не подбирать каждое её слово по отдельности? Ведь именно так действуют, например, языковые модели, обсуждавшиеся нами ранее. В нашем случае диалог — это просто текст, а очередная реплика в нём — просто гипотеза языковой модели относительно его возможного продолжения. Нельзя ли при помощи такого подхода покуситься на задачу ведения диалога для открытой предметной области?

К сожалению, при всей изящности нейросетевые модели в данном случае упираются в свои традиционные ограничения — потребность в больших объёмах данных и вычислительных ресурсах для обучения.

Ещё в 2016 г. Эндрю Ын в одном из интервью выразил скепсис в отношении «коммуникативных способностей» современных моделей глубокого обучения: «Большая часть пользы, которую приносит глубокое обучение, сегодня приходится на узкие области, в которых можно собрать много данных. Вот пример того, что оно не позволяет делать: вести содержательный диалог. Если специально отобрать [cherry-pick] некоторые демонстрационные разговоры, то может создаться впечатление осмысленного общения, однако, если вы попробуете вести беседу сами, она быстро пойдёт наперекосяк [quickly goes off the rails]» [2261] .

2261

Carey P. (2016). Baidu research chief Andrew Ng fixed on self-taught computers, self-driving cars / The Seattle Times, Originally published March 27, 2016, updated March 28, 2016 // https://www.seattletimes.com/business/baidu-research-chief-andrew-ng-fixed-on-self-taught-computers-self-driving-cars/

На самом деле проблема с обучающими выборками для диалоговых моделей несколько отличается от проблемы с обучающими выборками для систем машинного перевода. Если в случае машинного перевода основная проблема заключается в банальной нехватке данных, то в случае диалоговых систем данных как будто достаточно: диалоги пользователей социальных сетей, диалоги персонажей книг и фильмов — всё это теоретически годится для обучения генеративных моделей. Однако на деле оказывается, что использование этих данных сопряжено с определёнными трудностями. Наборы реплик из фильмов привязаны к происходящему на экране, наборы диалогов из книг по своей стилистике нередко отличаются от современной разговорной речи, а использование диалоговых данных из соцсетей без предварительной редактуры чревато множеством конфузов. В этом отношении показателен опыт бота Tay (от акронима Thinking About You — думаю о тебе), запущенного Microsoft на платформе Twitter 23 марта 2016 г. Через некоторое время после запуска бот начал публиковать провокационные и оскорбительные твиты, в результате чего Microsoft отключила бота уже через 16 часов после запуска. По словам специалистов компании, проблема была вызвана атакой троллей, поскольку бот учился вести диалог, используя реплики пользователей, общавшихся с ним [2262] . На смену Tay пришла ботесса по имени Zo, отличительной чертой которой является подчёркнутая политкорректность [2263] .

2262

Mason P. (2016). The racist hijacking of Microsoft’s chatbot shows how the internet teems with hate / The Guardian, 29 Mar 2016 // https://www.theguardian.com/world/2016/mar/29/microsoft-tay-tweets-antisemitic-racism

2263

Stuart-Ulin C. R. (2018). Microsoft's politically correct chatbot is even worse than its racist one / Quartz, July 31, 2018 // https://qz.com/1340990/microsofts-politically-correct-chat-bot-is-even-worse-than-its-racist-one/

Действительно,

корпоративные чат-боты по определению должны быть более воспитанными, чем среднестатистический пользователь «Твиттера»; кроме того, реплики бота должны быть непротиворечивыми, соответствовать сведениям о его персонаже. Но и такой осмысленности мало — вряд ли нас устроит, если бот будет постоянно менять суждения и вкусы, а такое множественное расстройство личности будет неизбежно, если обучать модель на репликах разных людей.

Всё это создаёт проблемы, решить которые не так уж просто. Однако непросто не значит невозможно, и подтверждением тому стало появление в 2020 г. сразу двух генеративных диалоговых моделей, выводящих качество диалоговых систем для открытой предметной области на совершенно новый уровень.

6.3.4.4 Перспективные диалоговые модели

Речь идёт о ботах Meena от Google [2264] , [2265] и BlenderBot от Facebook [2266] , [2267] . Они были созданы на границе десятилетий и во многом могут рассматриваться как прародители диалоговых систем, появившихся в последующие годы. В основе обеих моделей лежат архитектуры, построенные на многослойных трансформерах, причём в случае BlenderBot, как можно догадаться по его названию (blend означает «смешение»), используется ансамбль из генеративных моделей и моделей на основе поиска.

2264

Adiwardana D. (2020). Towards a Conversational Agent that Can Chat About…Anything / Google AI Blog, January 28, 2020 // https://ai.googleblog.com/2020/01/towards-conversational-agent-that-can.html

2265

Adiwardana D., Luong M.-T., So D. R., Hall J., Fiedel N., Thoppilan R., Yang Z., Kulshreshtha A., Nemade G., Lu Y., Le Q. V. (2020). Towards a Human-like Open-Domain Chatbot // https://arxiv.org/abs/2001.09977

2266

Roller S., Weston J., Dinan E. (2020). A state-of-the-art open source chatbot / Facebook Artificial Intelligence, April 29, 2020 // https://ai.facebook.com/blog/state-of-the-art-open-source-chatbot/

2267

Roller S., Dinan E., Goyal N., Ju D., Williamson M., Liu Y., Xu J., Ott M., Shuster K., Smith E. M., Boureau Y.-L., Weston J. (2020). Recipes for building an open-domain chatbot // https://arxiv.org/abs/2004.13637

Чтобы оценить вычислительные затраты на обучение этих моделей, достаточно взглянуть на число их параметров. В нейронных сетях Meena и BlenderBot соответственно 2,6 и 9,4 млрд синаптических весов, что делает их одними из самых больших на данный момент среди всех моделей глубокого обучения.

В качестве обучающей выборки для Meena были использованы диалоги, собранные в соцсетях, общим объёмом в 341 Гб (40 млрд слов) [2268] . Сопоставимый по объёму датасет (около 237 Гб — 145,6 млрд 13-битных токенов) на основе бесед на платформе Reddit был использован создателями BlenderBot [2269] .

2268

2269

Оценка качества ответов чат-ботов, предназначенных для открытой предметной области, на самом деле задача не совсем простая. Для начала нужно понять, какая цель стоит перед диалоговой моделью. Если мы говорим о модели, служащей частью виртуального ассистента, подобного Siri или «Алисе», то перед такой системой стоит сразу несколько задач.

Во-первых, виртуальный ассистент должен обладать набором полезных навыков, таких как способность сообщить информацию о погоде, выполнить поисковый запрос в интернете, произвести арифметические расчёты, включить музыку, рассчитать оптимальный маршрут на карте, сыграть с пользователем в какую-нибудь игру, забронировать столик в ресторане и так далее. Подобные навыки виртуального ассистента являются своеобразным аналогом приложений в вашем смартфоне, с той лишь разницей, что их интерфейс приспособлен к работе в диалоговом режиме. Нередко разработчики виртуальных ассистентов доверяют разработку некоторых навыков внешним подрядчикам, и за каждым из навыков может стоять отдельная диалоговая модель, предназначенная обычно для собственной ограниченной предметной области. Таким образом, предметные области навыков становятся подмножествами открытой предметной области ассистента. Последняя, однако, обычно не является механической комбинацией закрытых предметных областей его навыков.

Во-вторых, помимо наличия полезных навыков, современные виртуальные ассистенты обычно способны решать две другие важные задачи: отвечать на вопросы для открытой предметной области (Open Domain Question Answering, ODQA) и поддерживать разговор на произвольные темы, или, проще говоря, болтать (chitchat). ODQA обычно сводится к задаче соотнесения вопроса пользователя и некоторой словарной статьи (источником которой может быть, например, онлайн-словарь или энциклопедия) и традиционно решается при помощи моделей, основанных на поиске. Таким образом, в сухом остатке мы имеем одну бесспорную задачу виртуального ассистента, в которой может быть востребована генеративная диалоговая модель, и эта задача — болтовня. Самая легкомысленная, на первый взгляд, задача, с технологической точки зрения оказывается наиболее сложной. И именно для решения этой задачи предназначены такие «монстры», как Meena и BlenderBot.