Охота на электроовец. Большая книга искусственного интеллекта
Шрифт:
Подобный подход неплохо работает в относительно простых случаях, однако по мере усложнения предметной области и соответствующей ей структуры повествования система правил для её описания становится всё более сложной и запутанной. Как следствие — растут затраты на разработку диалоговой системы и снижается её надёжность.
Основная идея, лежащая в основе коннекционистского подхода к описанным проблемам, заключается в том, что текущий диалоговый контекст может быть описан при помощи некоторого вектора признаков, который может затем быть использован для подбора подходящей реплики бота. Представим себе модель, способную превращать фразы в векторы, обладающие таким свойством, что расстояния между векторами, соответствующими близким по значению фразам, будут малы, в то время как расстояния между двумя существенно разнящимися по значению фразами будут велики. В таком случае нам не нужно больше будет заботиться о различных способах формулирования вопроса. Достаточно будет лишь выбрать ответ из той вопросно-ответной пары, вектор признаков вопроса которой ближе всего к вектору вопроса, заданного пользователем. Для разрешения анафоры необходимо будет использовать модель, которая будет превращать в векторы не единичные реплики, а их последовательности.
Для решения проблемы с запоминанием фактов, сообщённых собеседником, могут использоваться нейросетевые архитектуры, дополненные
2255
Graves A., Wayne G., Danihelka I. (2014). Neural Turing Machines // https://arxiv.org/abs/1410.5401
2256
Graves A., Wayne G., Reynolds M., Harley T., Danihelka I., Grabska-Barwinska A., Colmenarejo S. G., Grefenstette E., Ramalho T., Agapiou J., Badia A. P., Hermann K. M., Zwols Y., Ostrovski G., Cain A., King H., Summerfield C., Blunsom P., Kavukcuoglu K., Hassabis D. (2016). Hybrid computing using a neural network with dynamic external memory / Nature, Vol. 538, pp. 471—476 (2016) // https://doi.org/10.1038/nature20101
2257
Bulatov A., Kuratov Y., Burtsev M. S. (2022). Recurrent Memory Transformer // https://arxiv.org/abs/2207.06881
2258
Lei J., Wang L, Shen Y., Yu D., Berg T. L., Bansal M. (2020). MART: Memory-Augmented Recurrent Transformer for Coherent Video Paragraph Captioning / Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics // https://aclanthology.org/2020.acl-main.233/
2259
Sukhbaatar S., Grave E., Bojanowski P., Joulin A. (2019). Adaptive Attention Span in Transformers // https://arxiv.org/abs/1905.07799
2260
Sukhbaatar S., Ju D., Poff S., Roller S., Szlam A., Weston J., Fan A. (2021). Not All Memories are Created Equal: Learning to Forget by Expiring // https://arxiv.org/abs/2105.06548
Использование нейронных сетей для кодирования текущего контекста позволяет сделать ещё один шаг вперёд и перейти к полностью генеративным моделям. Действительно, почему бы не перейти от заготовленного списка реплик к списку слов и вместо целой реплики не подбирать каждое её слово по отдельности? Ведь именно так действуют, например, языковые модели, обсуждавшиеся нами ранее. В нашем случае диалог — это просто текст, а очередная реплика в нём — просто гипотеза языковой модели относительно его возможного продолжения. Нельзя ли при помощи такого подхода покуситься на задачу ведения диалога для открытой предметной области?
К сожалению, при всей изящности нейросетевые модели в данном случае упираются в свои традиционные ограничения — потребность в больших объёмах данных и вычислительных ресурсах для обучения.
Ещё в 2016 г. Эндрю Ын в одном из интервью выразил скепсис в отношении «коммуникативных способностей» современных моделей глубокого обучения: «Большая часть пользы, которую приносит глубокое обучение, сегодня приходится на узкие области, в которых можно собрать много данных. Вот пример того, что оно не позволяет делать: вести содержательный диалог. Если специально отобрать [cherry-pick] некоторые демонстрационные разговоры, то может создаться впечатление осмысленного общения, однако, если вы попробуете вести беседу сами, она быстро пойдёт наперекосяк [quickly goes off the rails]» [2261] .
2261
Carey P. (2016). Baidu research chief Andrew Ng fixed on self-taught computers, self-driving cars / The Seattle Times, Originally published March 27, 2016, updated March 28, 2016 // https://www.seattletimes.com/business/baidu-research-chief-andrew-ng-fixed-on-self-taught-computers-self-driving-cars/
На самом деле проблема с обучающими выборками для диалоговых моделей несколько отличается от проблемы с обучающими выборками для систем машинного перевода. Если в случае машинного перевода основная проблема заключается в банальной нехватке данных, то в случае диалоговых систем данных как будто достаточно: диалоги пользователей социальных сетей, диалоги персонажей книг и фильмов — всё это теоретически годится для обучения генеративных моделей. Однако на деле оказывается, что использование этих данных сопряжено с определёнными трудностями. Наборы реплик из фильмов привязаны к происходящему на экране, наборы диалогов из книг по своей стилистике нередко отличаются от современной разговорной речи, а использование диалоговых данных из соцсетей без предварительной редактуры чревато множеством конфузов. В этом отношении показателен опыт бота Tay (от акронима Thinking About You — думаю о тебе), запущенного Microsoft на платформе Twitter 23 марта 2016 г. Через некоторое время после запуска бот начал публиковать провокационные и оскорбительные твиты, в результате чего Microsoft отключила бота уже через 16 часов после запуска. По словам специалистов компании, проблема была вызвана атакой троллей, поскольку бот учился вести диалог, используя реплики пользователей, общавшихся с ним [2262] . На смену Tay пришла ботесса по имени Zo, отличительной чертой которой является подчёркнутая политкорректность [2263] .
2262
Mason P. (2016). The racist hijacking of Microsoft’s chatbot shows how the internet teems with hate / The Guardian, 29 Mar 2016 // https://www.theguardian.com/world/2016/mar/29/microsoft-tay-tweets-antisemitic-racism
2263
Stuart-Ulin C. R. (2018). Microsoft's politically correct chatbot is even worse than its racist one / Quartz, July 31, 2018 // https://qz.com/1340990/microsofts-politically-correct-chat-bot-is-even-worse-than-its-racist-one/
Действительно,
Всё это создаёт проблемы, решить которые не так уж просто. Однако непросто не значит невозможно, и подтверждением тому стало появление в 2020 г. сразу двух генеративных диалоговых моделей, выводящих качество диалоговых систем для открытой предметной области на совершенно новый уровень.
6.3.4.4 Перспективные диалоговые модели
Речь идёт о ботах Meena от Google [2264] , [2265] и BlenderBot от Facebook [2266] , [2267] . Они были созданы на границе десятилетий и во многом могут рассматриваться как прародители диалоговых систем, появившихся в последующие годы. В основе обеих моделей лежат архитектуры, построенные на многослойных трансформерах, причём в случае BlenderBot, как можно догадаться по его названию (blend означает «смешение»), используется ансамбль из генеративных моделей и моделей на основе поиска.
2264
Adiwardana D. (2020). Towards a Conversational Agent that Can Chat About…Anything / Google AI Blog, January 28, 2020 // https://ai.googleblog.com/2020/01/towards-conversational-agent-that-can.html
2265
Adiwardana D., Luong M.-T., So D. R., Hall J., Fiedel N., Thoppilan R., Yang Z., Kulshreshtha A., Nemade G., Lu Y., Le Q. V. (2020). Towards a Human-like Open-Domain Chatbot // https://arxiv.org/abs/2001.09977
2266
Roller S., Weston J., Dinan E. (2020). A state-of-the-art open source chatbot / Facebook Artificial Intelligence, April 29, 2020 // https://ai.facebook.com/blog/state-of-the-art-open-source-chatbot/
2267
Roller S., Dinan E., Goyal N., Ju D., Williamson M., Liu Y., Xu J., Ott M., Shuster K., Smith E. M., Boureau Y.-L., Weston J. (2020). Recipes for building an open-domain chatbot // https://arxiv.org/abs/2004.13637
Чтобы оценить вычислительные затраты на обучение этих моделей, достаточно взглянуть на число их параметров. В нейронных сетях Meena и BlenderBot соответственно 2,6 и 9,4 млрд синаптических весов, что делает их одними из самых больших на данный момент среди всех моделей глубокого обучения.
В качестве обучающей выборки для Meena были использованы диалоги, собранные в соцсетях, общим объёмом в 341 Гб (40 млрд слов) [2268] . Сопоставимый по объёму датасет (около 237 Гб — 145,6 млрд 13-битных токенов) на основе бесед на платформе Reddit был использован создателями BlenderBot [2269] .
2268
Adiwardana D., Luong M.-T., So D. R., Hall J., Fiedel N., Thoppilan R., Yang Z., Kulshreshtha A., Nemade G., Lu Y., Le Q. V. (2020). Towards a Human-like Open-Domain Chatbot // https://arxiv.org/abs/2001.09977
2269
Roller S., Dinan E., Goyal N., Ju D., Williamson M., Liu Y., Xu J., Ott M., Shuster K., Smith E. M., Boureau Y.-L., Weston J. (2020). Recipes for building an open-domain chatbot // https://arxiv.org/abs/2004.13637
Оценка качества ответов чат-ботов, предназначенных для открытой предметной области, на самом деле задача не совсем простая. Для начала нужно понять, какая цель стоит перед диалоговой моделью. Если мы говорим о модели, служащей частью виртуального ассистента, подобного Siri или «Алисе», то перед такой системой стоит сразу несколько задач.
Во-первых, виртуальный ассистент должен обладать набором полезных навыков, таких как способность сообщить информацию о погоде, выполнить поисковый запрос в интернете, произвести арифметические расчёты, включить музыку, рассчитать оптимальный маршрут на карте, сыграть с пользователем в какую-нибудь игру, забронировать столик в ресторане и так далее. Подобные навыки виртуального ассистента являются своеобразным аналогом приложений в вашем смартфоне, с той лишь разницей, что их интерфейс приспособлен к работе в диалоговом режиме. Нередко разработчики виртуальных ассистентов доверяют разработку некоторых навыков внешним подрядчикам, и за каждым из навыков может стоять отдельная диалоговая модель, предназначенная обычно для собственной ограниченной предметной области. Таким образом, предметные области навыков становятся подмножествами открытой предметной области ассистента. Последняя, однако, обычно не является механической комбинацией закрытых предметных областей его навыков.
Во-вторых, помимо наличия полезных навыков, современные виртуальные ассистенты обычно способны решать две другие важные задачи: отвечать на вопросы для открытой предметной области (Open Domain Question Answering, ODQA) и поддерживать разговор на произвольные темы, или, проще говоря, болтать (chitchat). ODQA обычно сводится к задаче соотнесения вопроса пользователя и некоторой словарной статьи (источником которой может быть, например, онлайн-словарь или энциклопедия) и традиционно решается при помощи моделей, основанных на поиске. Таким образом, в сухом остатке мы имеем одну бесспорную задачу виртуального ассистента, в которой может быть востребована генеративная диалоговая модель, и эта задача — болтовня. Самая легкомысленная, на первый взгляд, задача, с технологической точки зрения оказывается наиболее сложной. И именно для решения этой задачи предназначены такие «монстры», как Meena и BlenderBot.
Выйду замуж за спасателя
1. Спасатели
Любовные романы:
современные любовные романы
рейтинг книги
Эволюционер из трущоб. Том 5
5. Эволюционер из трущоб
Фантастика:
попаданцы
аниме
фэнтези
фантастика: прочее
рейтинг книги
Сумеречный стрелок 6
6. Сумеречный стрелок
Фантастика:
городское фэнтези
попаданцы
аниме
рейтинг книги
Кодекс Крови. Книга VI
6. РОС: Кодекс Крови
Фантастика:
фэнтези
попаданцы
аниме
рейтинг книги
Бастард Императора
1. Бастард Императора
Фантастика:
фэнтези
аниме
рейтинг книги
Архонт
5. Стеллар
Фантастика:
боевая фантастика
рпг
рейтинг книги
Собрание сочинений В. К. Арсеньева в одной книге
5. Абсолют
Приключения:
исторические приключения
рейтинг книги
Хранители миров
Фантастика:
юмористическая фантастика
рейтинг книги

i f36931a51be2993b
Старинная литература:
прочая старинная литература
рейтинг книги
