Охота на электроовец. Большая книга искусственного интеллекта
Шрифт:
Кроме того, от внимания авторов исследования ускользнула работа 2019 г. российских исследователей — Григория Стерлинга (моего теперешнего коллеги) и Евы Казимировой — под названием «Сквозное распознавание эмоций по голосу с глубокими эмбеддингами фреймов и обработкой нейтральной речи» (End-to-End Emotion Recognition From Speech With Deep Frame Embeddings And Neutral Speech Handling), в которой заявлена более высокая точность распознавания для IEMOCAP (65,9%) (российские исследователи использовали спектральное представление звукового сигнала и сочетание свёрточной нейронной сети с LSTM) [2494] .
2494
Sterling G., Kazimirova E. (2019). End-to-end Emotion Recognition From Speech With Deep Frame Embeddings And Neutral Speech Handling / FICC 2019: Advances in Information and Communication, pp. 1123-1135 // https://doi.org/10.1007/978-3-030-12385-7_76
Разумеется, наличие такого рода вопросов вовсе не означает недобросовестности авторов исследования из Казахстана, особенно учитывая сумасшедшие темпы развития науки в этой области. Но, чтобы избежать возможных ошибок или неоднозначностей, многие исследователи в области глубокого обучения
2495
Yoon S., Byun S., Jung K. (2018). Multimodal speech emotion recognition using audio and text // https://paperswithcode.com/paper/multimodal-speech-emotion-recognition-using
Интересно, что модель, основанная только на тексте, позволяет достичь точности 63,5%, а модель, использующая и текст и звук, достигает точности 71,8% (69,1% при использовании системы распознавания речи от Google для получения текстовых расшифровок). Тесты показывают, что точность людей на IEMOCAP составляет около 70% [2496] , а это означает, что в публичном доступе с 2018 г. есть модель, способная распознавать эмоции в человеческой речи на уровне самих людей (по крайней мере на таком наборе данных, как IEMOCAP).
2496
Chernykh V., Prikhodko P. (2018). Emotion Recognition From Speech With Recurrent Neural Networks // https://arxiv.org/abs/1701.08071
6.5.6 Настоящее и будущее эмоциональных вычислений
В наши дни модели для распознавания эмоций применяются в самых разных корпоративных информационных системах. В системах речевой аналитики, установленных в крупных колл-центрах (или сетях продаж), они используются для анализа речи как операторов, так и клиентов. Анализ речи операторов необходим для выявления ситуаций, когда оператор проявил грубость по отношению к клиенту. Понятно, что грубость может выражаться не только в текстовой составляющей общения, но и в тоне голоса. Без моделей распознавания эмоций отделы контроля качества просто не смогли бы обнаруживать многие из таких ситуаций: поскольку организация сплошного прослушивания разговоров операторов требует наличия огромного штата контролёров, то в реальности обычно прослушивается лишь ничтожная доля звонков. Но это не единственный способ применения эмоциональных вычислений в корпоративных колл-центрах. Можно, например, вычислить, как эмоциональная окраска речи клиентов меняется в процессе общения с оператором. Многие клиенты звонят в колл-центры в расстроенных чувствах, с жалобами на те или иные огрехи корпоративных сервисов. Если клиент в ходе разговора с оператором получает адекватную консультацию и поддержку, то эмоциональная окраска речи клиента приобретает более позитивную валентность. На основе анализа множества разговоров на предмет динамики валентности эмоций клиентов можно определить, какие из операторов лучше справляются со своими задачами, а какие хуже. Можно также выявить различные проблемные темы разговоров (нередко здесь в дуэте с эмоциональными вычислениями применяются технологии тематического моделирования, позволяющие сгруппировать все разговоры по темам), найти наиболее удачные и неудачные с эмоциональной точки зрения примеры диалогов, чтобы затем использовать их в обучении операторов, и, наконец, можно отслеживать общее распределение эмоций по всему колл-центру, чтобы выявлять массовые проблемы. Эмоциональные вычисления могут использоваться и в полностью автоматизированных диалоговых системах, причём как во время общения (робот-оператор определённым образом реагирует на те или иные эмоциональные нотки в речи абонента), так и для мониторинга и обучения таких систем. Например, в некоторой ситуации в скрипте робота может быть предусмотрено несколько вариантов ответа на реплику абонента, и робот может накапливать статистику эмоциональной реакции людей на каждый из этих вариантов, чтобы затем использовать реплики, приводящие к более благоприятным реакциям. В пределе эта идея даёт нам концепцию эмпатического бота, стремящегося в ходе общения научиться выбирать такие слова, которые максимизируют положительную реакцию собеседника. Компонентом подобной системы может быть и эмоционально окрашенный синтез речи. Такого бота можно рассматривать уже как модель, которая не только распознаёт эмоции (проявляет «пассивный» эмоциональный интеллект), но и пытается активно влиять на эмоциональную сферу человека.
Распознавание эмоций по выражению лица — ещё одно важное направление в эмоциональном ИИ. Здесь традиционно применяются свёрточные нейронные сети, которые справляются с этой задачей не хуже, чем с другими задачами распознавания образов. Такие модели применяются в системах видеонаблюдения, в пунктах массового обслуживания, во время проведения собеседований (анализ эмоциональных проявлений может использоваться для прогноза дальнейших успехов сотрудника), для анализа реакции аудитории во время массовых мероприятий и тому подобное.
Во второй половине 2010-х гг. модели машинного обучения, предназначенные для эмоциональных вычислений, заняли прочное место в наборе технологий, применяемых в бизнесе. Скорее всего, в ближайшие годы мы увидим их распространение также в различных государственных сервисах, в сфере образования и медицины, а может быть, им найдутся какие-либо неожиданные применения, о которых мы сегодня и не догадываемся.
6.6 Машина учится творить: генеративные модели
6.6.1 Критерии творчества
Поэты сорганизовали
Творчество — ещё одна священная корова человеческой исключительности. Стремясь уязвить робота, герой Уилла Смита в фильме «Я, робот» (2004) говорит: «У людей есть мечты. Даже у собак есть мечты, но не у тебя. Ты же просто машина, имитация жизни. Разве робот может написать симфонию? Разве робот может превратить… холст в шедевр?», на что получает резонный ответ: «А ты можешь?» В действительности ответ на вопрос, могут ли машины творить (и если да, то как давно они этому научились), очень сильно зависит от самого определения творчества. Если под творчеством мы понимаем создание новых изображений, текстов или музыки, то с этой задачей может справиться даже обыкновенный генератор псевдослучайных чисел. Чем случайная последовательность букв не текст, а случайная последовательность нот не мелодия? И то и другое вполне может соответствовать критерию новизны (особенно если взять последовательность подлиннее).
В XIII в. каталонский миссионер, поэт, философ и теолог Раймунд Луллий создал «логическую машину», которая состояла из нескольких подвижных концентрических кругов, разделённых на сектора («камеры»), в которых были обозначены общие понятия или основные категории всего сущего. Поскольку каждый из кругов мог вращаться независимо от остальных, в результате вращения можно было добиться появления различных комбинаций понятий, в которых Луллий искал различные новые смыслы. Изобретатель утверждал, что конструкция машины была открыта ему свыше, в видении, посетившем его на родном острове Майорка [2497] . Можно ли считать механизм Луллия машиной, способной творить?
2497
Gardner M. (1958). Logic Machines and Diagrams. McGraw-Hill // https://books.google.ru/books?id=oCu-yAEACAAJ
Вообще абсурдность постановки вопроса о новизне творения в его обывательской форме становится особенно очевидной при столкновении с такими забавными умственными экспериментами, как «Теорема о бесконечных обезьянах» (один из вариантов её формулировки таков: абстрактная обезьяна, ударяя случайным образом по клавишам пишущей машинки в течение неограниченно долгого времени, рано или поздно напечатает любой наперёд заданный текст) или «Вавилонская библиотека» Борхеса (описанная в одноимённом рассказе аргентинского писателя) [2498] . Эта библиотека состоит из множества шестигранных комнат, в каждой из которых расставлено по двадцать полок. На каждой полке стоят тридцать две книги, во всех книгах по четыреста десять страниц, каждая страница содержит сорок строк, в каждой из которых восемьдесят букв, принадлежащих алфавиту из двадцати пяти символов (в него входят двадцать две буквы, точка, запятая и пробел). Хотя подавляющее большинство книг абсолютно бессмысленно, они никогда не повторяются, ведь главный закон библиотеки: в библиотеке не бывает двух одинаковых книг. Борхес рассуждает о том, что в этой библиотеке можно найти любую книгу, например: подробнейшую историю будущего, верный каталог библиотеки, тысячи и тысячи фальшивых каталогов, доказательство фальшивости верного каталога, гностическое Евангелие Василида, комментарий к этому Евангелию, комментарий к комментарию этого Евангелия, правдивый рассказ о твоей собственной смерти, перевод каждой книги на все языки и так далее. Благодаря развитию компьютерных технологий в наши дни библиотека обзавелась бы собственным сайтом (позволяющим, в отличие от сайтов других библиотек, получить доступ к электронной версии абсолютно любой книги) [2499] , [2500] , [2501] . Вообще идея комбинаторной генерации в соединении с современной концепцией авторского права стала источником нескончаемых шуток, начиная от ссылок на наличие любого текста в открытом доступе на сайте «Вавилонской библиотеки», энциклопедии всех возможных чисел [2502] и заканчивая патентованием всех возможных мелодий из 8 нот и 12 долей [2503] .
2498
Борхес Х. Л. (1992). Вавилонская библиотека / Коллекция (Сборник рассказов). Перевод: В. Кулагина-Ярцева. СПб, «Северо-Запад», 1992 // http://www.lib.ru/BORHES/kniga.txt
2499
The Library of Babel. Digital Access to the Books of the Library. Full Text Search in the Books // https://dicelog.com/babel
2500
https://libraryofbabel.info
2501
Максимал из Сиджеко (2016). Библиотека Гагарина // https://gagarin.sijeko.ru
2502
Adult Swim UK (2018). Encyclopedia of Numbers | Tim and Eric Awesome Show, Great Job! | Adult Swim / YouTube, Jul 25, 2018 // https://www.youtube.com/watch?v=rVtHrgdcvZA
2503
Cole S. (2020). Musicians Algorithmically Generate Every Possible Melody, Release Them to Public Domain. / Vice, February 25, 2020 // https://www.vice.com/en/article/wxepzw/musicians-algorithmically-generate-every-possible-melody-release-them-to-public-domain