Охота на электроовец. Большая книга искусственного интеллекта, Марков Сергей Николаевич

Охота на электроовец. Большая книга искусственного интеллекта

на обложку

Марков Сергей Николаевич

Шрифт:

Кроме того, от внимания авторов исследования ускользнула работа 2019 г. российских исследователей — Григория Стерлинга (моего теперешнего коллеги) и Евы Казимировой — под названием «Сквозное распознавание эмоций по голосу с глубокими эмбеддингами фреймов и обработкой нейтральной речи» (End-to-End Emotion Recognition From Speech With Deep Frame Embeddings And Neutral Speech Handling), в которой заявлена более высокая точность распознавания для IEMOCAP (65,9%) (российские исследователи использовали спектральное представление звукового сигнала и сочетание свёрточной нейронной сети с LSTM) [2494] .

2494

Sterling G., Kazimirova E. (2019). End-to-end Emotion Recognition From Speech With Deep Frame Embeddings And Neutral Speech Handling / FICC 2019: Advances in Information and Communication, pp. 1123-1135 // https://doi.org/10.1007/978-3-030-12385-7_76

Разумеется, наличие такого рода вопросов вовсе не означает недобросовестности авторов исследования из Казахстана, особенно учитывая сумасшедшие темпы развития науки в этой области. Но, чтобы избежать возможных ошибок или неоднозначностей, многие исследователи в области глубокого обучения

предпочитают публиковать не только статьи, но и кодовую базу своих проектов. Крупнейшим каталогом таких публикаций является ресурс paperswithcode.com, позволяющий найти работы, устанавливающие SOTA для самых разных задач машинного обучения, в том числе и для задачи распознавания эмоций. Например, по запросу «Speech Emotion Recognition» можно найти сразу девять работ, в том числе работу [2495] , установившую в 2018 г. новый уровень SOTA для датасета IEMOCAP. В этой статье приводится несколько моделей, использующих различные модальности данных: только текст (автоматически распознанная речь), только аудио и текст + аудио. Точность модели, использующей только звук, составляет 54,6% против 64,3% в работе казахстанских исследователей. Но при этом в нашем распоряжении не только статья, но и репозиторий с кодом, из которого видно, что использованная авторами модель представляет собой LSTM-сеть, получающую на вход мел-кепстральные коэффициенты (а также их разности первого и второго порядка для соседних фреймов) для каждого из фреймов звукозаписи длиной 25 миллисекунд с шагом в 10 миллисекунд.

2495

Yoon S., Byun S., Jung K. (2018). Multimodal speech emotion recognition using audio and text // https://paperswithcode.com/paper/multimodal-speech-emotion-recognition-using

Интересно, что модель, основанная только на тексте, позволяет достичь точности 63,5%, а модель, использующая и текст и звук, достигает точности 71,8% (69,1% при использовании системы распознавания речи от Google для получения текстовых расшифровок). Тесты показывают, что точность людей на IEMOCAP составляет около 70% [2496] , а это означает, что в публичном доступе с 2018 г. есть модель, способная распознавать эмоции в человеческой речи на уровне самих людей (по крайней мере на таком наборе данных, как IEMOCAP).

2496

Chernykh V., Prikhodko P. (2018). Emotion Recognition From Speech With Recurrent Neural Networks // https://arxiv.org/abs/1701.08071

6.5.6 Настоящее и будущее эмоциональных вычислений

В наши дни модели для распознавания эмоций применяются в самых разных корпоративных информационных системах. В системах речевой аналитики, установленных в крупных колл-центрах (или сетях продаж), они используются для анализа речи как операторов, так и клиентов. Анализ речи операторов необходим для выявления ситуаций, когда оператор проявил грубость по отношению к клиенту. Понятно, что грубость может выражаться не только в текстовой составляющей общения, но и в тоне голоса. Без моделей распознавания эмоций отделы контроля качества просто не смогли бы обнаруживать многие из таких ситуаций: поскольку организация сплошного прослушивания разговоров операторов требует наличия огромного штата контролёров, то в реальности обычно прослушивается лишь ничтожная доля звонков. Но это не единственный способ применения эмоциональных вычислений в корпоративных колл-центрах. Можно, например, вычислить, как эмоциональная окраска речи клиентов меняется в процессе общения с оператором. Многие клиенты звонят в колл-центры в расстроенных чувствах, с жалобами на те или иные огрехи корпоративных сервисов. Если клиент в ходе разговора с оператором получает адекватную консультацию и поддержку, то эмоциональная окраска речи клиента приобретает более позитивную валентность. На основе анализа множества разговоров на предмет динамики валентности эмоций клиентов можно определить, какие из операторов лучше справляются со своими задачами, а какие хуже. Можно также выявить различные проблемные темы разговоров (нередко здесь в дуэте с эмоциональными вычислениями применяются технологии тематического моделирования, позволяющие сгруппировать все разговоры по темам), найти наиболее удачные и неудачные с эмоциональной точки зрения примеры диалогов, чтобы затем использовать их в обучении операторов, и, наконец, можно отслеживать общее распределение эмоций по всему колл-центру, чтобы выявлять массовые проблемы. Эмоциональные вычисления могут использоваться и в полностью автоматизированных диалоговых системах, причём как во время общения (робот-оператор определённым образом реагирует на те или иные эмоциональные нотки в речи абонента), так и для мониторинга и обучения таких систем. Например, в некоторой ситуации в скрипте робота может быть предусмотрено несколько вариантов ответа на реплику абонента, и робот может накапливать статистику эмоциональной реакции людей на каждый из этих вариантов, чтобы затем использовать реплики, приводящие к более благоприятным реакциям. В пределе эта идея даёт нам концепцию эмпатического бота, стремящегося в ходе общения научиться выбирать такие слова, которые максимизируют положительную реакцию собеседника. Компонентом подобной системы может быть и эмоционально окрашенный синтез речи. Такого бота можно рассматривать уже как модель, которая не только распознаёт эмоции (проявляет «пассивный» эмоциональный интеллект), но и пытается активно влиять на эмоциональную сферу человека.

Распознавание эмоций по выражению лица — ещё одно важное направление в эмоциональном ИИ. Здесь традиционно применяются свёрточные нейронные сети, которые справляются с этой задачей не хуже, чем с другими задачами распознавания образов. Такие модели применяются в системах видеонаблюдения, в пунктах массового обслуживания, во время проведения собеседований (анализ эмоциональных проявлений может использоваться для прогноза дальнейших успехов сотрудника), для анализа реакции аудитории во время массовых мероприятий и тому подобное.

Во второй половине 2010-х гг. модели машинного обучения, предназначенные для эмоциональных вычислений, заняли прочное место в наборе технологий, применяемых в бизнесе. Скорее всего, в ближайшие годы мы увидим их распространение также в различных государственных сервисах, в сфере образования и медицины, а может быть, им найдутся какие-либо неожиданные применения, о которых мы сегодня и не догадываемся.

6.6 Машина учится творить: генеративные модели

6.6.1 Критерии творчества

Поэты сорганизовали

несколько митингов протеста и потребовали опечатать машину, но никто, кроме них, не обращал внимания на феномен. Редакции газет были даже довольны, поскольку Электрувер, писавший под несколькими тысячами псевдонимов сразу, представлял готовую поэму заданных размеров на любой случай, и эта поэзия, хоть и на заказ, была такого качества, что читатели раскупали газеты нарасхват, а улицы так и пестрели лицами, полными неземного блаженства, мелькали бессознательные улыбки и слышались тихие всхлипывания. Стихи Электрувера знали все; воздух сотрясали хитроумнейшие рифмы, а наиболее впечатлительные натуры, потрясённые специально сконструированными метафорами или ассонансами, даже падали в обморок; но и к этому был подготовлен титан вдохновения: он сразу же вырабатывал соответствующее количество отрезвляющих сонетов.

Станислав Лем. Путешествие первое А, или Электрувер Трурля

Творчество — ещё одна священная корова человеческой исключительности. Стремясь уязвить робота, герой Уилла Смита в фильме «Я, робот» (2004) говорит: «У людей есть мечты. Даже у собак есть мечты, но не у тебя. Ты же просто машина, имитация жизни. Разве робот может написать симфонию? Разве робот может превратить… холст в шедевр?», на что получает резонный ответ: «А ты можешь?» В действительности ответ на вопрос, могут ли машины творить (и если да, то как давно они этому научились), очень сильно зависит от самого определения творчества. Если под творчеством мы понимаем создание новых изображений, текстов или музыки, то с этой задачей может справиться даже обыкновенный генератор псевдослучайных чисел. Чем случайная последовательность букв не текст, а случайная последовательность нот не мелодия? И то и другое вполне может соответствовать критерию новизны (особенно если взять последовательность подлиннее).

В XIII в. каталонский миссионер, поэт, философ и теолог Раймунд Луллий создал «логическую машину», которая состояла из нескольких подвижных концентрических кругов, разделённых на сектора («камеры»), в которых были обозначены общие понятия или основные категории всего сущего. Поскольку каждый из кругов мог вращаться независимо от остальных, в результате вращения можно было добиться появления различных комбинаций понятий, в которых Луллий искал различные новые смыслы. Изобретатель утверждал, что конструкция машины была открыта ему свыше, в видении, посетившем его на родном острове Майорка [2497] . Можно ли считать механизм Луллия машиной, способной творить?

2497

Gardner M. (1958). Logic Machines and Diagrams. McGraw-Hill // https://books.google.ru/books?id=oCu-yAEACAAJ

Вообще абсурдность постановки вопроса о новизне творения в его обывательской форме становится особенно очевидной при столкновении с такими забавными умственными экспериментами, как «Теорема о бесконечных обезьянах» (один из вариантов её формулировки таков: абстрактная обезьяна, ударяя случайным образом по клавишам пишущей машинки в течение неограниченно долгого времени, рано или поздно напечатает любой наперёд заданный текст) или «Вавилонская библиотека» Борхеса (описанная в одноимённом рассказе аргентинского писателя) [2498] . Эта библиотека состоит из множества шестигранных комнат, в каждой из которых расставлено по двадцать полок. На каждой полке стоят тридцать две книги, во всех книгах по четыреста десять страниц, каждая страница содержит сорок строк, в каждой из которых восемьдесят букв, принадлежащих алфавиту из двадцати пяти символов (в него входят двадцать две буквы, точка, запятая и пробел). Хотя подавляющее большинство книг абсолютно бессмысленно, они никогда не повторяются, ведь главный закон библиотеки: в библиотеке не бывает двух одинаковых книг. Борхес рассуждает о том, что в этой библиотеке можно найти любую книгу, например: подробнейшую историю будущего, верный каталог библиотеки, тысячи и тысячи фальшивых каталогов, доказательство фальшивости верного каталога, гностическое Евангелие Василида, комментарий к этому Евангелию, комментарий к комментарию этого Евангелия, правдивый рассказ о твоей собственной смерти, перевод каждой книги на все языки и так далее. Благодаря развитию компьютерных технологий в наши дни библиотека обзавелась бы собственным сайтом (позволяющим, в отличие от сайтов других библиотек, получить доступ к электронной версии абсолютно любой книги) [2499] , [2500] , [2501] . Вообще идея комбинаторной генерации в соединении с современной концепцией авторского права стала источником нескончаемых шуток, начиная от ссылок на наличие любого текста в открытом доступе на сайте «Вавилонской библиотеки», энциклопедии всех возможных чисел [2502] и заканчивая патентованием всех возможных мелодий из 8 нот и 12 долей [2503] .

2498

Борхес Х. Л. (1992). Вавилонская библиотека / Коллекция (Сборник рассказов). Перевод: В. Кулагина-Ярцева. СПб, «Северо-Запад», 1992 // http://www.lib.ru/BORHES/kniga.txt

2499

The Library of Babel. Digital Access to the Books of the Library. Full Text Search in the Books // https://dicelog.com/babel

2500

https://libraryofbabel.info

2501

Максимал из Сиджеко (2016). Библиотека Гагарина // https://gagarin.sijeko.ru

2502

Adult Swim UK (2018). Encyclopedia of Numbers | Tim and Eric Awesome Show, Great Job! | Adult Swim / YouTube, Jul 25, 2018 // https://www.youtube.com/watch?v=rVtHrgdcvZA

2503

Cole S. (2020). Musicians Algorithmically Generate Every Possible Melody, Release Them to Public Domain. / Vice, February 25, 2020 // https://www.vice.com/en/article/wxepzw/musicians-algorithmically-generate-every-possible-melody-release-them-to-public-domain