Охота на электроовец. Большая книга искусственного интеллекта
Шрифт:
Несмотря на такое разнообразие данных, чтение сводной таблицы, приведённой в исследовании, оставляет противоречивые ощущения. Лишь восемь датасетов содержат в себе натуральную эмоциональную речь, остальные основаны на образцах речи, в которых люди лишь симулировали различную эмоциональную окраску речи. Если брать только натуральную речь, то самый большой (по количеству представленных в нём людей) датасет содержит записи 780 человек, однако всё это — записи голосов детей. Если же брать «взрослые» датасеты, то этот показатель сразу же сокращается до 58 человек для немецкого языка и 40 для английского. Даже если брать в расчёт наборы данных с симуляцией эмоциональной окраски речи, то максимальное число людей, речь которых положена в основу датасета, составляет лишь 125. Можно ли всерьёз рассчитывать, что такого небольшого объёма данных достаточно для обучения эффективной классифицирующей модели на основе нейронных сетей?
Впрочем, обзор, который можно встретить в книге «Обработка эмоций в человеко-компьютерных диалогах» (Handling Emotions in Human-Computer Dialogues) [2462] , увидевшей свет в 2009 г., рисует чуть более радужную картину. В него включено больше сотни датасетов (в том числе некоторые, пропущенные
2462
Pittermann J., Pittermann A., Minker W. (2009). Handling Emotions in Human-Computer Dialogues. Language Arts & Disciplines // https://books.google.ru/books?id=VUqEuXrk_hUC
Даже в 2010-е гг., несмотря на аппетит в отношении данных, испытываемый создателями глубоких нейросетевых моделей, ситуация радикально не поменялась. Ничего подобного ImageNet или LibriSpeech для эмоциональной речи в публичном доступе так и не появилось. Вот некоторые наиболее популярные на сегодняшний день у разработчиков публичные датасеты эмоциональной речи.
1. RAVDESS (Ryerson Audio-Visual Database of Emotional Speech and Song, Аудиовизуальная база данных эмоциональной речи и пения [Университета] Райерсона) [2463] .
2463
Livingstone S. R., Russo F. A. (2018). The Ryerson Audio-Visual Database of Emotional Speech and Song (RAVDESS): A dynamic, multimodal set of facial and vocal expressions in North American English / PLos One, May 16, 2018 // https://doi.org/10.1371/journal.pone.0196391
База данных состоит из записей 24 профессиональных актёров (12 мужчин и 12 женщин), озвучивающих две фразы (Kids are talking by the door [Дети разговаривают у двери], Dogs are sitting by the door [Собаки сидят у двери]) на английском языке с североамериканским акцентом в двух вариантах: речь и пение, по два раза каждый вариант. В качестве эмоционального словаря разметки использована «большая шестёрка» эмоций (раздражение, отвращение, страх, счастье, печаль и удивление), к которой было добавлено спокойствие [calm] (в подмножестве, основанном на пении, эмоции удивления и отвращения отсутствуют). Каждая фраза представлена в датасете с двумя уровнями эмоциональной интенсивности для каждой из эмоций и однократно с нейтральной окраской. Каждая запись присутствует в датасете в трёх модальностях (только видео, только звук, звук вместе с видео). Для каждой записи из итогового набора объёмом 7356 записей была десять раз произведена оценка эмоциональной валидности, интенсивности и натуральности, для чего было привлечено 247 оценщиков. Благодаря столь тщательной проверке RAVDESS считается одним из наиболее качественных датасетов эмоциональной речи.
Что же с ним не так?
Во-первых, лексически он крайне беден, в нём представлено всего восемь разных слов. Конечно, тот факт, что разные актёры читают и поют одни и те же фразы с разной эмоциональной окраской, делает текст лексически сбалансированным, но достаточно ли в нём разнообразия, чтобы модель, обученная на нём, хорошо справлялась с совершенно другими словами и фразами? Авторы датасета сообщают о 7356 записях, однако получается, что на одного актёра приходится 7356 : 24 = 306,5 записи. Сразу вспоминается детский стишок, в котором «и вышло у меня в ответе: два землекопа и две трети». Каждый актёр сделал 60 записей речи (2 фразы x 7 эмоций x 2 уровня интенсивности x 2 повторения + 2 нейтрально произнесённые фразы x 2 повторения) и 44 записи пения (2 фразы x 5 эмоций x 2 уровня интенсивности x 2 повторения + 2 нейтрально спетые фразы x 2 повторения). Таким образом, с учётом трёх модальностей общее число записей должно было бы быть 24 x (60 + 44) x 3 = = 7488. Но авторы датасета потеряли записи пения одной из женщин (132 файла) по техническим причинам, ввиду чего идеальный баланс в наборе данных был утрачен.
Во-вторых, вопрос вызывает тот факт, что авторы датасета сделали «спокойствие» отдельной эмоциональной меткой. Я не очень понимаю, чем две степени спокойствия отличаются от нейтральной окраски. Авторы объясняют это тем, что нейтральная окраска нередко воспринимается оценщиками как имеющая небольшую отрицательную валентность (видимо, имеется в виду некая затаённая грусть). «Спокойствие» должно быть своеобразной компенсацией этого эффекта, поскольку по замыслу должно обладать положительной валентностью. Но я боюсь, что подобного рода слабые эффекты трудно моделировать, тем более при столь скромных объёмах данных.
2. SAVEE (Surrey Audio-Visual Expressed Emotion, Аудиовизуально выраженные эмоции [Университета] Суррея) [2464] , [2465] , [2466] , [2467] .
Состоит из записей четырёх актёров мужского пола, говорящих на родном для них британском английском языке. В качестве эмоционального словаря снова выбрана «большая шестёрка», при этом фразы с нейтральной эмоциональной окраской записывались дважды. Сами фразы были выбраны из корпуса TIMIT, для каждой эмоции было взято 15 фраз, при этом из них три были общими для всех эмоций, десять — разными для разных эмоций, но без эмоциональной специфики, а ещё две фразы были основаны на текстах, имеющих специфическую эмоциональной окраску для данной эмоции (например, Who authorized the unlimited expense account? [Кто одобрил счёт с неограниченным расходным лимитом?] для эмоции «гнев»). 15 фраз на каждую эмоцию и 30 нейтрально окрашенных фраз составляют в сумме 15 x 6 + 15 x 2 = 120
2464
Surrey Audio-Visual Expressed Emotion (SAVEE) Database (2015) // http://kahlan.eps.surrey.ac.uk/savee/
2465
Haq S., Jackson P. J. B. (2010). Multimodal Emotion Recognition / Wang W. (2010). Machine Audition: Principles, Algorithms and Systems. IGI Global Press, pp. 398—423 // https://doi.org/10.4018/978-1-61520-919-4
2466
Haq S., Jackson P. J. B. (2009). Speaker-Dependent Audio-Visual Emotion Recognition // Proceedings of the International Conference on Auditory-Visual Speech Processing, pp. 53—58 // http://personal.ee.surrey.ac.uk/Personal/P.Jackson/pub/avsp09/HaqJackson_AVSP09.pdf
2467
Haq S., Jackson P. J. B., Edge J. D. (2008). Audio-Visual Feature Selection and Reduction for Emotion Classification // Proceedings of the International Conference on Auditory-Visual Speech Processing, pp. 185—190 // http://personal.ee.surrey.ac.uk/Personal/P.Jackson/pub/avsp08/HaqJacksonEdge_AVSP08.pdf
Тексты были также фонетически сбалансированы (по всей видимости, имели сходный друг с другом набор фонем, чтобы модель в процессе обучения вместо поиска эмоциональных особенностей произношения фразы не искала якобы специфичные для той или иной эмоции фонемы).
Хотя лексически SAVEE куда более разнообразен, чем RAVDESS, но, к сожалению, его объём крайне мал, что создаёт очевидные проблемы для разработчиков.
3. SEMAINE (Sustained Emotionally coloured Machine-human Interaction using Nonverbal Expression, Устойчивое эмоционально окрашенное взаимодействие машина — человек с использованием невербальной экспрессии), полное название: SEMAINE sensitive agent project database (база данных проекта чувствительного агента [консорциума] SEMAINE) [2468] , [2469] .
2468
McKeown G., Valstar M., Pantic M., Schroder M. (2012). The SEMAINE database: annotated multimodal records of emotionally coloured conversations between a person and a limited agent / IEEE Transactions on Affective Computing, Vol. 3, Iss. 1, pp. 5—17 // https://doi.org/10.1109/T-AFFC.2011.20
2469
The sensitive agent project database / SEMAINE Database // https://semaine-db.eu/
Эта аудиовизуальная база данных стала одним из продуктов исследовательской программы по созданию «Чувствующего искусственного слушателя» (Sensitive Artificial Listener, SAL) — аудиовизуальной диалоговой системы, способной вовлечь человека в длительный эмоционально окрашенный разговор. По сути, разговор с агентом SAL для человека напоминает обычный разговор при помощи системы видеосвязи с той лишь разницей, что собеседником является виртуальный персонаж, внешний облик которого (лицо, мимика, движения губ во время речи) в реальном времени генерируется при помощи библиотеки для трёхмерной визуализации.
Данные, содержащиеся в базе SEMAINE, были получены в результате взаимодействия между пользователями и человеком-оператором, имитирующим агента SAL, в двух различных конфигурациях: Solid SAL (в этом варианте оператор сам общается с пользователем, при этом демонстрируя при общении соответствующее невербальное поведение) и полуавтоматический SAL (здесь оператор управляет аватаром [2470] , с которым общается пользователь; таким образом, у пользователя создаётся впечатление, что он общается с машиной). Процесс общения фиксировался при помощи набора из синхронно работающего записывающего оборудования: пяти камер высокого разрешения с высокой частотой кадров и четырёх микрофонов. База включает в себя записи 959 диалогов, в которых участвовали 150 человек. Длина каждой записи около 5 минут. Все диалоги были расшифрованы и размечены (каждую запись размечали параллельно 6–8 разметчиков) при помощи эмоциональных меток (использовалась система с пятью шкалами и 27 эмоциональными классами). Другие сценарии помечены на том же шаблоне, но менее полно. Также для части записей присутствует разметка при помощи системы кодирования лицевых движений (Facial Action Coding System, FACS). Эта удивительная система была разработана Полом Экманом и Уоллесом Фризеном ещё в далёком 1978 году [2471] . При помощи FACS можно описать практически любое анатомически возможное выражение лица путём разделения его на отдельные двигательные элементы, представленные на различных временных отрезках. Используя FACS, можно с лёгкостью отличить, например, «дежурную улыбку Pan-Am» (называется так в честь авиакомпании Pan American World Airways, стюардессы которой должны были улыбаться каждому пассажиру) [2472] и искреннюю и спонтанную «улыбку Дюшена». Первая характеризуется сокращением одной только большой скуловой мышцы (Musculus zygomaticus major), в то время как вторая дополняется сокращением нижней части круговой мышцы глаза (Musculus orbicularis oculi). Руководство по FACS представляет собой более чем 500-страничное описание двигательных элементов и их возможных состояний.
2470
* Аватар — воплощение человека в виртуальном мире.
2471
Ekman P., Friesen W. (1978). Facial Action Coding System: A Technique for the Measurement of Facial Movement. Consulting Psychologists Press, Palo Alto, 1978 // https://books.google.ru/books?id=08l6wgEACAAJ
2472
Burton V. (2013). Happy Women Live Better. Harvest House Publishers // https://books.google.ru/books?id=FW6jDDjtH4cC