Охота на электроовец. Большая книга искусственного интеллекта
Шрифт:
144 характеристики эмоции были разделены на шесть разных по размеру групп: 31 характеристика была отнесена к оценке эмоции («доставляет ли дискомфорт испытывающему её человеку», «[испытывается] ли в момент опасности» и т. п.), 18 — к телесным ощущениям («мышцы расслаблены», «дыхание замедленно» и т. п.), 9 — к выражению лица («глаза широко открыты», «присутствует улыбка» и т. п.), 12 — к голосу («речь замедленна», «голос дрожит» и т. п.), 5 — к жестам («движения тела становятся резкими», «перемещается по направлению к кому-либо или чему-либо» и т. п.), 40 — к склонности к тем или иным действиям («хочет исчезнуть или скрыться от других», «хочет петь и танцевать» и т. п.), 22 — к субъективно испытываемым переживаниям («ощущает слабость», «ощущает нервозность» и т. п.) и 4 — к управлению эмоциями («демонстрирует эмоцию другим в большей мере, чем испытывает её», «скрывает эмоцию от других при помощи улыбки» и т. п.). Три «прочие» характеристики эмоции (не входящие ни в одну из вышеупомянутых категорий) — это тенденция к изменению в долгосрочной перспективе, социальное одобрение и частота возникновения в рамках культурной группы.
Список характеристик был построен на базе анализа более ранних работ в этой области,
В ходе исследования каждого участника просили оценить четыре случайно выбранные эмоции (из 24 возможных в данной модели) с точки зрения 144 возможных характеристик на основе 9-балльной шкалы (от «маловероятно» до «очень вероятно»). Участники оценивали вероятность того, что каждая из 144 характеристик будет наблюдаться, когда человек из той же культурной группы использует соответствующее название эмоции для описания эмоционального опыта.
В исследовании участвовали студенты из Бельгии, Великобритании и Швейцарии (всего 531 человек), при этом каждый участник заполнял анкету на родном языке.
Собранные данные учёные проанализировали при помощи метода главных компонент и пришли к выводу, что наилучшим решением является выделение четырёх компонент, объясняющих в сумме около 75,4% дисперсии оценок. Выделенные компоненты получили названия: «оценка/приятность» [evaluation-pleasantness] (на её долю приходится 35,3% объяснённой дисперсии), «потенция/контроль» [potency-control] (22,8%), «активация/возбуждение» [activation-arousal] (11,4%) и «непредсказуемость» [unpredictability] (6,0%). При этом не было обнаружено никаких существенных различий для трёх групп испытуемых (бельгийцев, швейцарцев и англичан).
Первое измерение можно интерпретировать как оценку приятности эмоции, по этой шкале приятные эмоции (удовольствие, радость) противостоят неприятным (ненависть, гнев). По сути, это не что иное, как описанная ранее валентность эмоции.
Второе измерение можно рассматривать как оценку уровня контроля со стороны субъекта. По этой шкале эмоции, связанные с чувством бессилия, подчинения и утраты контроля (печаль, стыд, отчаяние), противопоставлены эмоциям, связанным с мобилизацией сил и ощущением наличия контроля (гордость, интерес, гнев). Эта шкала соответствует так называемой стенической (от др.-греч. ?????? — сила) шкале эмоций, описанной в классических работах, посвящённых человеческим эмоциям.
В пределах третьего измерения наблюдается противостояние эмоций, связанных с высоким эмоциональным возбуждением и готовностью действовать (гнев, тревога), эмоциям, связанным с заторможенностью (разочарование, удовлетворённость). Эту шкалу можно считать практически полным аналогом традиционной шкалы возбуждения.
И наконец, четвёртое измерение — непредсказуемость — переносит на один край шкалы удивление, затем, отделённые заметным промежутком, почти в центре шкалы оказываются отвращение и страх, а на противоположном полюсе в виде плотной группы сосредоточены все остальные эмоции, причём ближе всего к концу шкалы оказывается чувство вины.
Исследование Шерера и его коллег стало важным этапом в изучении семантики эмоциональных терминов. В частности, его результаты были использованы для совершенствования популярного инструмента для эмоциональной самооценки (а также, например, для оценки «эмоций» роботов [2455] ), так называемого Женевского колеса эмоций (Geneva Emotion Wheel, GEW) [2456] , [2457] .
Возможность построения эмоционального семантического континуума позволяет подходить к задаче определения эмоциональной окраски речи или текста не как к задаче классификации, а как к задаче регрессии. В таком случае от модели потребуется не предсказание метки конкретного эмоционального класса (в соответствии с выбранным эмоциональным словарём), а оценка величины каждой из выбранных компонент эмоции. Для этой цели в стандарте EmotionML 1.0 помимо словарей введены ещё и системы измерений эмоций. Кроме упомянутой нами системы FRSE (GRID) с четырьмя шкалами, стандартом предусмотрена возможность использования пространства PAD (Pleasure, Arousal, and Dominance, Удовольствие, возбуждение и доминирование), основанного на трёх соответствующих шкалах, разработанного [2458] американским профессором Альбертом Меграбяном, а также плоской шкалы интенсивности [intensity] эмоции.
2455
Mcginn C., Kelly K. (2018). Using the Geneva Emotion Wheel to Classify the Expression of Emotion on Robots / Companion of the 2018 ACM/IEEE International Conference // https://doi.org/10.1145/3173386.3177058
2456
Scherer K. R., Shuman V., Fontaine J. J. R., Soriano C. (2013). The GRID meets the Wheel: Assessing emotional feeling via self-report / Fontaine J. J. R., Scherer K. R., Soriano C. (2013). Components of emotional meaning: a sourcebook. Series in affective science. Oxford University Press // https://doi.org/10.13140/RG.2.1.2694.6406
2457
Scherer K. R. (2005). What are emotions? And how can they be measured? / Social Science Information, Vol. 44 (4), pp. 695—729 // https://doi.org/10.1177/0539018405058216
2458
Mehrabian A. (1996). Pleasure-arousal-dominance: A general framework for describing and measuring individual differences in Temperament / Current Psychology, Vol. 14 (4), pp. 261—292 // https://doi.org/10.1007/BF02686918
Помимо способов представления эмоций, стандарт EmotionML 1.0 содержит в себе также словари характеристик
2459
Baggia P., Pelachaud C., Peter C., Zovato E., Burkhardt F., Schroder M. (2014). Emotion Markup Language (EmotionML) 1.0. W3C Recommendation 22 May 2014. Copyright © 2014 W3C® (MIT, ERCIM, Keio, Beihang) // https://www.w3.org/TR/emotionml/
2460
Ashimura K., Baggia P., Oltramari A., Peter C., Zovato E., Burkhardt F., Schroder M., Pelachaud C. (2014). Vocabularies for EmotionML. W3C Working Group Note 1 April 2014. W3C® (MIT, ERCIM, Keio, Beihang) // https://www.w3.org/TR/emotion-voc/
Итак, мы более-менее разобрались с выбором способа представления эмоциональной информации. Допустим, мы решили присвоить каждой фразе из обучающей выборки метку класса, взяв за основу «большую шестёрку» эмоций. Теперь необходимо собрать данные и выполнить разметку, для чего можно использовать какую-либо краудсорсинговую платформу. Иногда вам может подойти какой-либо из публичных датасетов, однако наилучший результат обычно получается, используя данные из того же канала и того же бизнес-процесса, в котором планируется применение модели распознавания эмоций. Однако особенность процесса может сыграть с разработчиком злую шутку. Например, если вы планируете обучать вашу модель на данных из колл-центра, занимающегося взысканием просроченной задолженности, то вы должны быть готовы к тому, что абоненты будут редко радоваться, поэтому, чтобы получить более-менее приличный по объёму датасет со сбалансированной численностью классов, вам придётся просеять огромное количество информации. Кроме того, подавляющее количество фраз практически в любом голосовом канале имеет нейтральную окраску. В принципе, можно объединить в один несколько датасетов (при условии сбалансированности численности классов), использовав публичные массивы или разметив какой-либо эмоционально богатый источник записей (например, ролики с YouTube), однако часто оказывается, что при использовании публичных датасетов для обучения точность на своих данных оказывается ниже декларированной. Поэтому судить о качестве модели можно только на основе данных из источников, с которыми модель будет работать в дальнейшем. Ещё одной альтернативой является создание наборов эмоциональных записей усилиями участников краудсорсинговой платформы, но практика показывает, что людям редко удаётся правдоподобно изображать эмоции на заказ, поэтому без дополнительной фильтрации ценность собранных таким образом записей весьма сомнительна.
Ещё одной проблемой является собственно разметка фраз, поскольку люди сами не всегда сходятся в оценках. Кто-то слышит в некоторой фразе нейтральную окраску, а кто-то в той же фразе подозревает скрытую печаль. Если вы используете при оценке систему, основанную на шкалах, то значения оценок по каждой шкале можно подвергнуть усреднению. При использовании словаря придётся либо доверять большинству оценщиков, либо отбрасывать фразы, получившие неоднозначные оценки.
При оценке эмоциональной окраски речи люди неизбежно будут ориентироваться как на текст сказанного, так и на те или иные звуковые признаки. Если вы используете видеозаписи человеческой речи, то к числу признаков добавятся ещё и признаки из видеоканала: выражение лица говорящего, а возможно, и движения его тела. В таком случае вам понадобится модель, которая сможет получать на вход мультимодальную информацию. При этом важно учитывать, что некоторые компоненты этой информации будут довольно универсальными для разных культур (например, то, каким образом эмоции, испытываемые человеком, влияют на его голос), а некоторые будут весьма специфичны для конкретной культуры (например, тот же язык — не факт, что нейронная сеть, которая обучалась на эмоциях людей — носителей одного языка, будет применима для распознавания эмоций носителей другого языка). Поэтому набор используемых модальностей будет влиять на возможность использования публичных массивов данных.
6.5.4 Наборы данных для анализа эмоций
Уже в начале 2000-х гг. исследователям было доступно множество наборов данных эмоциональной речи. Например, обзор [2461] , выполненный в 2003 г. Димитриосом Верверидисом и Константином Котропулосом, включает в себя 32 базы данных эмоциональной речи, из них 11 содержат английскую речь, 7 — немецкую, 3 — японскую, 3 — испанскую, 2 — нидерландскую, и ещё семь языков (включая русский) встречаются лишь единожды. Для разметки этих баз использовались различные эмоциональные словари. Наиболее представленными в датасетах эмоциями оказались: гнев [anger], печаль [sadness], счастье [happiness], страх [fear], отвращение [disgust], удивление [surprise], скука [boredom] и радость [joy]. Некоторые из изученных Верверидисом и Котропулосом массивы, помимо аудиозаписей, включают в себя видео и записи движений гортани, а один — информацию о частоте биения сердца, электромиограмму (запись электрических сигналов, полученных в результате регистрации сокращений мышц) мышцы, сморщивающей бровь (Musculus corrugator supercilii), а также сведения об изменении гальванического сопротивления кожи (как индикатора потоотделения). Авторы ещё одного датасета (правда, с единственным испытуемым) включили в него электроэнцефалограмму.
2461
Ververidis D., Kotropoulos C. (2003). A Review of Emotional Speech Databases / Proceedings of panhellenic conference on informatics, Thessaloniki, Greece, pp. 560—574 // http://poseidon.csd.auth.gr/LAB_PEOPLE/Ververidis/Ververidis_PCI_2003.pdf