Охота на электроовец. Большая книга искусственного интеллекта
Шрифт:
Формально суммарная длительность аудиовизуальных фрагментов в базе SEMAINE более чем в два раза превосходит RAVDESS по аналогичному показателю, однако различные эмоции представлены в SEMAINE крайне неравномерно, также никак не был сбалансирован ни состав участников исследования, ни лексическая основа диалогов, что практически сводит на нет преимущество в объёме данных. Тем не менее нельзя не отметить удивительную детальность разметки, выполненной исследователями в рамках этого проекта.
Также разметка SEMAINE включает в себя информацию о смехе, кивках, покачиваниях головой и оценку степени вовлечённости пользователя в диалог.
4. TESS (Toronto emotional speech set, Набор эмоциональной речи [Университета] Торонто).
В 1966 г. исследователи из Северо-Западного университета разработали так называемый слуховой тест № 6, предназначенный для измерения чувствительности слуха пациентов. Набор фраз, используемых в тесте, состоит из фразы-носителя — Say the word… [Скажи
Этот весьма скромный по размерам датасет тем не менее нередко используется исследователями и в наши дни.
5. Berlin Database of Emotional Speech (EMO-DB) (Берлинская база данных эмоциональной речи) [2473] .
Этот германоязычный массив данных, впервые представленный на конференции InterSpeech-2005, на протяжении многих лет пользовался большой популярностью у исследователей эмоциональной речи. Десять актёров (пять женщин и пять мужчин) имитировали эмоции, произнося по десять предложений (пять коротких и пять более длинных), относящихся к повседневному лексикону. Записи были сделаны в студии с шумопоглощающим покрытием при помощи высококачественного записывающего оборудования. Помимо звука, были записаны электроглоттограммы. Электроглоттография основана на измерении динамики электрического сопротивления гортани во время произнесения фраз, что достигается при помощи пары электродов, располагаемых на передней поверхности шеи по обе стороны щитовидного хряща (Cartilago thyroidea).
2473
Burkhardt F., Paeschke A., Rolfes M., Sendlmeier W., Weiss B. (2005). A database of German emotional speech / 9th European Conference on Speech Communication and Technology, Vol. 5, pp. 1517—1520 // https://www.isca-speech.org/archive/interspeech_2005/i05_1517.html
10 актёров x 10 предложений x 7 эмоций (включая нейтральную) дают нам 700 записей, однако часть записей была выполнена повторно, поэтому в базе содержится на 100 записей больше. Все записи были подвергнуты оценке с привлечением 20 оценщиков, которые прослушивали записи в случайном порядке (повторное прослушивание не допускалось) и должны были определить эмоциональную окраску фразы и то, насколько убедительно эта эмоция была выражена. После этого для записей со средним уровнем узнавания эмоции более 80% и средней оценкой убедительности более 60% (которых оказалось 300 штук) разметчики дополнительно оценили интенсивность проявления эмоции (при этом имея возможность многократного прослушивания записи).
По современным меркам этот датасет невелик и может быть использован разве что в учебных целях.
6. IEMOCAP (Interactive emotional dyadic motion capture database, Интерактивная эмоциональная база данных [на основе] диадического захвата движений) [2474] .
Этот массив, созданный Лабораторией анализа и интерпретации речи (Speech Analysis and Interpretation Laboratory, SAIL) Университета Южной Калифорнии (University of Southern California), включает в себя записи диалогов (спонтанных и на основе заранее подготовленных сценариев) десяти участников. Данные включают в себя аудиозаписи с расшифровкой, видео, а также подробную информацию о выражении лица и движениях рук, эмоциональную разметку («большая шестёрка» + другая эмоция + нейтральная окраска, а также оценка эмоций по трём шкалам: валентность, активация и доминирование). Общий объём корпуса составляет около 12 часов.
2474
Busso C., Bulut M., Lee C.-C., Kazemzadeh A., Mower E., Kim S., Chang J. N., Lee S., Narayanan S. S. (2008). IEMOCAP: Interactive emotional dyadic motion capture database / Journal of Language Resources and Evaluation, Vol. 42, No. 4, pp. 335—359 // https://doi.org/10.1007/s10579-008-9076-6
7. HEU Emotion — один из свежих мультимодальных и многоязычных эмоциональных датасетов, опубликованный [2475] китайскими исследователями в середине 2020 г.
Датасет включает в себя две части. Первая содержит 16 569 видеороликов (с 8984 действующими лицами), загруженных с Tumblr, Google и Giphy и представленных в двух модальностях (выражение лица и поза), вторая — 2435 фрагментов фильмов, сериалов и шоу (с 967 действующими лицами), представленных в трёх модальностях (выражение лица, поза и эмоционально окрашенная речь). Создатели датасета использовали эмоциональный алфавит из десяти эмоций, добавив к нейтральной эмоции и «большой шестёрке»
2475
Chen J., Wang C., Wang K., Yin C., Zhao C., Xu T., Zhang X., Huang Z., Liu M., Yang T. (2020). HEU Emotion: A Large-scale Database for Multi-modal Emotion Recognition in the Wild // https://arxiv.org/abs/2007.12519
8. RUSLANA database (RUSsian LANguage Affective speech database, Русскоязычная база данных эмоциональной речи) [2476] .
Первая открытая русскоязычная база данных эмоциональной речи была создана в 2002 г. Её создатели — Вероника Макарова и Валерий Петрушин, а заказчики — японский Университет Мейкай (????, Meikai daigaku, Meikai University), Национальный институт передовой промышленной науки и технологии (?????????, Sangyo Gijutsu Sogo Kenkyu-sho, National Institute of Advanced Industrial Science and Technology) и исследовательская лаборатория Accenture Technology Labs консалтинговой компании Accenture.
2476
Makarova V., Petrushin V. A. (2002). RUSLANA: A database of Russian emotional utterances / 7th International Conference on Spoken Language Processing, ICSLP2002 — INTERSPEECH 2002, Denver, Colorado, USA, September 16—20, 2002 // https://www.isca-speech.org/archive/archive_papers/icslp_2002/i02_2041.pdf
База данных содержит записи 61 человека (12 мужчин и 49 женщин), которые произносят десять предложений с выражением следующих эмоциональных состояний: удивление, счастье, гнев, грусть, страх и нейтрально (без эмоциональной окраски). Таким образом, база содержит в сумме 61 x 10 x 6 = 3660 записей.
С момента появления RUSLANA свет увидели ещё несколько открытых русскоязычных эмоциональных датасетов, например аудиовизуальный RAMAS (впрочем, сейчас получить доступ к этому датасету вряд ли получится, поскольку компания, занимавшаяся его сбором, прекратила существование) и весьма внушительный по объёму (более 20 000 записей) набор эмоциональной детской речи EmoChildRu [2477] , но долгое время не существовало открытых датасетов взрослой эмоциональной русской речи, превосходящих RUSLANA по объёму.
2477
Lyakso E., Frolova O., Dmitrieva E., Grigorev A., Kaya H., Salah A. A., Karpov A. (2015). EmoChildRu: Emotional Child Russian Speech Corpus / Ronzhin A., Potapova R., Fakotakis N. (2015). Speech and Computer. SPECOM 2015. Lecture Notes in Computer Science, Vol. 9319. Springer, Cham // https://doi.org/10.1007/978-3-319-23132-7_18
9. Ситуация изменилась лишь в феврале 2022 г., когда команда SberDevices опубликовала датасет под названием Dusha, содержащий около 320 тысяч аудиозаписей общей продолжительностью примерно 350 часов.
Датасет разделён на две большие части. Первая (Podcast) состоит из фрагментов русскоязычных подкастов, вторая (Crowd) — из различных разговорных реплик, озвученных с помощью краудсорсинга. Пользователей краудсорсинговой платформы просили озвучивать реплики с заданной эмоциональной окраской (использовался эмоциональный алфавит, включающий следующие эмоции: 1) позитив, 2) нейтральная окраска, 3) грусть, 4) злость/раздражение). Далее все реплики были пропущены через независимых оценщиков (каждую реплику оценивало несколько человек), каждый из которых указывал распознанную им эмоциональную окраску прослушанного фрагмента, используя вышеуказанный алфавит. После этого те записи из части Crowd, в которых распознанная на слух эмоциональная окраска отличалась от той, которую стремились придать участники озвучки, не были включены в итоговый датасет [2478] , [2479] .
2478
Kondratenko V., Sokolov A., Karpov N., Kutuzov O., Savushkin N., Minkin F. (2022). Large Raw Emotional Dataset with Aggregation Mechanism // https://arxiv.org/abs/2212.12266
2479
djunka (2022). Dusha: самый большой открытый датасет для распознавания эмоций в устной речи на русском языке. / Хабр, 8 фев. 2022 // https://habr.com/ru/companies/sberdevices/articles/715468/
Конечно, проприетарные (частные) датасеты эмоциональной речи, собранные крупными российскими компаниями, по объёмам многократно превосходят открытые аналоги. Использование больших проприетарных датасетов позволяет создавать модели распознавания эмоций, существенно превосходящие по точности модели, описанные в научных публикациях. Однако у начинающих разработчиков и университетских исследователей нет никакой альтернативы использованию открытых датасетов, поэтому наличие последних весьма важно для обучения новых специалистов и развития науки.