Чтение онлайн

на главную - закладки

Жанры

Охота на электроовец. Большая книга искусственного интеллекта
Шрифт:

Формально суммарная длительность аудиовизуальных фрагментов в базе SEMAINE более чем в два раза превосходит RAVDESS по аналогичному показателю, однако различные эмоции представлены в SEMAINE крайне неравномерно, также никак не был сбалансирован ни состав участников исследования, ни лексическая основа диалогов, что практически сводит на нет преимущество в объёме данных. Тем не менее нельзя не отметить удивительную детальность разметки, выполненной исследователями в рамках этого проекта.

Также разметка SEMAINE включает в себя информацию о смехе, кивках, покачиваниях головой и оценку степени вовлечённости пользователя в диалог.

4. TESS (Toronto emotional speech set, Набор эмоциональной речи [Университета] Торонто).

В 1966 г. исследователи из Северо-Западного университета разработали так называемый слуховой тест № 6, предназначенный для измерения чувствительности слуха пациентов. Набор фраз, используемых в тесте, состоит из фразы-носителя — Say the word… [Скажи

слово…] и набора из 200 различных слов, которые добавляются к фразе-носителю. Исследователи из Университета Торонто использовали этот же набор текстов, при этом каждая из фраз произносилась двумя актрисами (26 и 64 лет; обе были из региона Торонто, являлись носительницами английского языка, имели высшее и высшее музыкальное образование) с семью различными типами эмоциональной окраски (использовались всё та же «большая шестёрка» эмоций и нейтральная окраска). Таким образом, в сумме было получено 200 x 7 x 2 = 2800 записей.

Этот весьма скромный по размерам датасет тем не менее нередко используется исследователями и в наши дни.

5. Berlin Database of Emotional Speech (EMO-DB) (Берлинская база данных эмоциональной речи) [2473] .

Этот германоязычный массив данных, впервые представленный на конференции InterSpeech-2005, на протяжении многих лет пользовался большой популярностью у исследователей эмоциональной речи. Десять актёров (пять женщин и пять мужчин) имитировали эмоции, произнося по десять предложений (пять коротких и пять более длинных), относящихся к повседневному лексикону. Записи были сделаны в студии с шумопоглощающим покрытием при помощи высококачественного записывающего оборудования. Помимо звука, были записаны электроглоттограммы. Электроглоттография основана на измерении динамики электрического сопротивления гортани во время произнесения фраз, что достигается при помощи пары электродов, располагаемых на передней поверхности шеи по обе стороны щитовидного хряща (Cartilago thyroidea).

2473

Burkhardt F., Paeschke A., Rolfes M., Sendlmeier W., Weiss B. (2005). A database of German emotional speech / 9th European Conference on Speech Communication and Technology, Vol. 5, pp. 1517—1520 // https://www.isca-speech.org/archive/interspeech_2005/i05_1517.html

10 актёров x 10 предложений x 7 эмоций (включая нейтральную) дают нам 700 записей, однако часть записей была выполнена повторно, поэтому в базе содержится на 100 записей больше. Все записи были подвергнуты оценке с привлечением 20 оценщиков, которые прослушивали записи в случайном порядке (повторное прослушивание не допускалось) и должны были определить эмоциональную окраску фразы и то, насколько убедительно эта эмоция была выражена. После этого для записей со средним уровнем узнавания эмоции более 80% и средней оценкой убедительности более 60% (которых оказалось 300 штук) разметчики дополнительно оценили интенсивность проявления эмоции (при этом имея возможность многократного прослушивания записи).

По современным меркам этот датасет невелик и может быть использован разве что в учебных целях.

6. IEMOCAP (Interactive emotional dyadic motion capture database, Интерактивная эмоциональная база данных [на основе] диадического захвата движений) [2474] .

Этот массив, созданный Лабораторией анализа и интерпретации речи (Speech Analysis and Interpretation Laboratory, SAIL) Университета Южной Калифорнии (University of Southern California), включает в себя записи диалогов (спонтанных и на основе заранее подготовленных сценариев) десяти участников. Данные включают в себя аудиозаписи с расшифровкой, видео, а также подробную информацию о выражении лица и движениях рук, эмоциональную разметку («большая шестёрка» + другая эмоция + нейтральная окраска, а также оценка эмоций по трём шкалам: валентность, активация и доминирование). Общий объём корпуса составляет около 12 часов.

2474

Busso C., Bulut M., Lee C.-C., Kazemzadeh A., Mower E., Kim S., Chang J. N., Lee S., Narayanan S. S. (2008). IEMOCAP: Interactive emotional dyadic motion capture database / Journal of Language Resources and Evaluation, Vol. 42, No. 4, pp. 335—359 // https://doi.org/10.1007/s10579-008-9076-6

7. HEU Emotion — один из свежих мультимодальных и многоязычных эмоциональных датасетов, опубликованный [2475] китайскими исследователями в середине 2020 г.

Датасет включает в себя две части. Первая содержит 16 569 видеороликов (с 8984 действующими лицами), загруженных с Tumblr, Google и Giphy и представленных в двух модальностях (выражение лица и поза), вторая — 2435 фрагментов фильмов, сериалов и шоу (с 967 действующими лицами), представленных в трёх модальностях (выражение лица, поза и эмоционально окрашенная речь). Создатели датасета использовали эмоциональный алфавит из десяти эмоций, добавив к нейтральной эмоции и «большой шестёрке»

разочарование, растерянность и скуку.

2475

Chen J., Wang C., Wang K., Yin C., Zhao C., Xu T., Zhang X., Huang Z., Liu M., Yang T. (2020). HEU Emotion: A Large-scale Database for Multi-modal Emotion Recognition in the Wild // https://arxiv.org/abs/2007.12519

8. RUSLANA database (RUSsian LANguage Affective speech database, Русскоязычная база данных эмоциональной речи) [2476] .

Первая открытая русскоязычная база данных эмоциональной речи была создана в 2002 г. Её создатели — Вероника Макарова и Валерий Петрушин, а заказчики — японский Университет Мейкай (????, Meikai daigaku, Meikai University), Национальный институт передовой промышленной науки и технологии (?????????, Sangyo Gijutsu Sogo Kenkyu-sho, National Institute of Advanced Industrial Science and Technology) и исследовательская лаборатория Accenture Technology Labs консалтинговой компании Accenture.

2476

Makarova V., Petrushin V. A. (2002). RUSLANA: A database of Russian emotional utterances / 7th International Conference on Spoken Language Processing, ICSLP2002 — INTERSPEECH 2002, Denver, Colorado, USA, September 16—20, 2002 // https://www.isca-speech.org/archive/archive_papers/icslp_2002/i02_2041.pdf

База данных содержит записи 61 человека (12 мужчин и 49 женщин), которые произносят десять предложений с выражением следующих эмоциональных состояний: удивление, счастье, гнев, грусть, страх и нейтрально (без эмоциональной окраски). Таким образом, база содержит в сумме 61 x 10 x 6 = 3660 записей.

С момента появления RUSLANA свет увидели ещё несколько открытых русскоязычных эмоциональных датасетов, например аудиовизуальный RAMAS (впрочем, сейчас получить доступ к этому датасету вряд ли получится, поскольку компания, занимавшаяся его сбором, прекратила существование) и весьма внушительный по объёму (более 20 000 записей) набор эмоциональной детской речи EmoChildRu [2477] , но долгое время не существовало открытых датасетов взрослой эмоциональной русской речи, превосходящих RUSLANA по объёму.

2477

Lyakso E., Frolova O., Dmitrieva E., Grigorev A., Kaya H., Salah A. A., Karpov A. (2015). EmoChildRu: Emotional Child Russian Speech Corpus / Ronzhin A., Potapova R., Fakotakis N. (2015). Speech and Computer. SPECOM 2015. Lecture Notes in Computer Science, Vol. 9319. Springer, Cham // https://doi.org/10.1007/978-3-319-23132-7_18

9. Ситуация изменилась лишь в феврале 2022 г., когда команда SberDevices опубликовала датасет под названием Dusha, содержащий около 320 тысяч аудиозаписей общей продолжительностью примерно 350 часов.

Датасет разделён на две большие части. Первая (Podcast) состоит из фрагментов русскоязычных подкастов, вторая (Crowd) — из различных разговорных реплик, озвученных с помощью краудсорсинга. Пользователей краудсорсинговой платформы просили озвучивать реплики с заданной эмоциональной окраской (использовался эмоциональный алфавит, включающий следующие эмоции: 1) позитив, 2) нейтральная окраска, 3) грусть, 4) злость/раздражение). Далее все реплики были пропущены через независимых оценщиков (каждую реплику оценивало несколько человек), каждый из которых указывал распознанную им эмоциональную окраску прослушанного фрагмента, используя вышеуказанный алфавит. После этого те записи из части Crowd, в которых распознанная на слух эмоциональная окраска отличалась от той, которую стремились придать участники озвучки, не были включены в итоговый датасет [2478] , [2479] .

2478

Kondratenko V., Sokolov A., Karpov N., Kutuzov O., Savushkin N., Minkin F. (2022). Large Raw Emotional Dataset with Aggregation Mechanism // https://arxiv.org/abs/2212.12266

2479

djunka (2022). Dusha: самый большой открытый датасет для распознавания эмоций в устной речи на русском языке. / Хабр, 8 фев. 2022 // https://habr.com/ru/companies/sberdevices/articles/715468/

Конечно, проприетарные (частные) датасеты эмоциональной речи, собранные крупными российскими компаниями, по объёмам многократно превосходят открытые аналоги. Использование больших проприетарных датасетов позволяет создавать модели распознавания эмоций, существенно превосходящие по точности модели, описанные в научных публикациях. Однако у начинающих разработчиков и университетских исследователей нет никакой альтернативы использованию открытых датасетов, поэтому наличие последних весьма важно для обучения новых специалистов и развития науки.

Поделиться:
Популярные книги

Идеальный мир для Лекаря 12

Сапфир Олег
12. Лекарь
Фантастика:
боевая фантастика
юмористическая фантастика
аниме
5.00
рейтинг книги
Идеальный мир для Лекаря 12

Сандро из Чегема (Книга 1)

Искандер Фазиль Абдулович
Проза:
русская классическая проза
8.22
рейтинг книги
Сандро из Чегема (Книга 1)

Бывшие. Война в академии магии

Берг Александра
2. Измены
Любовные романы:
любовно-фантастические романы
7.00
рейтинг книги
Бывшие. Война в академии магии

Друд, или Человек в черном

Симмонс Дэн
Фантастика:
социально-философская фантастика
6.80
рейтинг книги
Друд, или Человек в черном

Счастье быть нужным

Арниева Юлия
Любовные романы:
любовно-фантастические романы
5.25
рейтинг книги
Счастье быть нужным

Вперед в прошлое 5

Ратманов Денис
5. Вперед в прошлое
Фантастика:
попаданцы
альтернативная история
5.00
рейтинг книги
Вперед в прошлое 5

70 Рублей

Кожевников Павел
1. 70 Рублей
Фантастика:
фэнтези
боевая фантастика
попаданцы
постапокалипсис
6.00
рейтинг книги
70 Рублей

Лютая

Шёпот Светлана Богдановна
Любовные романы:
любовно-фантастические романы
6.40
рейтинг книги
Лютая

Интриги двуликих

Чудинов Олег
Фантастика:
космическая фантастика
5.00
рейтинг книги
Интриги двуликих

Последнее желание

Сапковский Анджей
1. Ведьмак
Фантастика:
фэнтези
9.43
рейтинг книги
Последнее желание

Лолита

Набоков Владимир Владимирович
Проза:
классическая проза
современная проза
8.05
рейтинг книги
Лолита

Сумеречный Стрелок 3

Карелин Сергей Витальевич
3. Сумеречный стрелок
Фантастика:
городское фэнтези
попаданцы
аниме
5.00
рейтинг книги
Сумеречный Стрелок 3

Прометей: каменный век II

Рави Ивар
2. Прометей
Фантастика:
альтернативная история
7.40
рейтинг книги
Прометей: каменный век II

Камень Книга седьмая

Минин Станислав
7. Камень
Фантастика:
фэнтези
боевая фантастика
6.22
рейтинг книги
Камень Книга седьмая