Охота на электроовец. Большая книга искусственного интеллекта
Шрифт:
Марковские процессы получили своё название в честь русского математика Андрея Маркова (старшего), который сформулировал их определяющее свойство в первую декаду XX в.
Академик Андрей Андреевич Марков был весьма примечательной личностью для своего времени. Он был не только радикальным новатором в науке (его вклад в теорию чисел, математический анализ и прежде всего в математическую статистику и теорию вероятностей весьма существенно повлиял на дальнейшее развитие науки в этих направлениях), но и человеком весьма радикальных рационалистических взглядов. Чего стоит хотя бы его «самоотлучение» от Русской православной церкви. В феврале 1912 г. он направил в Святейший синод письмо, в котором попросил об отлучении. Академик писал: «Я не усматриваю существенной разницы между иконами и мощами, с одной стороны, и идолами, которые, конечно, не боги, а их изображения, с другой, и не сочувствую всем религиям, которые, подобно православию, поддерживаются огнём и мечом и сами служат им». Синод рассмотрел письмо и поручил митрополиту Петербургскому организовать «преподание просителю пасторских увещеваний и вразумления», что тот поручил сделать священнику Философу Орнатскому. Однако Марков отказался от встречи с ним, заявив, что она только приведёт к напрасной трате
2371
Отрадных Ф. П. (1953). Эпизод из жизни академика А. А. Маркова // Историко-математические исследования. № 6. С. 495—508 // http://pyrkov-professor.ru/default.aspx?tabid=195&ArticleId=44
Марков был довольно сильным шахматистом, много и с успехом играл по переписке, занимался шахматной композицией, был другом и партнёром в игре по переписке сильнейшего российского шахматиста того времени — Михаила Чигорина.
Системы, основанные на скрытых марковских моделях (применявшихся как в статистическом параметрическом синтезе, так и в конкатенативных системах), а также на вокодерах, использующих «донейронные» схемы аппроксимации, позволили получить весьма реалистичную и разборчивую синтетическую речь, обладающую лишь незначительным числом дефектов, выдающих её ненатуральность. С начала нового тысячелетия эти системы постепенно совершенствовались, главным образом за счёт работы над наборами данных (увеличения их размеров и улучшения качества). И всё же, несмотря на все старания инженеров, от «синтетического оттенка» искусственной речи избавиться до конца не удавалось. Увеличение затрат на подготовку данных не приводило к пропорциональному росту качества синтеза речи, что свидетельствовало в пользу того, что существующие технологии синтеза приблизились к пределу своих возможностей.
В условиях, когда методы глубокого обучения завоёвывали всё новые и новые области обработки данных, появление их в синтезе речи было лишь вопросом времени.
6.4.6 Первые применения нейронных сетей для синтеза речи
Попытки применения нейронных сетей к задаче синтеза речи предпринимались ещё до «революции глубокого обучения». Например, в 1998 г. тайваньские исследователи Сын-Хорн Чэнь, Шау-Хва Хван и И-Ру Ван использовали четырёхслойную рекуррентную нейронную сеть Элмана для генерации параметров произношения каждого из слогов (так называемой просодической информации) в системе синтеза речи для путунхуа (mandarin) — официального стандарта китайского языка. Однако это исследование [2372] осталось практически незамеченным — сети Элмана, в отличие от LSTM-сетей, обладали рядом существенных недостатков, и добиться значительного преимущества по сравнению с классическими методами в тот момент не удалось. Кроме того, использование тонового китайского языка в качестве модельного затрудняло оценку работы со стороны западных исследователей. В общем, революция глубокого обучения в области синтеза речи началась лишь в первой половине 2010-х.
2372
Chen S.-H., Hwang S.-H., Wang Y.-R. (1998). An RNN-based prosodic information synthesizer for Mandarin text-to-speech / IEEE Transactions on Speech and Audio Processing, Vol. 6, No. 3, pp. 226—239 // https://doi.org/10.1109/89.668817
В 2012 г. в журнале IEEE Signal Processing Magazine появилась статья, подписанная 11 авторами из IBM, Google, Microsoft и Университета Торонто (последний был представлен уже знакомым нам Джеффри Хинтоном и его аспирантами). Статья называлась «Глубокие нейронные сети для акустического моделирования в распознавании речи: общие взгляды четырёх исследовательских групп» (Deep Neural Networks for Acoustic Modeling in Speech Recognition: The Shared Views of Four Research Groups). Даже беглое чтение этой работы приводило к очевидной мысли: век скрытых марковских моделей в акустическом моделировании закончился. Если это произошло в области распознавания речи, значит, скорее всего, произойдёт и в области синтеза. И действительно, с 2013 г. начинается лавинообразный рост числа публикаций, в которых авторы пробуют применять глубокие нейронные сети в системах как параметрического, так и конкатенативного синтеза.
Кратко рассмотрим некоторые из важных работ, написанных в этот период.
В 2013 г. на Международной конференции по акустике, обработке речи и сигналов (International Conference on Acoustics, Speech, and Signal Processing, ICASSP) Хейга Дзэн и его коллеги из Google представили доклад под названием «Статистический параметрический синтез речи на основе глубоких нейронных сетей» (Statistical parametric speech synthesis using deep neural networks) [2373] . В нём в качестве замены комбинации деревьев решений со скрытыми марковскими моделями исследуются полносвязные нейронные сети (вплоть до пятислойных) с сигмоидальными функциями активации. Для оценки результатов использовались парные сравнения 173 предложений, синтезированных с применением старого и нового подходов. Каждая пара предложений оценивалась пятью оценщиками, при этом каждый из оценщиков, участвовавших в эксперименте, выполнял не более 30 сравнений. Хотя число параметров старой и новой модели было равным, новая модель уверенно обошла старую.
2373
Zen H., Senior A., Schuster M. (2013). Statistical parametric speech synthesis using deep neural networks / Proceedings of IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2013 // https://doi.org/10.1109/ICASSP.2013.6639215
На той же конференции Шийин Кан и его коллеги из Лаборатории человеко-компьютерных коммуникаций (Human Computer Communications Laboratory)
2374
Kang S., Qian X., Meng H. (2013). Multi-distribution deep belief network for speech synthesis / Proceedings of IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2013 // https://doi.org/10.1109/ICASSP.2013.6639225
В том же году в журнале IEEE Transactions on Audio, Speech, and Language Processing была опубликована совместная работа [2375] исследователей из Microsoft и Национальной инженерной лаборатории по обработке языковой и речевой информации (National Engineering Laboratory of Speech and Language Information Processing) Университета науки и технологий Китая (University of Science and Technology of China, USTC), в которой также исследовались возможности комбинации скрытых марковских моделей с глубокими сетями доверия и ограниченными машинами Больцмана. Здесь авторы использовали попарные сравнения (50 предложений от каждой из оценивавшихся моделей и пять оценщиков) и продемонстрировали статистически значимое превосходство новых подходов (ограниченные машины Больцмана показали несколько лучший результат, чем глубокие сети доверия, однако разница между ними не была статистически значимой).
2375
Ling Z.-H., Deng L., Yu D. (2013). Modeling Spectral Envelopes Using Restricted Boltzmann Machines and Deep Belief Networks for Statistical Parametric Speech Synthesis / IEEE Transactions on Audio, Speech, and Language Processing, Vol. 21(10), pp. 2129—2139 // https://doi.org/10.1109/tasl.2013.2269291
Далее, отталкиваясь от результатов, полученных Хейгой Дзэном и его коллегами, учёные из Центра исследования речевых технологий (Centre for Speech Technology Research) Эдинбургского университета изучили [2376] различные виды представлений параметров на входе модели, предсказывающей входные параметры вокодера в SPSS-системе. Это была обобщающая работа, где авторы опробовали разные подходы и методы, в результате им удалось улучшить системы, основанные на скрытых марковских моделях. Хотя авторы и не смогли создать нейросетевую систему синтеза, которая оказалась бы лучше системы, основанной на скрытых марковских моделях, тем не менее их работа указала верное направление для дальнейших исследований в области нейросетевого синтеза речи.
2376
Lu H., King S., Watts O. (2013). Combining a vector space representation of linguistic context with a deep neural network for text-to-speech synthesis / Proceedings of the 8th ISCASpeech Synthesis Workshop (SSW), 2013 // http://ssw8.talp.cat/papers/ssw8_PS3-3_Lu.pdf
В 2014 г. группа исследователей из Microsoft повторила успех Хейги Дзэна и его коллег из Google, применив в качестве классификатора полносвязную сеть с тремя обучаемыми слоями по 1024 нейрона в каждом. Они использовали небольшой обучающий корпус размером около пяти часов речи (на корпусах подобного или меньшего размера методы статистического параметрического синтеза в то время могли продемонстрировать превосходство над системами синтеза, основанными на unit selection). При этом авторы показали, что при применении сети меньшего размера (три обучаемых слоя по 512 нейронов) система нейросетевого синтеза речи не в состоянии статистически достоверно превзойти использованную в качестве эталона систему синтеза, основанную на скрытых марковских моделях [2377] . В том же году этот же коллектив авторов представил на конференции Interspeech-2014 работу [2378] , в которой было показано, что комбинированная архитектура, сочетающая полносвязную и рекуррентную двунаправленную LSTM-сеть, позволяет получить ещё более качественные результаты синтеза.
2377
Qian Y., Fan Y., Hu W., Soong F. K. (2014). On the training aspects of deep neural network (DNN) for parametric TTS synthesis / Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2014 // https://doi.org/10.1109/ICASSP.2014.6854318
2378
Fan Y., Qian Y., Xie F., Soong F. K. (2014). TTS synthesis with bidirectional LSTM based recurrent neural networks / Interspeech 2014, 15th Annual Conference of the International Speech Communication Association, Singapore, September 14—18, 2014 // https://www.isca-speech.org/archive/archive_papers/interspeech_2014/i14_1964.pdf
На конференции Interspeech-2015 Рауль Фернандес и его коллеги из компании IBM продемонстрировали, что при использовании метода unit selection двунаправленная LSTM-сеть лучше справляется с выбором элементов в фонетической базе, чем «донейронный» алгоритм (в качестве базы для сравнения применялись «леса случайных деревьев» [random forest]). Фернандесу и его коллегам удалось добиться улучшения величины этой метрики на 0,29 пункта (с 3,18 до 3,47; для автоматизированной слепой оценки было использовано 40 фраз и 19 оценщиков) [2379] .
2379
Fernandez R., Rendel A., Ramabhadran B., Hoory R. (2015). Using Deep Bidirectional Recurrent Neural Networks for Prosodic-Target Prediction in a Unit-Selection Text-to-Speech System / Interspeech 2015, 16th Annual Conference of the International Speech Communication Association, 2015 // https://www.isca-speech.org/archive/interspeech_2015/i15_1606.html
Выйду замуж за спасателя
1. Спасатели
Любовные романы:
современные любовные романы
рейтинг книги
Эволюционер из трущоб. Том 5
5. Эволюционер из трущоб
Фантастика:
попаданцы
аниме
фэнтези
фантастика: прочее
рейтинг книги
Сумеречный стрелок 6
6. Сумеречный стрелок
Фантастика:
городское фэнтези
попаданцы
аниме
рейтинг книги
Кодекс Крови. Книга VI
6. РОС: Кодекс Крови
Фантастика:
фэнтези
попаданцы
аниме
рейтинг книги
Бастард Императора
1. Бастард Императора
Фантастика:
фэнтези
аниме
рейтинг книги
Архонт
5. Стеллар
Фантастика:
боевая фантастика
рпг
рейтинг книги
Собрание сочинений В. К. Арсеньева в одной книге
5. Абсолют
Приключения:
исторические приключения
рейтинг книги
Хранители миров
Фантастика:
юмористическая фантастика
рейтинг книги

i f36931a51be2993b
Старинная литература:
прочая старинная литература
рейтинг книги
