Чтение онлайн

на главную - закладки

Жанры

Охота на электроовец. Большая книга искусственного интеллекта
Шрифт:

В 2015 г. на конференции ICASSP-2015 исследователи из уже знакомого нам Центра исследования речевых технологий Эдинбургского университета представили собственную систему нейросетевого параметрического синтеза речи, которая на этот раз смогла уверенно обойти эталонную скрытую марковскую модель. При этом авторы изобрели своеобразную нейросетевую архитектуру, в которой полносвязная сеть имела в числе своих слоёв один слой с меньшим числом нейронов, представляющий собой своеобразное «бутылочное горлышко». Значения сигналов, возникшие в этом слое на шаге x, передавались на специально выделенные для этой цели нейроны входного слоя сети на шаге x + 1. В некотором роде авторы, таким образом, переизобрели рекуррентные нейронные сети. Также авторы, стремясь уйти от трудоёмких попарных сравнений образцов синтезированной речи, изобрели собственную методику оценки качества синтеза, получившую название MUSHRA (MUltiple Stimuli with Hidden Reference and Anchor, Множественные стимулы со скрытой точкой отсчёта и якорем).

В тесте приняли участие 15 оценщиков —

носителей английского языка без диагностированных нарушений слуха. Каждому из них было предложено оценить 20 наборов, которые были случайно отобраны из 72 синтезированных фраз. Каждый набор включал десять образцов синтеза одного и того же предложения, девять из них были синтезированы одной из девяти оцениваемых систем, а одна была записью естественной речи, используемой в качестве скрытой точки отсчёта. Участников попросили оценить каждый образец по шкале от 0 (крайне плохо) до 100 (абсолютно естественно звучащая речь). Им также было дано указание дать ровно одному из десяти образцов в каждом наборе оценку 100. В результате теста исследователи получили 300 наборов оценок. В одном из них скрытая точка отсчёта не была оценена в 100 баллов, поэтому этот набор был исключён из дальнейшего анализа.

Авторы также пытались расширить выходной слой сети, чтобы поручить ей выполнение дополнительных вторичных задач (например, предсказание центральных частот формант F1F4) в надежде, что это улучшит внутренние представления, выучиваемые сетью, что, в свою очередь, положительно повлияет на точность решения основной задачи. Однако здесь авторам не удалось добиться статистически значимых улучшений [2380] . Вообще, публикация исследователями из Эдинбурга отрицательных результатов наряду с положительными, на мой взгляд, свидетельствует об их исключительной добросовестности.

2380

Wu Z., Valentini-Botinhao C., Watts O., King S. (2015). Deep neural networks employing multi-task learning and stacked bottleneck features for speech synthesis / Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2015 // https://doi.org/10.1109/ICASSP.2015.7178814

В том же 2015 г. в Японии на Первом международном симпозиуме по машинному обучению в области обработки устной речи (First International Workshop on Machine Learning in Spoken Language Processing, MLSLP) Хейга Дзэн представил обзор прогресса в области систем статистического параметрического синтеза (от скрытых марковских моделей до LSTM-сетей). Обзор завершался следующим выводом: «Одной из основных причин, по которой HMM стали доминирующей акустической моделью в SPSS, является наличие программного обеспечения с открытым исходным кодом для создания полностью функциональных, „сквозных“ систем. Поскольку существует ряд пакетов программного обеспечения с открытым исходным кодом для глубокого обучения, автор ожидает, что искусственные нейронные сети станут следующей доминирующей акустической моделью в ближайшем будущем» [2381] (сквозная, end-to-end система — система, которая реализует весь функционал от начала до конца; в данном случае система, которая преобразовывала бы текстовое представление в звуковой сигнал).

2381

Zen H. (2015). Acoustic Modeling in Statistical Parametric Speech Synthesis — From HMM to LSTM-RNN / Proceedings of the First International Workshop on Machine Learning in Spoken Language Processing (MLSLP2015), Aizu, Japan, 19–20 September 2015 // https://research.google/pubs/pub43893/

В 2016 г. совместная британо-японская группа исследователей из Эдинбургского университета и Национального института информатики Японии продемонстрировала превосходство глубоких моделей над скрытыми марковскими моделями как в традиционном статистическом параметрическом синтезе, так и в «гибридном синтезе» (этот термин авторы использовали для обозначения модели, в которой выбор элементов речевого сигнала производится при помощи модели статистического параметрического синтеза, но сами элементы могут не только извлекаться из базы данных, но и генерироваться при помощи вокодера) [2382] .

2382

Merritt T., Clark R. A. J., Wu Z., Yamagishi J., King S. (2016). Deep neural network-guided unit selection synthesis / 2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) // https://doi.org/10.1109/ICASSP.2016.7472658

Как видно, авторы всех данных работ постепенно улучшали глубокие модели, используя разнообразные подходы. Нейросети всё более успешно справлялись с задачей синтеза речи, постепенно обходя скрытые марковские модели, но результаты этих двух подходов были всё ещё близки друг к другу.

О том, что стало решающим шагом вперёд, мы поговорим в следующей подглаве.

6.4.7 Появление модели WaveNet и новые проблемы

Прорывом в области параметрического синтеза речи стало появление в 2016 г. получившей название WaveNet модели, созданной Хейгой Дзэном совместно с группой исследователей из DeepMind. WaveNet

стал первым нейросетевым вокодером, способным преобразовывать последовательность лингвистических признаков (это могут быть фреймы (временные фрагменты), содержащие значения F0 и наборы мел-кепстральных коэффициентов, либо фреймы линейной или мел-спектрограммы) в последовательность амплитуд речевого сигнала.

WaveNet — авторегрессионная модель, то есть модель, в которой каждый следующий элемент последовательности зависит от предыдущих. Она является наследницей модели под названием PixelCNN, предназначенной для генерации изображений (мы подробнее поговорим о ней в разделе, посвящённом генеративным моделям). Каждая следующая амплитуда речевого сигнала сильно зависит от предыдущих, и эти зависимости могут связывать амплитуды, находящиеся друг от друга на достаточно большом расстоянии. Обычно человеческое ухо способно различать частоты не ниже 20 Гц. При частоте дискретизации 48 кГц длина периода колебаний частотой 20 Гц составляет 48000 / 20 = 2400 шагов. Таким образом, качественной авторегрессионной модели для речевого сигнала нужно довольно большое рецептивное поле (часть входной последовательности, передаваемой на вход модели). Для рекуррентных сетей это слишком большие дистанции, а «наивные» нерекуррентные архитектуры, такие как полносвязные и даже свёрточные сети, содержат слишком большое количество параметров. Проблема такой сети заключается в том, что она должна выполняться каждый раз при вычислении очередной амплитуды. 48 000 выполнений сети на одну секунду аудиосигнала — весьма дорогое удовольствие. Если для вычисления каждой следующей амплитуды нужно знать значение предыдущей, сделать такие расчёты параллельными довольно затруднительно.

Трюк, использованный создателями WaveNet, называется расширенной или растянутой свёрткой [dilated convolution] или даже «свёрткой с дырками» [a trous]. Расширенная свёртка — это свёртка, в которой фильтр (ядро свёртки) применяется к области, превышающей его собственную длину, путём пропуска входных значений с определённым шагом. Математически это эквивалентно свёртке с более крупным фильтром, полученным из исходного путём разбавления его значений нулями, но с вычислительной точки зрения куда более эффективно. Расширенная свёртка позволяет сети эффективно обрабатывать данные, обладающие большей размерностью, чем в случае обычной свёртки. Расширенная свёртка с коэффициентом расширения [dilation], равным 1, является стандартной свёрткой.

Рис. 140. Последовательные расширенные свёртки в WaveNet с коэффициентами расширения (снизу вверх): 1, 2, 4 и 8

Авторы WaveNet не были изобретателями расширенной свёртки, она применялась с конца 1980-х гг. в различных контекстах, например в обработке сигналов [2383] , [2384] или для сегментации изображений [2385] , [2386] . Однако создатели WaveNet подобрали оптимальное количество слоёв, их коэффициенты расширения, а также снабдили сеть перепрыгивающими соединениями. Каждый блок WaveNet включает девять последовательных слоёв расширенной свёртки с коэффициентами 1, 2, 4, 8, 16, 32, 64, 128, 256, 512. Несколько блоков WaveNet могут быть соединены друг с другом с целью расширения рецептивного поля сети.

2383

Holschneider M., Kronland-Martinet R., Morlet J., Tchamitchian P. (1989). A real-time algorithm for signal analysis with the help of the wavelet transform / Combes J.-M., Grossmann A., Tchamitchian P. (1989). Wavelets: Time-Frequency Methods and Phase Space. Springer Berlin Heidelberg // https://books.google.ru/books?id=3R74CAAAQBAJ

2384

Dutilleux P. An implementation of the “algorithme a trous” to compute the wavelet transform / Combes J.-M., Grossmann A., Tchamitchian P. (1989). Wavelets: Time-Frequency Methods and Phase Space. Springer Berlin Heidelberg // https://books.google.ru/books?id=3R74CAAAQBAJ

2385

Yu F., Koltun V. (2016). Multi-scale context aggregation by dilated convolutions / http://arxiv.org/abs/1511.07122

2386

Chen L.-C., Papandreou G., Kokkinos I., Murphy K., Yuille A. L. (2015). Semantic image segmentation with deep convolutional nets and fully connected CRFs // http://arxiv.org/abs/1412.7062

Размер рецептивного поля WaveNet в экспериментах, упомянутых авторами модели, составлял 0,24–0,3 секунды. Если модель при генерации сигнала ориентируется лишь на предшествующие амплитуды, то начинает подражать особенностям корпуса, на котором производилось обучение модели. Если используется речевой корпус, то модель начинает генерировать последовательности, фонетически напоминающие речь на языке корпуса. Конечно, это не осмысленная речь, а глоссолалия, то есть речь, состоящая из бессмысленных слов, имеющая некоторые признаки настоящей речи. В одном из забавных экспериментов создатели WaveNet использовали корпус, состоящий из записей фортепианных концертов. Обученная на таком корпусе модель сочиняла своеобразные музыкальные импровизации.

Поделиться:
Популярные книги

Выйду замуж за спасателя

Рам Янка
1. Спасатели
Любовные романы:
современные любовные романы
7.00
рейтинг книги
Выйду замуж за спасателя

Эволюционер из трущоб. Том 5

Панарин Антон
5. Эволюционер из трущоб
Фантастика:
попаданцы
аниме
фэнтези
фантастика: прочее
5.00
рейтинг книги
Эволюционер из трущоб. Том 5

Сумеречный стрелок 6

Карелин Сергей Витальевич
6. Сумеречный стрелок
Фантастика:
городское фэнтези
попаданцы
аниме
5.00
рейтинг книги
Сумеречный стрелок 6

Кодекс Крови. Книга VI

Борзых М.
6. РОС: Кодекс Крови
Фантастика:
фэнтези
попаданцы
аниме
5.00
рейтинг книги
Кодекс Крови. Книга VI

Бастард Императора

Орлов Андрей Юрьевич
1. Бастард Императора
Фантастика:
фэнтези
аниме
5.00
рейтинг книги
Бастард Императора

Архонт

Прокофьев Роман Юрьевич
5. Стеллар
Фантастика:
боевая фантастика
рпг
7.80
рейтинг книги
Архонт

Собрание сочинений В. К. Арсеньева в одной книге

Арсеньев Владимир Клавдиевич
5. Абсолют
Приключения:
исторические приключения
5.00
рейтинг книги
Собрание сочинений В. К. Арсеньева в одной книге

Хранители миров

Комаров Сергей Евгеньевич
Фантастика:
юмористическая фантастика
5.00
рейтинг книги
Хранители миров

i f36931a51be2993b

Admin
Старинная литература:
прочая старинная литература
5.00
рейтинг книги
i f36931a51be2993b

Господин следователь. Книга 2

Шалашов Евгений Васильевич
2. Господин следователь
Фантастика:
попаданцы
альтернативная история
5.00
рейтинг книги
Господин следователь. Книга 2

Служанка. Второй шанс для дракона

Шёпот Светлана
Любовные романы:
любовно-фантастические романы
5.00
рейтинг книги
Служанка. Второй шанс для дракона

Комсомолец 2

Федин Андрей Анатольевич
2. Комсомолец
Фантастика:
попаданцы
альтернативная история
7.50
рейтинг книги
Комсомолец 2

Ваше Сиятельство 3

Моури Эрли
3. Ваше Сиятельство
Фантастика:
фэнтези
попаданцы
аниме
5.00
рейтинг книги
Ваше Сиятельство 3

Вперед в прошлое 5

Ратманов Денис
5. Вперед в прошлое
Фантастика:
попаданцы
альтернативная история
5.00
рейтинг книги
Вперед в прошлое 5