Чтение онлайн

на главную - закладки

Жанры

Охота на электроовец. Большая книга искусственного интеллекта
Шрифт:

Потенциальный недостаток дифонного подхода заключается в том, что в середине гласных могут возникать разрывы, связанные с тем, что в двух примыкающих дифонах гласные могут быть слишком сильно видоизменены под воздействием коартикуляционных эффектов. Например, при произнесении первого согласного звука в слове wet, происходит округление губ (так называемая лабиализация), что приводит к изменению гласного звука, распространяющемуся куда дальше, чем середина фонемы.

Некоторое сглаживание на границах дифона минимизирует воспринимаемые на слух последствия фактических разрывов формант, но несовпадение половинок гласных не так уж просто компенсировать. Существуют и другие коартикуляционные проблемы, что придаёт синтезированной на основе дифонов речи некоторую неестественность, хотя она в целом вполне разборчива.

Первая дифонная система, разработанная Норманом Диксоном и Дэвидом Макси, была впервые продемонстрирована в 1967 г. на ICSCP. Авторы потратили много лет, чтобы методом проб и ошибок оптимизировать набор дифонов. Однако и этот проект не был доведён до конца — и, как у Мэттингли, не по техническим,

а по деловым причинам.

В 1978 г. Осаму Фуджимура и Джули Лавинс предложили в качестве альтернативы дифонам использование полуслогов [demisyllables]. Правила разбиения слогов, предложенные авторами, позволили обойтись для английского языка примерно тысячей полуслогов. Преимущество полуслогов заключается в том, что кластеры согласных внутри слогов, в большой степени подверженные эффектам коартикуляции, становятся отдельными единицами при синтезе. Однако данный подход не позволяет эффективно решить проблему межслоговой коартикуляции. Первая программа, основанная на этом подходе, была продемонстрирована Кэтрин Браумен в 1980 г. [2368]

2368

Klatt D. H. (1987). Review of text-to-speech conversion for English / Journal of the Acoustical Society of America 82 (3), September 1987 // https://amhistory.si.edu/archives/speechsynthesis/dk_737a.htm

Помимо дифонов и полуслогов, предлагались и другие схемы фонетической сегментации, что привело в итоге к появлению конкатенативных систем с динамическим выбором сегментов. Как правило, деление на сегменты выполняется с использованием специально модифицированных для этой цели систем распознавания речи, работающих в режиме «принудительного выравнивания» [forced alignment] (в котором для каждой фонемы определяется точное время её начала и окончания), с последующей ручной коррекцией полученных результатов. Полученные сегменты помещаются в базу данных вместе с их параметрами (величина F0, длительность) и данными о контексте (положение в слоге, соседние фонемы и т. п.). Во время синтеза система, основываясь на текущем контексте, выбирает из базы наиболее подходящие сегменты (для этого используется модель-классификатор) с тем, чтобы выстроить наилучшую их цепочку.

Именно этот метод, получивший название «метод выбора элементов» [unit selection], в середине 2010-х гг. был наиболее популярным для синтеза речи на европейских языках. Он обеспечивал наилучшее качество синтетической речи, хотя в массовых тестах заметно уступал предзаписанным образцам реальной человеческой речи. Поэтому довольно широкое распространение получили также специализированные системы синтеза, предназначенные для тех или иных узкоспецифических задач. Например, если вам нужно продиктовать человеку набор цифр, то можно просто использовать предзаписанные названия цифр, нормализованные по темпу, громкости и фундаментальной частоте (F0). Конечно, интонации такой системы будут не слишком естественными, однако результат будет разборчивым и в произношении не будет дефектов. Можно также использовать предзаписанные названия аэропортов и железнодорожных станций для систем синтеза речи, используемых на транспорте. Диалоговые системы, работающие по несложным сценариям, могут быть полностью выстроены на предзаписанных образцах реплик. В целом создатели прикладных голосовых систем хорошо выучили один из главных законов инженерного искусства: не следует забивать гвозди микроскопом, особенно если под руками есть молоток.

6.4.5 Развитие параметрического синтеза речи

Впрочем, системы параметрического синтеза также не стояли на месте. В середине 2010-х гг. их наиболее продвинутой версией стали системы статистического параметрического синтеза (Statistic Parametric Speech Synthesis, SPSS), основанные на скрытых марковских моделях (Hidden Markov Models, HMM).

Сам метод SPSS был предложен в работе [2369] Такаёси Ёсимуры, увидевшей свет в 1999 г., и впоследствии подвергнут ряду доработок и усовершенствований в работах других исследователей. Идея заключается в том, что речь может быть представлена в виде фрагментов, каждый из которых описывается следующим набором параметров: длительность, величина F0, а также набор мел-кепстральных коэффициентов, описывающих спектральные характеристики голоса (форманты, помимо F0). Используя эти параметры, можно сгенерировать последовательность амплитуд звукового сигнала. Собственно, алгоритм, преобразующий звуковой сигнал в подобный набор параметров, а затем способный восстановить из них сигнал, близкий по форме к исходному, называется, как вы уже, наверное, догадались, вокодером. Ёсимура и его коллеги использовали в качестве вокодера алгоритм под названием MLSA (Mel Log Spectrum Approximation, Мел-логспектральная аппроксимация) [2370] . Существенно сократив за счёт применения вокодера число параметров, необходимых для описания звукового сигнала, Ёсимура с коллегами использовали комбинацию деревьев решений и скрытой марковской модели для того, чтобы предсказывать изменение этих параметров во времени в зависимости от последовательности фонем, поступающих на вход модели.

2369

Yoshimura T., Tokuda K., Masukoy T., Kobayashiy T., Kitamura T. (1999). Simultaneous modeling of spectrum, pitch and duration in HMM-based speech synthesis // http://www.sp.nitech.ac.jp/~zen/yossie/mypapers/euro_hungary99.pdf

2370

Imai S., Sumita K., Furuichi C. (1983). Mel Log Spectrum Approximation (MLSA) Filter for Speech Synthesis / Electronics and Communications in Japan, Vol. 66-A, No. 2, 1983 // https://doi.org/10.1002/ecja.4400660203

Здесь

самое время сделать небольшое отступление и рассказать об этих моделях.

Дерево решений — это одна из простейших моделей, используемых в машинном обучении. В таком дереве каждый узел, кроме терминальных, представляет собой некоторое условие, а терминальные узлы содержат решение модели. Чтобы узнать решение модели для некоторого прецедента, мы начинаем свой путь из корня дерева, а затем, в зависимости от того, соблюдается или нет записанное в текущем узле условие, перемещаемся на уровень ниже — в левое или правое поддерево. Дойдя таким образом до терминального узла, мы выбираем из него ответ модели.

Рис. 139. Пример дерева решений

С марковскими моделями дело обстоит несколько сложнее. Для начала представим себе некоторый случайный процесс, то есть некоторый набор пронумерованных случайных величин. Например, процесс последовательного подбрасывания игрового кубика можно рассматривать как случайный: каждый бросок приводит к выпадению некоторого числа (случайной величины), при этом все броски можно пронумеровать (первый бросок, второй бросок и т. д.). Напомним, что закономерность, описывающая область возможных значений случайной величины и вероятности появления этих значений, называется распределением вероятностей случайной величины. Для идеального и честного (не шулерского) игрального кубика с шестью гранями результат броска (будем считать, что кубик не может задержаться на ребре, углу или зависнуть в воздухе) — это дискретная случайная величина (т. е. такая случайная величина, множество возможных значений которой конечно или хотя бы счётно; в нашем случае оно конечно — у кубика всего шесть граней) с равномерным распределением (все варианты выпадения равновероятны, и вероятность каждого составляет ровно 1/6). Роль игрального кубика мог бы выполнять любой другой генератор случайных чисел, при этом случайные величины, производимые на свет таким генератором, вовсе не обязаны быть дискретными или распределёнными равномерно, но мы для простоты иллюстрации будем использовать игральные кубики.

Немного усложним наш процесс и представим себе, что у нас на самом деле имеется не один, а некоторое конечное (или хотя бы счётное) количество игральных кубиков, уложенных в шкатулку. Среди них есть кубики с разным числом граней (например, с 4, 6, 8, 12, 20), на гранях этих кубиков написаны разные числа (необязательно от единицы до числа граней, а например: 1, 1, 2, 4 на кубике с четырьмя гранями и т. п.), некоторые кубики мошеннические (вероятность выпадения каких-то из их граней больше). После каждого броска мы возвращаем кубик в шкатулку и для следующего броска берём оттуда другой. Следовательно, распределение случайной величины во время броска под номером t будет зависеть от того, какой кубик будет в этот момент у нас в руках. Номер этого кубика i мы будем называть текущим состоянием процесса. Таким образом, наш процесс на каждом шаге t находится в некотором состоянии i и генерирует некоторую случайную величину, распределение которой зависит только от i.

Теперь обратим внимание на ещё одну важную деталь нашего процесса, а именно на принцип выбора следующего кубика в шкатулке. Если этот принцип зависит только от того, какой кубик находится у нас в руках сейчас, и того, какое число выпадет в результате его броска, то наш процесс будет называться марковским процессом, то есть случайным процессом, эволюция которого после любого заданного значения временного параметра t не зависит от эволюции, предшествовавшей t, при условии что значение процесса в этот момент фиксировано (т. е. «будущее» процесса не зависит от «прошлого» при известном «настоящем», или, иными словами, «будущее» процесса зависит от «прошлого» лишь через «настоящее»).

В марковских процессах ни время, ни случайные величины, ни состояния процесса вовсе не обязаны быть дискретными, однако эту разновидность особой уличной магии мы оставим авторам специализированных курсов по математической статистике. Частным случаем марковского процесса, если все эти параметры дискретны, является так называемая марковская цепь нулевого порядка. Помимо цепей нулевого порядка, существуют ещё и марковские цепи высших (первого, второго и т. д.) порядков, в которых следующее состояние зависит не только от текущего, но и от одного, двух и так далее предыдущих значений. Когда мы используем термин «скрытая марковская модель», мы обычно предполагаем, что анализируемая нами последовательность является продуктом последовательных случайных событий, генерируемых некоторой марковской цепью, однако мы не знаем, в каком именно состоянии находилась цепь на каждом из шагов. Для прогнозирования значений мы пытаемся выявить структуру порождающей модели при помощи статистических методов. Со времени своего появления марковские модели активно использовались, в частности для анализа закономерностей появления символов в текстах. Модели, основанные на n– граммах, а также конечные автоматы являются наследниками марковских моделей. В некотором роде анализ марковских цепей и процессов стал важным элементом математического фундамента, на котором затем было возведено здание машинного обучения.

Поделиться:
Популярные книги

Начальник милиции. Книга 4

Дамиров Рафаэль
4. Начальник милиции
Фантастика:
попаданцы
альтернативная история
5.00
рейтинг книги
Начальник милиции. Книга 4

В погоне за женой, или Как укротить попаданку

Орлова Алёна
Фантастика:
фэнтези
6.62
рейтинг книги
В погоне за женой, или Как укротить попаданку

Кодекс Охотника. Книга XXI

Винокуров Юрий
21. Кодекс Охотника
Фантастика:
фэнтези
попаданцы
аниме
5.00
рейтинг книги
Кодекс Охотника. Книга XXI

Кодекс Охотника. Книга VIII

Винокуров Юрий
8. Кодекс Охотника
Фантастика:
фэнтези
попаданцы
аниме
5.00
рейтинг книги
Кодекс Охотника. Книга VIII

По осколкам твоего сердца

Джейн Анна
2. Хулиган и новенькая
Любовные романы:
современные любовные романы
5.56
рейтинг книги
По осколкам твоего сердца

Завод-3: назад в СССР

Гуров Валерий Александрович
3. Завод
Фантастика:
попаданцы
альтернативная история
5.00
рейтинг книги
Завод-3: назад в СССР

Газлайтер. Том 3

Володин Григорий
3. История Телепата
Фантастика:
попаданцы
альтернативная история
аниме
5.00
рейтинг книги
Газлайтер. Том 3

Отец моего жениха

Салах Алайна
Любовные романы:
современные любовные романы
7.79
рейтинг книги
Отец моего жениха

Слабость Виктории Бергман (сборник)

Сунд Эрик Аксл
Лучший скандинавский триллер
Детективы:
триллеры
прочие детективы
6.25
рейтинг книги
Слабость Виктории Бергман (сборник)

Игра на чужом поле

Иванов Дмитрий
14. Девяностые
Фантастика:
попаданцы
альтернативная история
5.50
рейтинг книги
Игра на чужом поле

Отчий дом. Семейная хроника

Чириков Евгений Николаевич
Проза:
классическая проза
5.00
рейтинг книги
Отчий дом. Семейная хроника

Я тебя не предавал

Бигси Анна
2. Ворон
Любовные романы:
современные любовные романы
5.00
рейтинг книги
Я тебя не предавал

Кодекс Крови. Книга IV

Борзых М.
4. РОС: Кодекс Крови
Фантастика:
фэнтези
попаданцы
аниме
5.00
рейтинг книги
Кодекс Крови. Книга IV

Скандальный развод, или Хозяйка владений "Драконье сердце"

Милославская Анастасия
Фантастика:
попаданцы
фэнтези
5.00
рейтинг книги
Скандальный развод, или Хозяйка владений Драконье сердце