Охота на электроовец. Большая книга искусственного интеллекта
Шрифт:
Рис. 141. Пример графика выравнивания
На современных GPU типа GTX 1080 или GTX 2080 модели, подобные «Такотрону», обычно начинают говорить менее чем через сутки после начала обучения, при этом более-менее надёжные результаты можно получить при наличии в обучающей выборке 10–20 часов качественных и аккуратно размеченных аудиозаписей.
Авторы «Такотрона» смогли воплотить в жизнь принцип одновременного решения сетью основной и вторичной задачи (генерация моделью и линейной, и мел-спектрограммы), до этого без особого успеха опробованный эдинбургскими исследователями. Как уже упоминалось выше, для реконструкции аудиосигнала из линейной спектрограммы используется преобразование Гриффина — Лима, названное в честь авторов статьи [2398] , в которой этот метод был первоначально описан, — Дэниэла Гриффина и Чжэ Су Лима. Дело в том, что для того, чтобы преобразовать спектрограмму обратно в последовательность амплитуд, нужно каким-то образом восстановить информацию о фазе каждого из колебаний, что не
2398
Griffin D. W., Lim J. S. (1984). Signal estimation from modified short-time Fourier transform / IEEE Transactions on Acoustics, Speech, and Signal Processing, Vol. 32, Iss. 2, pp. 236—243 // https://doi.org/10.1109/TASSP.1984.1164317
Результат оказался даже несколько хуже, чем у использованной авторами для сравнения конкатенативной модели (4,09 ± 0,119).
«Такотрон» не был первой моделью, основанной на подобных принципах. К моменту публикации препринта статьи его создателей, уже в числе материалов, заявленных для выступления на Международной конференции по обучению представлений (International Conference on Learning Representations, ICLR) в 2017 г., была статья [2399] Хосе Сотело и его коллег (среди которых был, между прочим, и Йошуа Бенджио), посвящённая описанию модели под названием Char2Wav, основанной на классической seq2seq-парадигме. Однако в Char2Wav вокодер SampleRNN [2400] обучался отдельно от основной модели, а классическая seq2seq-модель без модификаций, внесённых авторами «Такотрона», не позволила обеспечить столь же высокое качество синтеза.
2399
Sotelo J., Mehri S., Kumar K., Santos J. F., Kastner K., Courville A., Bengio Y. (2017). Char2Wav: end-to-end speech synthesis / International Conference on Learning Representations (ICLR-2017) // https://mila.quebec/wp-content/uploads/2017/02/end-end-speech.pdf
2400
Mehri S., Kumar K., Gulrajani I., Kumar R., Jain S., Sotelo J., Courville A., Bengio Y. (2016). SampleRNN: An Unconditional End-to-End Neural Audio Generation Model // https://arxiv.org/abs/1612.07837
В том же 2017 г., опередив примерно на месяц создателей «Такотрона», результаты своей работы над аналогичной моделью Deep Voice [Глубокий голос] опубликовали [2401] исследователи из компании Baidu, в числе которых был уже известный нам Эндрю Ын. В качестве вокодера авторы Deep Voice использовали собственную модифицированную версию WaveNet, позволяющую при некоторых параметрах достичь синтеза в реальном времени (или даже быстрее). Однако авторы Deep Voice обучали различные компоненты своей комплексной модели (модель G2P, т. е. grapheme-to-phoneme, модель длительности фонем и модель величины F0, а также вокодер) по отдельности, что дало основание создателям «Такотрона» назвать свою модель первой сквозной нейросетевой системой синтеза.
2401
Arik S. O., Chrzanowski M., Coates A., Diamos S., Gibiansky A., Kang Y., Li X., Miller J., Ng A., Raiman J., Sengupta S., Shoeybi M. (2017). Deep Voice: Real-time Neural Text-to-Speech // https://arxiv.org/abs/1702.07825
Сквозной нейросетевой системой синтеза можно было бы считать модель, предложенную ещё в 2016 г. Венфу Ваном и его коллегами, однако для её обучения необходимо было сначала получить выравнивания фонем для обучающего корпуса, что достигалось при помощи скрытой марковской модели.
И всё-таки «Такотрон» трудно назвать полностью сквозной нейросетевой системой синтеза речи. От полностью сквозной системы можно было бы ожидать, что она будет выполнять преобразование текста в последовательность амплитуд звукового сигнала без использования прямых и обратных спектральных преобразований, работая не в частотно-временном, а во временном пространстве. Все промежуточные преобразования такая модель будет осуществлять при помощи единой нейросетевой архитектуры.
В качестве шагов в этом направлении можно рассматривать появление таких моделей, как «Такотрон-2» (2018) [2402] (здесь место вокодера занял WaveNet, получающий на вход мел-спектрограмму речевого сигнала). Эта модель смогла существенно обойти в качестве синтеза не только свою предшественницу, но и конкатенативный синтез и WaveNet, получающий на вход лингвистические признаки речевого сигнала. Результаты экспериментов по оценке качества синтеза, опубликованные авторами «Такотрона-2», приведены в таблице ниже (для обучения всех моделей использовался тот же набор данных, что и в работе по первой версии «Такотрона»).
2402
Shen J., Pang R., Weiss R. J., Schuster M., Jaitly N., Yang Z., Chen Z., Zhang Y., Wang Y., Skerry-Ryan RJ, Saurous R. A., Agiomyrgiannakis Y., Wu Y. (2018). Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions // https://arxiv.org/abs/1712.05884
Как
Параллельно с этим развивались и другие системы — авторы Deep Voice ещё в 2017 г. «прикрутили» WaveNet к оригинальной версии «Такотрона» и продемонстрировали существенный прирост качества синтеза. Также они выпустили новую версию [2403] собственной модели, получившую название Deep Voice 2, и осуществили с ней эксперименты по обучению способности говорить сразу несколькими голосами [multi-speaker]. Дальнейшее развитие привело к созданию в последние годы новых моделей: VoiceLoop [2404] , Deep Voice 3, FastSpeech [2405] , Transformer TTS, различных модификаций «Такотрона-2» с современными нейросетевыми вокодерами. Они способны генерировать речь с качеством, практически неотличимым от естественной человеческой речи. При помощи таких моделей воссоздают голоса знаменитостей и артистов прошлого (ваш покорный слуга также является участником ряда подобных проектов — ещё в 2017 г. при помощи модели, основанной на «Такотрон» и «Такотрон-2», мы воссоздали голос Иннокентия Михайловича Смоктуновского), создают голоса виртуальных помощников и диалоговых систем, действующих в голосовых каналах.
2403
Arik S. O., Diamos G., Gibiansky A., Miller J., Peng K., Ping W., Raiman J., Zhou Y. (2017). Deep Voice 2: Multi-Speaker Neural Text-to-Speech // https://arxiv.org/abs/1705.08947
2404
Taigman Y., Wolf L., Polyak A., Nachmani E. (2017). VoiceLoop: Voice Fitting and Synthesis via a Phonological Loop // https://arxiv.org/abs/1707.06588
2405
Ren Y., Ruan Y., Tan X., Qin T., Zhao S., Zhao Z., Liu T.-Y. (2019). FastSpeech: Fast, Robust and Controllable Text to Speech / Advances in Neural Information Processing Systems 32 (NIPS 2019) // https://papers.nips.cc/paper/8580-fastspeech-fast-robust-and-controllable-text-to-speech
6.4.9 Направления новых исследований
Развитие технологий не стоит на месте, и сегодня исследования в области синтеза речи ведутся в нескольких направлениях. Рассмотрим некоторые из них.
Одним из важных требований, предъявляемых к TTS-системам, является возможность гибкого управления параметрами синтезируемой речи. Вот некоторые из таких параметров.
1. Темп речи. Для управления темпом речи могут использоваться алгоритмы семейства PSOLA (Pitch Synchronous Overlap and Add, Синхронное пересечение и добавление высот) [2406] , известные с конца 1980-х гг. Они позволяют изменить темп, не меняя тональность звука. Однако при существенном изменении темпа при помощи таких алгоритмов возможно появление слышимых звуковых артефактов, поэтому возможность задания темпа речи напрямую в TTS-модели является предпочтительным инструментом.
2406
Charpentier F., Stella M. (1986). Diphone synthesis using an overlap-add technique for speech waveforms concatenation / ICASSP '86. IEEE International Conference on Acoustics, Speech, and Signal Processing, Vol. 11, pp. 2015—2018 // https://doi.org/10.1109/ICASSP.1986.1168657
2. Ударения. Если текстовые метки в корпусе, используемом для обучения модели, не содержат в явном виде проставленных ударений, модель научится их ставить на собственное усмотрение. Проблема заключается в том, что в этой части она будет неуправляема. В случае если модель поставит при произнесении ударение в неправильном месте, у вас просто не будет инструмента для исправления этой ошибки. К счастью, эта проблема решается относительно просто — необходимо расставить ударения в тексте и обучить отдельную модель для расстановки ударений в случае их отсутствия.
3. Смысловые ударения. «Ты пойдёшь завтра со мной в кафе?», «Ты пойдёшь завтра со мной в кафе?», «Ты пойдёшь завтра со мной в кафе?», «Ты пойдёшь завтра со мной в кафе?», «Ты пойдёшь завтра со мной в кафе?» — эти вопросы не только имеют разные оттенки смысла, они различаются при произнесении вслух. Чтобы решить эту проблему, также необходима дополнительная разметка текстов.
4. Вопросительные и восклицательные интонации. В целом модели неплохо «понимают», как наличие восклицательного или вопросительного знака в конце предложения влияет на интонацию, с которой это предложение произносится. Однако для того, чтобы они выработали такое «понимание», в обучающей выборке должно быть достаточное количество вопросительных и восклицательных предложений. Кроме того, интонация в вопросительном предложении сильно зависит от смыслового ударения.
5. Протяжённость слогов и пение. Добавив к фонемам их длительность и тон, можно получить модель, способную не только разговаривать, но и петь. Поющие модели — одно из весьма популярных направлений исследований в наши дни. К числу таких моделей относятся, например, XiaoiceSing [2407] и Mellotron [2408] .
2407
Lu P., Wu J., Luan J., Tan X., Zhou L. (2020). XiaoiceSing: A High-Quality and Integrated Singing Voice Synthesis System // https://arxiv.org/abs/2006.06261
2408
Valle R., Li J., Prenger R., Catanzaro B. (2019). Mellotron: Multispeaker expressive voice synthesis by conditioning on rhythm, pitch and global style tokens // https://arxiv.org/abs/1910.11997