Охота на электроовец. Большая книга искусственного интеллекта
Шрифт:
Развитие аналоговых систем связи привело к дальнейшему совершенствованию применяемых в них вокодеров. Преобразование речи в сигнал, устойчивый к различным типам помех и дешифровке, с последующим восстановлением по нему исходной речи — задача, имеющая большое прикладное значение, и в XX в. исследованиями в этой области занимались многие талантливые учёные, о работе которых можно было бы написать не одну сотню страниц. Но это имеет лишь косвенное отношение к истории обретения машинами собственного голоса. И новая глава в этой истории начинается с первыми опытами по синтезу речи при помощи электронных вычислительных машин.
6.4.3 Синтез речи на ЭВМ и его применение
Электронные вычислительные машины научились воспроизводить звуки ещё на заре своего существования (об этом коротко упоминалось в подглаве, посвящённой шашечной программе Кристофера Стрейчи), и первые эксперименты по компьютерному синтезу речи были начаты уже в 1950-е гг.
Первая программа синтеза на основе правил, способная синтезировать речь из фонематического представления, была, что вполне ожидаемо, создана в недрах Bell Laboratories. Её написали Джон Келли, Кэрол Лохбаум и Лу Герстман в первой половине 1960-х гг. для компьютера IBM 704. Исследователи использовали синтезатор с тремя формантами. Хотя длительности и форма кривой F0 были скопированы из естественной речи, а также в некоторых
Свидетелем этой демонстрации стал Артур Кларк, приглашённый в Bell Laboratories своим другом, инженером и фантастом Джоном Пирсом. Кларк был настолько впечатлён увиденным, что использовал машинное исполнение Daisy Bell в одной из наиболее ярких сцен своего романа и сценария фильма «2001 год: Космическая одиссея», увидевшего свет в 1968 г. Именно эту песню поёт компьютер HAL 9000 перед тем, как астронавт Дейв Боуман окончательно отключит его [2350] , [2351] , [2352] , [2353] .
2350
Smith III J. O. (2010). Physical Audio Signal Processing. W3K Publishing // https://ccrma.stanford.edu/~jos/pasp/Singing_Kelly_Lochbaum_Vocal_Tract.html
2351
O’Dell C. (2009). “Daisy Bell (Bicycle Built for Two)” — Max Mathews, John L. Kelly, Jr., and Carol Lochbaum (1961) // https://www.loc.gov/static/programs/national-recording-preservation-board/documents/DaisyBell.pdf
2352
Facetti P. (2014). IBM 704 — Speech Synthesis. Daisy Bell on IBM 7094 / Aneddotica magazine, Sep. 11, 2014 // https://www.aneddoticamagazine.com/ibm-704-speech-synthesis/
2353
Mattingly I. G. (1974). Speech synthesis for phonetic and phonological models / Sebeok T. A. (1974). Current trends in linguistics, Vol. 12, Mouton, The Hague, pp. 2451—2487 / Smithsonian Speech Synthesis History Project // https://amhistory.si.edu/archives/speechsynthesis/im_2457.htm
Первая полноценная компьютерная система для преобразования текста в речь (text-to-speech, TTS) была продемонстрирована в 1968 г. на VI Международном конгрессе по акустике в Токио [2354] , [2355] , [2356] , [2357] . Её создательницей была Норико Умеда из Электротехнической лаборатории (Electrotechnical Laboratory, ETL) в Японии. Созданная Умедой и её коллегами система предназначалась для синтеза английской речи и была основана на артикуляционной модели (т. е. на моделировании работы речевого тракта и артикуляционного процесса). Система включала в себя модуль синтаксического анализа текста, основанный на довольно сложных эвристиках. Спустя год Норико Умеда стала сотрудницей Bell Laboratories, где объединила усилия с инженером Сесилом Кокером и лингвистом Кэтрин Браумен для работы над первой TTS-системой Bell Laboratories. Работа системы была продемонстрирована на Международной конференции по речевым коммуникациям и обработке речи (International Conference of Speech Communication and Processing, ICSCP) в 1972 г. [2358] , [2359] , [2360]
2354
Klatt D. H. (1987). Review of text-to-speech conversion for English / Journal of the Acoustical Society of America 82 (3), September 1987 // https://amhistory.si.edu/archives/speechsynthesis/dk_757.htm
2355
Umeda N., Teranishi R. (1975). The parsing program for automatic text-to-speech synthesis developed at the electrotechnical laboratory in 1968 / IEEE Transactions on Acoustics, Speech, and Signal Processing, Vol. 23, Iss. 2 // https://doi.org/10.1109/TASSP.1975.1162663
2356
Teranishi R., Umeda N. (1968). Use of pronouncing dictionary in speech synthesis experiments (B-5-2) / Reports of the 6th International Congress on Acoustics, Vol. 2, pp. 151—155 // https://www.icacommission.org/Proceedings/ICA1968Tokyo/ICA06%20Proceedings%20Vol2%20OCR.pdf
2357
Umeda N., Matsui E., Suzuki T., Omura H. (1968). Synthesis of fairy tales using vocal tract (B-5-3). Reports of the 6th International Congress on Acoustics, Vol. 2, pp. 155—159 // https://www.icacommission.org/Proceedings/ICA1968Tokyo/ICA06%20Proceedings%20Vol2%20OCR.pdf
2358
Klatt D. H. (1987). Review of text-to-speech conversion for English / Journal of the Acoustical Society of America 82 (3), September 1987 // https://amhistory.si.edu/archives/speechsynthesis/dk_757.htm
2359
Coker C. H., Umeda N., Browman C. P. (1973). Automatic synthesis from ordinary English text / IEEE Transactions on Audio Electroacoustics, Vol. 21, pp. 293—297.
2360
Gold B., Morgan N., Ellis D. (2011). Speech and Audio Signal Processing: Processing and Perception of Speech and Music. John Wiley & Sons // https://books.google.ru/books?id=M1TM8-GA_YkC
В 1970-е гг. по мере удешевления и миниатюризации вычислительной техники задача компьютерного синтеза речи постепенно переходит из разряда теоретических в прикладную область. Например, появляются первые проекты систем, предназначенных для помощи незрячим и слабовидящим людям. Самый ранний из них был предпринят в начале 1970-х гг. лингвистом Игнациусом Мэттингли из Лабораторий Хаскинса. Помимо набора правил для транскрипции слов в последовательность фонем, Мэттингли использовал
2361
Nye P. W., Cooper F. S. (2007). Haskins Laboratories / Smithsonian Speech Synthesis History Project (SSSHP), 1986—2002 // https://amhistory.si.edu/archives/speechsynthesis/ss_hask.htm
2362
Cooper F. S., Gaitenby J. H., Mattingly I. G., Nye P. W., Sholes G. N. (1973). Audible outputs of reading machines for the blind. Status Report on Speech Research SR-35/36, Haskins Laboratories, New Haven, CT // http://www.haskins.yale.edu/SR/SR028/SR028_10.pdf
2363
Cooper F. S., Gaitenby J. H., Nye P. W. (1984). Evolution of Reading Machines for the Blind: Haskins Laboratories' Research as a Case History / Journal of Rehabilitation Research & Development, Vol. 21 (1), pp. 51—87 // https://pubmed.ncbi.nlm.nih.gov/6396402/
2364
Klatt D. H. (1987). Review of text-to-speech conversion for English / Journal of the Acoustical Society of America 82 (3), September 1987 // https://amhistory.si.edu/archives/speechsynthesis/dk_753.htm
Подобные работы шли и в СССР. Первый русскоязычный синтезатор речи «Фонемофон-1» был создан в начале 1970-х гг. в Минске под руководством Бориса Лобанова. «Фонемофон-1» был способен не только синтезировать русскую речь, но и читать введённый текст на нескольких иностранных языках, а также синтезировать пение. В основу работы синтезатора был положен формантный метод [2365] .
2365
Калиев А., Рыбин С. В. (2019). Синтез речи: прошлое и настоящее / Компьютерные инструменты в образовании. № 1. С. 5—28 // https://doi.org/10.32603/2071-2340-2019-1-5-28
Первым серийным синтезатором речи в СССР стал цифровой «Фонемофон-4», выпуск которого был начат в середине 1980-х гг. В «Фонемофоне-5» на смену формантному методу синтеза пришёл новый, микроволновой метод синтеза речевых сигналов (при его использовании речь конструируется из элементов, являющихся отдельными периодами звуковых волн, составляющих звуковой сигнал) [2366] . Этот синтезатор до сих пор нередко используется незрячими пользователями ЭВМ, поскольку он стал частью русскоязычной версии системы JAWS (Job access with speech, Доступ к работе при помощи речи) — одного из наиболее популярных в мире средств чтения с экрана. JAWS позволяет незрячему или слабовидящему пользователю слышать текст, отображаемый на экране компьютера, либо воспринимать его при помощи дисплея Брайля.
2366
Лобанов Б. М. (2017). «Мультифон» — система персонализированного синтеза речи по тексту на славянских языках / Лингвистическая полифония. Сборник статей в честь юбилея профессора Р. К. Потаповой // https://books.google.ru/books?id=lmmPCgAAQBAJ
6.4.4 Развитие конкатенативного синтеза речи
Параллельно с различными разновидностями параметрического синтеза речи исследователи активно изучали возможности конкатенативного подхода.
Конечно, можно попробовать собирать речь из отдельных фонем. Именно так поступили, например, авторы популярной системы синтеза речи «Говорун» для семейства советских ЭВМ серии БК. Авторам программы, Юрию Зальцману и Виктору Михайлову, удалось в 1989 г. по заданию Казахского общества слепых создать синтезатор речи размером всего около 8 килобайт [2367] . Однако качество такой речи, конечно, оставляло желать лучшего.
2367
Зальцман Ю., Михайлов В. (1991). БК-0010 — речь и слух: возможности и реальность / Информатика и образование. № 2. С. 93—97.
С лингвистической точки зрения привлекательной строительной единицей речи являются слоги, однако в английском языке их насчитывается более 10 000, и компьютеры 1950-х и даже 1960-х гг. не обладали достаточным объёмом оперативной памяти для хранения такого количества звуковых фрагментов и быстрой сборки из них речевых последовательностей. Прямолинейное использование в качестве строительных блоков отдельных фонем (в английском языке их около 40) потерпело неудачу из-за хорошо известных коартикуляционных эффектов, возникающих между соседними фонемами (мы уже обсуждали проблему коартикуляции в подглаве, посвящённой распознаванию речи).
Коартикуляционные воздействия ослабевают в акустическом центре фонемы, что побудило исследователя из Мичиганского университета (University of Michigan) (и выходца из Bell Laboratories) Гордона Петерсона и его коллег использовать так называемые дифоны, то есть строительным элементом речи становились акустические фрагменты, начинавшиеся с середины одной фонемы и заканчивающиеся в середине следующей. Попарные сочетания из 40 фонем порождали 40 x 40 = 1600 дифонов, при этом не все подобные сочетания встречаются в реальной речи. Однако поначалу Петерсон и его коллеги считали, что необходимо ещё учитывать разницу между ударными и безударными слогами, аллофоны (различные варианты фонем, обусловленные конкретным фонетическим контекстом) и необходимость отдельного хранения сочетаний «гласный — согласный — гласный». Ввиду этого мичиганские исследователи думали, что потребуется использование базы, состоящей из примерно 8000 элементов. К счастью, опыты показали, что число элементов можно уменьшить примерно в восемь раз без видимой потери качества звучания.
Перед бегущей
8. Легенды Вселенной
Фантастика:
научная фантастика
рейтинг книги
