Охота на электроовец. Большая книга искусственного интеллекта, Марков Сергей Николаевич

Охота на электроовец. Большая книга искусственного интеллекта

на обложку

Марков Сергей Николаевич

Шрифт:

После того как устройство было собрано, мальчики провели ряд экспериментов и решили устроить большое испытание. Они вытащили машину на общую лестницу и заставили её кричать. Позже Белл писал, что «она действительно издавала звуки, подобные крику ребёнка, попавшего в беду. Крики „Мама, мама!“ производили душераздирающий эффект. Мы слышали, как кто-то сверху сказал: „Боже милостивый, что случилось с этим ребёнком?“, а затем послышались шаги. Это, конечно, было именно то, чего мы добивались. Мы тихо проскользнули домой и закрыли дверь, оставив нашим соседям бесплодные поиски ребёнка. Это был момент нашей радости и триумфа». Хотя позже Александр и признавал, что он и Мелвилл «больше хотели удивить своих друзей странными эффектами, чем достичь научной точности», долгие часы, потраченные на создание машины, окупились годы спустя. Отец поощрял участие сыновей в проекте, зная, что в процессе работы над ним они узнают, как образуются звуки человеческого голоса, и также познают ценность упорства. «Много раз мы были расстроены и разочарованы нашими трудами и готовы были отказаться от всего этого с отвращением», — писал Александр позже. В конечном итоге мальчики поняли «важность настойчивости и постоянных усилий, предпринимаемых несмотря на неудачу».

На седьмом десятке жизни, в 1909 г., Белл писал: «Создание этой говорящей машины, безусловно, стало важным моментом в моей карьере. Оно познакомило меня с функциями голосовых связок и направило меня по пути, ведущему к телефону» [2337] .

2337

Grosvenor E. S., Wesson M. (2016). Alexander Graham Bell. New Word City // https://books.google.ru/books?id=zDcoDAAAQBAJ

Так или иначе, во второй половине XIX в. создание устройства для синтеза речи, основанного на моделировании работы речевого тракта человека, стало задачей, которая была по плечу даже неопытным юношам. Конечно, качество такой речи оставляло желать лучшего, а ряд нюансов требовал ещё научного объяснения. В начале XX в. попытку систематизации знаний в этой области предпринял Ричард Пейджет, который создал набор пластилиновых резонаторов, производивших гласные звуки. Работа Пейджета базировалась на исследованиях Уитстона и проделанных в 1860-е гг. наблюдениях Гельмгольца, который установил, что все гласные звуки основаны на двух одновременно возникающих резонансах речевого тракта.

Резонансы, обнаруженные Гельмгольцем, соответствуют двум первым формантам человеческой речи — F0 и F1 (напомним, что форманта — это концентрация акустической энергии вокруг определённой частоты в речевой волне, а нумерация их идёт снизу вверх, начиная от самой низкой частоты). Идея синтеза речи, основанного на наложении друг на друга нескольких колебательных процессов, оказалась удобной для реализации в электрических устройствах. Первый электрический синтезатор формант, по всей видимости, был построен молодым физиком из Принстона Джоном Стюартом в 1922 г. В его устройстве два колебательных контура возбуждались зуммером, что позволяло синтезировать приближения гласных звуков, подстраивая резонансные частоты к двум самым нижним формантам для каждого гласного. Сам Стюарт, впрочем, никогда не называл своё устройство синтезатором речи или синтезатором формант [2338] . Статья с описанием его изобретения, опубликованная в Nature, называется «Электрический аналог голосовых органов» (An Electrical Analogue of Vocal Organs) [2339] . Устройство Стюарта не могло синтезировать полноценную речь, поэтому сегодня его называют «статическим синтезатором формант» [2340] .

2338

Klatt D. H. (1987). Review of text-to-speech conversion for English / Journal of the Acoustical Society of America 82 (3), September 1987 // https://amhistory.si.edu/archives/speechsynthesis/dk_737a.htm

2339

Stewart J. Q. (1922). An Electrical Analogue of the Vocal Organs / Nature, Vol. 110, pp. 311—312 // https://doi.org/10.1038/110311a0

2340

Katz W. F., Assmann P. F. (2019). The Routledge Handbook of Phonetics. Routledge // https://books.google.ru/books?id=rCiNDwAAQBAJ

В конце 1930-х гг. компания Bell Telephone Laboratories, наследница лаборатории, созданной Александром Беллом, разработала VODER (Voice Operation DEmonstratoR, Демонстратор действия голоса) — систему синтеза речи, состоявшую из генератора, производившего колебания и симулировавшего голосовую составляющую; генератора шума, необходимого для имитации звука выдыхаемого воздуха; набора электронных фильтров (устройств для выделения желательных компонентов спектра электрического сигнала и/или подавления нежелательных), воспроизводивших резонансные характеристики речевого тракта, и громкоговорителя, преобразующего электрический сигнал в результирующие звуковые колебания. Таким образом, VODER стал первой системой для электронного синтеза человеческой речи, основанной на разбиении её на различные акустические компоненты. Работа над системой VODER стала для его создателя, Хомера Дадли, ответвлением проекта по созданию «вокодера» [vocoder, от voice — голос и encoder — кодировщик] — устройства, предназначенного для разложения речи на компоненты, которые могут быть представлены в компактном виде, например, для записи или передачи по каналам связи, а также последующего восстановления исходной речи из её компактного представления. Успехи в работе над вокодером привели к появлению идеи создания управляемой человеком версии синтезатора речи. Она и нашла воплощение в VODER’е. Его речь была не слишком качественной, но вполне разборчивой.

VODER стал прообразом систем так называемого параметрического синтеза речи (Parametric Speech Synthesis), то есть систем, в которых синтез осуществляется за счёт подбора параметров колебательного процесса, в результате чего образуются необходимые звуки. Альтернативой параметрического является «конкатенативный синтез» [concatenation synthesis] — подход, основанный на построении речи из заготовленного набора фонетических «кирпичиков» — фонем или их сочетаний. При компьютерном синтезе речи с вычислительной точки зрения второй подход существенно проще, однако его слабым местом является проблема соединения фонетических элементов — в местах их стыков возникают неестественные переходы, которые отрицательно влияют на качество синтетической речи. Кроме того, сами фонетические элементы в реальной человеческой речи не являются полностью идентичными, их длительность, высота различных гармоник и громкость могут немного различаться в зависимости от различных обстоятельств — фонетического контекста, силы экспирации (т. е. силы, с которой выдыхается воздух; та же, в свою очередь, может зависеть от того, как давно был осуществлён вдох), интонации и так далее. Впрочем, если задача заключается в том, чтобы сделать синтетическую речь просто разборчивой, а не максимально близкой к речи человека, то конкатенативный синтез прекрасно справляется с задачей, особенно в случае языков, не являющихся тоновыми [2341] .

2341

В тоновых языках высота звука является смыслоразличительной компонентой; различные тоновые единицы, имеющие смыслоразличительную функцию в таких языках, иногда называют тонемами по аналогии с фонемами; к числу тоновых относятся китайский и некоторые другие азиатские языки.

В 1940-е и 1950-е гг. было создано немало интересных экспериментальных устройств для синтеза речи. Например, в «Лаборатории Хаскинса» (Haskins Laboratories), независимой некоммерческой исследовательской корпорации, учреждённой в 1935 г. учёным и филантропом Кэрилом Паркером Хаскинсом и физиком Франклином Купером, был разработан синтезатор под названием «Проигрыватель образов» (Pattern Playback), который умел преобразовывать спектрограммы, начерченные на протягиваемой устройством прозрачной плёнке, в звук, что позволяло получить вполне разборчивое воспроизведение звуков человеческой речи [2342] .

2342

В те же годы продолжались активные работы над вокодерами, однако детали этих исследований до сих пор недостаточно хорошо изучены, поскольку многие из них были скрыты завесой секретности. Вокодеры активно использовались в системах правительственной связи, поэтому сведения о многих работах в этой области собирались нередко из весьма сомнительных источников. Например, основным источником информации для зарубежных исследователей истории советских вокодеров стал роман Солженицына «В круге первом», в котором приводятся некоторые подробности о работе автора в «шарашке» [2343] , занимавшейся проблемами анализа и кодирования речи [2344] , [2345] , [2346] . Однако в романе содержится множество исторических несоответствий, что ставит под сомнение его ценность в качестве исторического источника.

2343

* Разговорное название конструкторских бюро, в которых работали осуждённые учёные и инженеры.

2344

Калиев А., Рыбин С. В. (2019). Синтез речи: прошлое и настоящее / Компьютерные инструменты в образовании. № 1. С. 5—28 // https://doi.org/10.32603/2071-2340-2019-1-5-28

2345

Солженицын А. И. (1971). В круге первом. Posev // https://books.google.ru/books?id=6T1gAAAAMAAJ

2346

История предприятия / Концерн Автоматика // https://ao-avtomatika.ru/about/istoriya/

В действительности история советских вокодеров началась задолго до описываемых Солженицыным событий. Их создание связано с именем выдающегося советского учёного Владимира Александровича Котельникова. В 1939 г. Котельникову, к тому моменту уже имевшему опыт создания аппаратуры для шифрования данных в телеграфном канале, была поручена задача создания шифратора для речевых сигналов для правительственной высокочастотной связи. К тому моменту в Советском Союзе уже использовались системы шифрования речевого сигнала, однако они были основаны на сравнительно примитивных техниках, таких как синхронное изменение (по определённому закону) несущей частоты на приёмнике и передатчике или же применение инверторов (устройств, производящих замену частот в сигнале). Такие устройства могли защитить от примитивного подслушивания, однако не обладали устойчивостью к дешифровке. Для достижения такой устойчивости было необходимо создать принципиально новые устройства. Для этой цели и была создана лаборатория под руководством Котельникова [2347] , сменившая в процессе своего существования множество названий [2348] . Вместе с Котельниковым над решением задачи работали радиофизик и инженер Александр Минц, инженеры Константин Егоров и Виктор Виторский и другие специалисты в области аппаратуры связи. Позже к работам подключилась группа специалистов, ранее занимавшаяся решением этой же задачи на ленинградском заводе «Красная Заря».

2347

Гребенников В. В. (2017). Криптология и секретная связь. Сделано в СССР // https://books.google.ru/books?id=TmFADwAAQBAJ

2348

Тихонов С. Г. (2010). Оборонные предприятия СССР и России. — М.: «ТОМ» // https://oboron-prom.ru/page,38,predpriyatiya-41-60.html

Именно в процессе работ над устройством для шифрования речи (к слову сказать, оно получило название «Соболь-П») Котельников и создал первый в СССР вокодер, основанный на выделении основного тона речи. Вот что писал по этому поводу сам Котельников:

Для того чтобы было труднее расшифровать передаваемую речь, было важно сделать «отрезки», на которые мы её разбивали, как можно короче. А это проблема потому, что тогда ухудшается качество передаваемой речи. Я стал думать, как бы передавать речь не всю полностью, а как-то сжать её спектр. Начал рассматривать спектр звуков, чтобы понять, какие частоты определяющие…

В это время попалась на глаза ссылка на статью Хомера Дадли, опубликованную в октябре 1940 года, где говорилось, что он сделал преобразователь речи — «вокодер». Бросился смотреть, а оказалось, что там ничего конкретного не написано. Но всё равно это было очень полезно: идея у него та же, значит, мы на правильном пути. В общем, мы начали делать свой «вокодер». И перед самой войной у нас уже работал его опытный образец. Правда, пока он ещё «говорил» плохо, «дрожащим голосом» [2349] .

2349

Гребенников В. В. (2017). Криптология и секретная связь. Сделано в СССР // https://books.google.ru/books?id=TmFADwAAQBAJ