Охота на электроовец. Большая книга искусственного интеллекта
Шрифт:
Революция в компьютерном зрении существенно трансформирует многие отрасли общественной жизни, но было бы ошибкой думать, что она уже свершилась или близка к завершению. По всей видимости, длиться, захватывая и коренным образом меняя всё новые и новые стороны труда и быта, она будет ещё довольно долго, потому что создание и внедрение на базе экспериментальных систем действительно массовых продуктов и сервисов зачастую требует немалого времени и серьёзных ресурсов. Причём когда речь идёт об ИИ-технологиях, одни из важнейших необходимых ресурсов — это квалифицированные специалисты и качественно размеченные данные в необходимых объёмах. И именно они зачастую — в дефиците.
6.2.2 Распознавание звука
Офицер: Так, полное имя, фамилия?
Франтишек: Гжегош Бженчишчикевич.
Офицер:
Франтишек: Бженчишчикевич.
Офицер: …
Франтишек: Гжегош.
Офицер: Гжеш… Гщетек… Аущ… пщ… пщ… Гдеащ…
Франтишек: Бженчишчикевич.
Офицер: Заткни глотку! Мммм… (комкает бумагу) Ганс!
Ганс: Так точно!
Офицер: Ганс, запроси и напечатай протокол на машинке.
Ганс: Имя, фамилия?
Франтишек: Гжегош Бженчишчикевич.
Ганс: Как?!
***
Ганс: И… ке… в… и… ч… Ихих! Место рождения?
Франтишек: Хжёншчижевошице возле Пшибышева.
6.2.2.1 «Тобермори» — фоноперцептрон Розенблатта
Схема устройства «Тобермори», разработанного Розенблаттом совместно с его аспирантом Джорджем Нэйджи, была готова к 1963 г. Технически «Тобермори» представлял собой перцептрон с двумя промежуточными A– слоями, на входе которого находился сенсорный анализатор. На вход анализатора могла подаваться произвольная смесь звуков из следующих источников: с магнитной ленты, от микрофона, от генератора шума, а также от двух аудиоосцилляторов. Пройдя через усилитель, звук попадал в устройство для измерения амплитуды сигнала (используемое для выявления пауз между словами) и в устройство для частотного анализа, представляющее собой набор из 45 аудиофильтров, способных работать на каком-либо из трёх диапазонов частот: 30–4700 Гц, 47–7000 Гц, 60–9400 Гц. Таким образом, на коммутационной панели было доступно два выхода от измерителя амплитуды сигнала (передающих значение амплитуды в моменте, поскольку эта информация в ходе частотного анализа утрачивается, и усреднённое значение амплитуды за некоторый промежуток времени) и 45 выходов от аудиофильтров.
При помощи коммутационной панели любая пара из этих выходов могла быть подключена к одному из 40 дифференциальных усилителей (устройств, выходной сигнал которых пропорционален разности входных напряжений). Поскольку на вход усилителей подавались логарифмические значения амплитуд сигналов, то выход усилителей соответствовал отношению величин сигналов. При этом каждый усилитель имел два выходных канала: первый из них передавал сигнал в случае, если разница входных сигналов усилителя была положительной, а второй — если отрицательной. Каждый из каналов был подключен к пороговому элементу с настраиваемым пороговым значением сигнала. Таким образом, выход сенсорного анализатора в моменте составлял 80 бит. Система объединяла выходы для 20 последовательных временных интервалов, и 1600 полученных двоичных значений поступали на вход искусственной нейронной сети — классического розенблаттовского перцептрона. В выходном слое перцептрона содержалось 12 нейронов, что позволяло различать 212 = 4096 звуковых образов (например, слов).
Для обучения «Тобермори» Розенблатт применял записи на магнитной ленте, содержавшие параллельную запись звука (дорожка 1) и цифровые данные (дорожка 2), включающие 12-битную метку ожидаемого ответа перцептрона (по сути — правильную метку класса) [1893] .
В системах распознавания речи, созданных спустя более чем полвека после «Тобермори», мы всё ещё можем различить некоторые его черты — например использование частотно-временного представления звукового сигнала.
1893
Nagy G. (1963). Report No. 5. System and circuit designs for the Tobermory perceptron (Preliminary report on Phase I) // https://blogs.umass.edu/brain-wars/files/2016/03/nagy-1963-tobermory-perceptron.pdf
6.2.2.2 Теория звука и общие соображения о распознавании речи
Звук, вообще говоря, представляет собой распространение в некоторой среде механических колебаний в виде упругих волн. В некоторой точке пространства звук воспринимается как изменение во времени звукового давления — то есть избыточного давления, возникающего в упругой среде при прохождении через неё звуковой волны. Иногда используют такую характеристику, как интенсивность звука, которая пропорциональна квадрату звукового давления и является энергетической величиной, в то время как звуковое давление — величина силовая. Просто записав амплитуду звукового давления через фиксированные интервалы времени, можно получить временное представление звука. Выбранная длина интервала времени между замерами определяет частоту дискретизации при оцифровке звука. Например, если такой интервал составляет 1/8000 долю секунды, то говорят о частоте дискретизации, равной 8 кГц, если 1/16000 долю секунды — то 16 кГц. Если вы звоните кому-то по сотовому телефону, использующему для передачи звука сеть GSM, то ваш голос, скорее всего, подвергается оцифровке с частотой в 8 кГц, а это значит, что для передачи одной секунды речи без применения сжатия требуется передать через канал связи 8000 чисел. Частота дискретизации звука чем-то напоминает разрешение
Устройство человеческого уха в чём-то напоминает сенсорный анализатор фоноперцептрона Розенблатта. Пройдя через сложную механику компонентов слуховой системы, звуковые колебания проникают в полость улиткового протока, где расположен Кортиев орган, содержащий особые сенсорно-эпителиальные волосковые клетки, которые через колебания перилимфы и эндолимфы воспринимают слуховые раздражения в диапазоне примерно 16–20 000 Гц. Эти клетки, подобно аудиофильтрам розенблаттовского «Тобермори», реагируют только на определённые частоты колебаний. Сигналы этих рецепторных клеток передаются на нервные окончания VIII пары черепных нервов — преддверно-улиткового нерва, а затем нервный импульс поступает в слуховой центр коры головного мозга.
Почему природа «изобрела» столь странное приспособление? Неужели недостаточно было простого измерителя звукового давления, преобразующего звук в последовательность электрических импульсов разного напряжения? Дело в том, что звуки, с которыми живое существо обычно сталкивается в реальном мире, представляют собой в большинстве случаев продукт одновременного протекания нескольких элементарных колебательных процессов, каждый из которых обладает некоторой частотой. Если вы потянете, а затем отпустите зажатую на пятом ладу нижнюю струну семиструнной гитары, настроенной стандартным гитарным строем, то струна начнёт колебаться с частотой 440 Гц (раз в секунду). Свои колебания струна будет передавать корпусу гитары, а тот — окружающему гитару воздуху, в котором начнут распространяться звуковые волны, причём расстояние между пиками этих волн будет соответствовать расстоянию, которое звук преодолевает за 1/440 часть секунды (примерно 0,75 м). Вокализации, производимые людьми, основаны на аналогичном процессе, только колеблются в данном случае не струны, а голосовые связки человека. Вот почему довольно практично обладать звуковым анализатором, способным раскладывать комплексный звуковой сигнал на множество элементарных. Такое разложение называют спектром сигнала. В «Тобермори» за него отвечали аудиофильтры, во внутреннем ухе за него ответственны волосковые клетки, а в цифровых системах за него обычно отвечает быстрое преобразование Фурье [Fast Fourier transform] [1894] .
1894
* Дискретное преобразование Фурье — это операция, которая позволяет разложить функцию, представленную набором её значений, взятых с некоторым шагом (в нашем случае — амплитуд звуковой волны), в виде разложения элементарных гармонических колебаний с разными частотами (подобно тому как музыкальный аккорд можно разложить на отдельные звуковые колебания, соответствующие составляющим его нотам). Быстрое преобразование Фурье — алгоритм ускоренного вычисления дискретного преобразования Фурье.
После применения к сигналу преобразования Фурье и разложения его на колебания с разными частотами становится возможным построить специальное изображение для сигнала, называемое спектрограммой. Она строится следующим образом: по оси x обозначается время, по оси y — диапазон частот, а амплитуда колебания на частоте h в момент времени t (при этом разложению на частоты подвергается не весь сигнал, а только его часть, находящаяся в пределах некоторого временного окна с центром в момент времени t) передаётся при помощи цвета точки с координатами (t; h). Если мы используем для y линейную шкалу, то и сама спектрограмма будет называться линейной.
В 1937 г. Стивенс, Фолькман и Ньюман изобрели так называемую мел-шкалу. Дело в том, что чувствительность человеческого слуха неодинакова в разных диапазонах частот. В ходе эксперимента 1937 г. пятерых наблюдателей попросили после прослушивания звука осциллятора, настроенного на некоторую фиксированную частоту (125, 200, 300, 400, 700, 1000, 2000, 5000, 8000 или 12 000 Гц), путём вращения регулятора второго осциллятора настроить его на высоту звука, в два раза более низкую, чем высота звука первого осциллятора. Таким образом авторы исследования попробовали установить зависимость между объективной частотой звука и его субъективно воспринимаемой высотой. В результате появился «мел» (от англ. melody — мелодия) — единица субъективно воспринимаемой высоты звука [1895] . Существует несколько популярных формул для преобразования частоты звука в «мелы», каждая из которых задаёт немного различающиеся логарифмические мел-шкалы [1896] , [1897] . В некоторых моделях для распознавания речи в наши дни используются мел-спектрограммы, а в некоторых — линейные.
1895
Stevens S. S., Volkmann J., Newman E. B. (1937). A Scale for the Measurement of the Psychological Magnitude Pitch / The Journal of the Acoustical Society of America, Vol. 8(3), pp. 185—190 // https://doi.org/10.1121/1.1915893
1896
O'Shaughnessy D. (1987). Speech communication: human and machine. Addison-Wesley // https://books.google.ru/books?id=aUhiAAAAMAAJ
1897
Dixon Ward W. (1970). Musical Perception / Tobias J. V. (1970). Foundations of Modern Auditory Theory. Academic Press // https://books.google.ru/books?id=Uqw_uwEACAAJ