Охота на электроовец. Большая книга искусственного интеллекта, Марков Сергей Николаевич

Охота на электроовец. Большая книга искусственного интеллекта

на обложку

Марков Сергей Николаевич

Шрифт:

6.2.2.5 Прогресс и проблемы

В 2000 г. лучшая система распознавания речи, существовавшая на тот момент, а именно CU-HTK [1923] , продемонстрировала на Hub5’00 значение WER, равное 25,4% [1924] , то есть примерно каждое четвёртое слово распознавалось неправильно. И всё это в условиях, когда тестовая выборка была составлена из разговоров, максимально приближённых по параметрам к обучающей выборке. При этом протокол тестирования, использованный NIST, был максимально «дружественным» для систем распознавания, например, ошибкой не считались несовпадения в написании слов, используемых для обозначения хезитации (uh, eh, mm, hm, huh и т. д.) [1925] , то есть различных эканий и беканий, которыми люди склонны заполнять неловкие паузы в разговоре. В общем, ситуация была весьма плачевной.

1923

Hain T., Woodland P. C., Evermann G., Povey D. (2001). New features in the CU-HTK system for transcription of conversational telephone speech / 2001 IEEE International Conference on Acoustics, Speech, and Signal Processing. Proceedings (Cat. No.01CH37221), Salt Lake City, UT, USA, 2001, Vol. 1, pp. 57—60 // https://doi.org/10.1109/ICASSP.2001.940766

1924

NIST March 2000 Hub-5 Benchmark Test Results for Recognition of Conversational Speech over the Telephone, in English and Mandarin. Release 1.4 (2000) // https://catalog.ldc.upenn.edu/docs/LDC2002T43/readme.htm

1925

The 2000 NIST Evaluation Plan for Recognition of Conversational Speech over the Telephone. Version 1.3, 24-Jan-00 (2000) // https://mig.nist.gov/MIG_Website/tests/ctr/2000/h5_2000_v1.3.html

Задача

распознавания речи отчасти похожа на задачу оптического распознавания текста. В 1960-х гг., как мы уже рассказывали, команда SRI решала задачу распознавания напечатанных на бумаге текстов программ на фортране и обнаружила, что не всегда можно наилучшим образом распознать слово, просто сложив лучшие гипотезы по поводу каждого из составляющих его символов. Ведь модель, распознающая отдельные символы, не знает ничего о закономерностях языка, выражение которого записано при помощи этих символов. С фонетической точки зрения речь можно также рассматривать как последовательность элементарных единиц, своеобразных звуковых символов. Их называют фонемами (от др.-греч. ?????? — звук; фонема — минимальная смыслоразличительная единица языка, не имеющая самостоятельного лексического или грамматического значения). Точно так же лучшие гипотезы по поводу отдельных фонем в звуковом представлении произносимого слова необязательно гарантируют успешное угадывание слова в целом. Люди постоянно коверкают слова при произнесении их вслух. Отдельные звуки просто выпадают, другие обладают существенной степенью вариативности. Лингвисты придумали множество специальных терминов для обозначения подобных явлений.

Например, термином «элизия» (от лат. elisio — выдавливание, выталкивание) называют отпадение звука (гласного, согласного или даже целого слога) в слове или фразе с целью облегчения произношения для говорящего. Иногда звуки могут быть опущены с целью улучшения благозвучия. В русском языке «чтобы» часто превращается в [штоп], «уже» в [уш], «бы» в [б] и так далее.

Термином «коартикуляция» (от лат. со(n) — с, вместе + articulatio — членораздельно, ясно произношу) называют наложение артикуляции, характерной для последующего звука, на весь предшествующий звук. Примером коартикуляции может служить лабиализация (огубление) согласного под влиянием последующего губного [о] или [у]. Например, при произнесении слова «суп» наши губы вытягиваются в трубочку до начала произнесения звука [у], что приводит к изменению звучания звука [с], его лабиализации.

Звуки могут влиять друг на друга. Это влияние вызывает комбинаторные изменения, к которым относятся аккомодация, ассимиляция, диссимиляция, диэрезы, эпентезы, гаплология. Кроме этого, на звуки могут влиять общие условия произношения. Это вызывает позиционные изменения звуков. К ним относятся протеза в начале слова, оглушение звонких согласных в конце слова, редукция безударных гласных и так далее.

Как человеческий мозг справляется со всеми этими фонетическими сложностями? На самом деле нам помогает знание контекста. Благодаря пониманию синтаксической и смысловой структуры высказываний мы можем догадаться, что именно за слово сказал собеседник, даже если расслышали его недостаточно чётко. В системах распознавания речи за угадывание слов по контексту отвечают так называемые языковые модели (language model, LM). В начале 2000-х гг. наиболее популярными были языковые модели, основанные на n– граммах (серии из n слов, встречающихся в тексте последовательно). В зависимости от выбранного n, n– граммы называются биграммами (n = 2), триграммами (n = 3) и так далее. Рассчитав статистику n– грамм на достаточно большом текстовом корпусе, можно построить модель, неплохо предсказывающую вероятность появления того или иного слова в текущем контексте. Такой же трюк можно проделывать не только со словами, но и с фонемами, при этом сочетания фонем будут называться n– фонами (бифонами, трифонами или даже квинфонами).

В системе CU-HTK для распознавания речи использовалась комбинация из нескольких «классических» алгоритмов машинного обучения. Это были скрытые марковские модели для предсказания трифонов и квинфонов, деревья решений, гауссовы смеси распределений и, наконец, языковая модель на основе квадрограмм и триграмм. В качестве входного представления звука использовались мел-кепстральные коэффициенты. Настройка столь сложного ансамбля моделей была весьма непростой задачей и требовала не только обширных познаний, но и изрядного упорства, а также везения.

Большую проблему для сравнения различных систем распознавания речи составляет неоднородность датасета Hub5’00. Его подмножество CallHome в целом сложнее для распознавания, чем подмножество SwitchBoard, при этом в литературе в качестве значения метрики приводятся значения, полученные как на всём Hub5’00, так и на отдельных его подмножествах — Hub5’00 SWB и Hub5’00 CH. Из-за этого некоторые графики, призванные изобразить динамику точности распознавания речи по годам, попахивают откровенной шизофренией. Давайте всё-таки попробуем найти какие-то точки опоры — например Hub5’00 SWB. В 2000 г. показатель WER CU-HTK на Hub5’00 SWB составил 19,3%. В 2011 г. модель [1926] , созданная исследователями из Microsoft и основанная на комбинации глубокой нейронной сети и скрытых марковских моделей, продемонстрировала на Hub5’00 SWB показатель WER в 16,1%. Таким образом, за 11 лет уровень ошибки удалось снизить лишь на 3,2 процентных пункта. А в 2013 г. исследователям из IBM удалось [1927] уменьшить WER на Hub5’00 SWB до 11,5%. Это удалось сделать за счёт замены полносвязной сети, получающей на вход мел-кепстральные коэффициенты, на свёрточную нейронную сеть, работающую со спектрограммой звукового сигнала. Таким образом, за два года удалось достичь большего прогресса, чем за предыдущие одиннадцать. И это было только начало.

1926

Seide F., Li G., Yu D. (2011). Conversational Speech Transcription Using Context-Dependent Deep Neural Networks / INTERSPEECH 2011, 12th Annual Conference of the International Speech Communication Association, Florence, Italy, August 27—31, 2011 // https://www.microsoft.com/en-us/research/wp-content/uploads/2016/02/CD-DNN-HMM-SWB-Interspeech2011-Pub.pdf

1927

Sainath T. N., Mohamed A., Kingsbury B., Ramabhadran B. (2013). Deep convolutional neural networks for LVCSR / 2013 IEEE International Conference on Acoustics, Speech and Signal Processing, Vancouver, BC, 2013, pp. 8614-8618 // https://doi.org/10.1109/ICASSP.2013.6639347

В 2014

г. величина ошибки снизилась до 10,4%, а в 2015 г. — до 8,0% (за счёт ансамбля полносвязной, свёрточной и рекуррентной сетей, работающих с мел-кепстральными коэффициентами, а также использования нейронной сети в качестве элемента языковой модели) [1928] . В октябре 2016 г. команда разработчиков из Microsoft сообщила о создании системы распознавания речи, которая делает то же или даже меньшее количество ошибок, чем люди, профессионально выполняющие эту работу. Исследователи сообщили о том, что им удалось снизить WER на Hub5’00 SWB до 5,8%, что на 0,1% ниже показателя профессиональных людей-разметчиков. Этого результата удалось достичь за счёт комбинации свёрточной нейронной сети с рекуррентной LSTM-сетью, при этом свёрточная часть сети напоминала собой сеть ResNet. Итоговая архитектура получила название LACE (Layer-wise context expansion with attention, Послойное контекстное расширение с вниманием) [1929] . Доработка этой архитектуры в 2017 г. привела к уменьшению WER до 5,1% [1930] .

1928

Saon G., Kuo H. K. J., Rennie S., Picheny M. (2015). The IBM 2015 English Conversational Telephone Speech Recognition System // https://arxiv.org/abs/1505.05899

1929

Xiong W., Droppo J., Huang X., Seide F., Seltzer M., Stolcke A., Yu D., Zweig G. (2017). Achieving human parity in conversational speech recognition // https://arxiv.org/abs/1610.05256

1930

Xiong W., Wu L., Alleva F., Droppo J., Huang X., Stolcke A. (2017). The Microsoft 2017 Conversational Speech Recognition System // https://arxiv.org/abs/1708.06073

По датасету Hub5’00 CH также наблюдается сходный прогресс — от ошибки по метрике WEB 31,4% в 2000 г. до 14,1% в 2015-м и 9,9% в 2017-м. Впрочем, в работах последних лет датасет Hub5’00 и его подмножества уже не так часто используются для оценки качества распознавания речи. Исследователи предпочитают использовать для этих целей «чистую» часть LibriSpeech, величина ошибки на которой с момента его появления в 2015 г. снизилась более чем втрое — с 4,83% [1931] до 1,4% [1932] (2021).

1931

Peddinti V., Povey D., Khudanpur S. (2015). A time delay neural network architecture for efficient modeling of long temporal contexts / INTERSPEECH 2015, 16th Annual Conference of the International Speech Communication Association, Dresden, Germany // https://www.danielpovey.com/files/2015_interspeech_multisplice.pdf

1932

Zhang Y., Qin J., Park D. S., Han W., Chiu C.-C., Pang R., Le Q. V., Wu Y. (2020). Pushing the Limits of Semi-Supervised Learning for Automatic Speech Recognition // https://arxiv.org/abs/2010.10504

Основными источниками прогресса стало появление новых мощных языковых моделей, основанных на новой нейросетевой архитектуре — так называемых трансформерах (мы поговорим о них подробнее в главе 6.3, посвящённой прогрессу в обработке естественного языка), и появление новых мощных технологий аугментации звуковых данных (в первую очередь SpecAugment [1933] ).

В последние годы при создании моделей для распознавания речи активно применяются методы обучения с частичным привлечением учителя (semi-supervised learning), такие как «обучение представлениям» (мы затрагивали этот подход в разделе, посвящённом автокодировщикам), а также «псевдоразметка» (Pseudo-Labeling).

1933

Park D. S., Chan W., Zhang Y., Chiu C. C., Zoph B., Cubuk E. D., Le Q. V. (2019). SpecAugment: A Simple Data Augmentation Method for Automatic Speech Recognition // https://arxiv.org/abs/1904.08779

Идея первого подхода заключается в обучении на неразмеченных данных некоторой модели-кодировщика, выход которой мог бы затем использоваться при обучении на размеченных данных модели распознавания. Такое комбинирование обучения без учителя и с учителем позволяет эффективно использовать потенциал как неразмеченных, так и размеченных данных, имеющихся у исследователей, что, учитывая сравнительную дороговизну разметки, является важным преимуществом подобных моделей. Наиболее популярными кодировщиками, применяемыми в составе подобных решений, являются wav2vec [1934] , vq-wav2vec [1935] и wav2vec 2.0 [1936] . По состоянию на сентябрь 2023 года наибольшая точность при распознавании речи из датасета LibriSpeech была достигнута в июле 2021 г. исследователями из компании Google за счёт сочетания wav2vec 2.0, комбинации трансформерной и свёрточной архитектуры под названием Conformer [1937] , а также усовершенствованной версии SpecAugment для аугментации обучающей выборки. В итоге для «грязной» части LibriSpeech удалось снизить WER до 2,6%, а для «чистой» и вовсе до 1,4% [1938] . Впрочем, несмотря на выдающиеся результаты, использование этого метода требует тщательного подбора параметров и размеров выборок.

1934

Schneider S., Baevski A., Collobert R., Auli M. (2019). wav2vec: Unsupervised Pre-training for Speech Recognition // https://arxiv.org/abs/1904.05862

1935

Baevski A., Schneider S., Auli M. (2019). vq-wav2vec: Self-Supervised Learning of Discrete Speech Representations // https://arxiv.org/abs/1910.05453

1936

Baevski A., Zhou H., Mohamed A., Auli M. (2020). wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations // https://arxiv.org/abs/2006.11477

1937

Gulati A., Qin J., Chiu C.-C., Parmar N., Zhang Y., Yu J., Han W., Wang S., Zhang Z., Wu Y., Pang R. (2020). Conformer: Convolution-augmented Transformer for Speech Recognition // https://arxiv.org/abs/2005.08100

1938

Zhang Y., Qin J., Park D. S., Han W., Chiu C.-C., Pang R., Le Q. V., Wu Y. (2020). Pushing the Limits of Semi-Supervised Learning for Automatic Speech Recognition // https://arxiv.org/abs/2010.10504