Охота на электроовец. Большая книга искусственного интеллекта
Шрифт:
6.2.2.5 Прогресс и проблемы
В 2000 г. лучшая система распознавания речи, существовавшая на тот момент, а именно CU-HTK [1923] , продемонстрировала на Hub5’00 значение WER, равное 25,4% [1924] , то есть примерно каждое четвёртое слово распознавалось неправильно. И всё это в условиях, когда тестовая выборка была составлена из разговоров, максимально приближённых по параметрам к обучающей выборке. При этом протокол тестирования, использованный NIST, был максимально «дружественным» для систем распознавания, например, ошибкой не считались несовпадения в написании слов, используемых для обозначения хезитации (uh, eh, mm, hm, huh и т. д.) [1925] , то есть различных эканий и беканий, которыми люди склонны заполнять неловкие паузы в разговоре. В общем, ситуация была весьма плачевной.
1923
Hain T., Woodland P. C., Evermann G., Povey D. (2001). New features in the CU-HTK system for transcription of conversational telephone speech / 2001 IEEE International Conference on Acoustics, Speech, and Signal Processing. Proceedings (Cat. No.01CH37221), Salt Lake City, UT, USA, 2001, Vol. 1, pp. 57—60 // https://doi.org/10.1109/ICASSP.2001.940766
1924
NIST March 2000 Hub-5 Benchmark Test Results for Recognition of Conversational Speech over the Telephone, in English and Mandarin. Release 1.4 (2000) // https://catalog.ldc.upenn.edu/docs/LDC2002T43/readme.htm
1925
The 2000 NIST Evaluation Plan for Recognition of Conversational Speech over the Telephone. Version 1.3, 24-Jan-00 (2000) // https://mig.nist.gov/MIG_Website/tests/ctr/2000/h5_2000_v1.3.html
Задача
Например, термином «элизия» (от лат. elisio — выдавливание, выталкивание) называют отпадение звука (гласного, согласного или даже целого слога) в слове или фразе с целью облегчения произношения для говорящего. Иногда звуки могут быть опущены с целью улучшения благозвучия. В русском языке «чтобы» часто превращается в [штоп], «уже» в [уш], «бы» в [б] и так далее.
Термином «коартикуляция» (от лат. со(n) — с, вместе + articulatio — членораздельно, ясно произношу) называют наложение артикуляции, характерной для последующего звука, на весь предшествующий звук. Примером коартикуляции может служить лабиализация (огубление) согласного под влиянием последующего губного [о] или [у]. Например, при произнесении слова «суп» наши губы вытягиваются в трубочку до начала произнесения звука [у], что приводит к изменению звучания звука [с], его лабиализации.
Звуки могут влиять друг на друга. Это влияние вызывает комбинаторные изменения, к которым относятся аккомодация, ассимиляция, диссимиляция, диэрезы, эпентезы, гаплология. Кроме этого, на звуки могут влиять общие условия произношения. Это вызывает позиционные изменения звуков. К ним относятся протеза в начале слова, оглушение звонких согласных в конце слова, редукция безударных гласных и так далее.
Как человеческий мозг справляется со всеми этими фонетическими сложностями? На самом деле нам помогает знание контекста. Благодаря пониманию синтаксической и смысловой структуры высказываний мы можем догадаться, что именно за слово сказал собеседник, даже если расслышали его недостаточно чётко. В системах распознавания речи за угадывание слов по контексту отвечают так называемые языковые модели (language model, LM). В начале 2000-х гг. наиболее популярными были языковые модели, основанные на n– граммах (серии из n слов, встречающихся в тексте последовательно). В зависимости от выбранного n, n– граммы называются биграммами (n = 2), триграммами (n = 3) и так далее. Рассчитав статистику n– грамм на достаточно большом текстовом корпусе, можно построить модель, неплохо предсказывающую вероятность появления того или иного слова в текущем контексте. Такой же трюк можно проделывать не только со словами, но и с фонемами, при этом сочетания фонем будут называться n– фонами (бифонами, трифонами или даже квинфонами).
В системе CU-HTK для распознавания речи использовалась комбинация из нескольких «классических» алгоритмов машинного обучения. Это были скрытые марковские модели для предсказания трифонов и квинфонов, деревья решений, гауссовы смеси распределений и, наконец, языковая модель на основе квадрограмм и триграмм. В качестве входного представления звука использовались мел-кепстральные коэффициенты. Настройка столь сложного ансамбля моделей была весьма непростой задачей и требовала не только обширных познаний, но и изрядного упорства, а также везения.
Большую проблему для сравнения различных систем распознавания речи составляет неоднородность датасета Hub5’00. Его подмножество CallHome в целом сложнее для распознавания, чем подмножество SwitchBoard, при этом в литературе в качестве значения метрики приводятся значения, полученные как на всём Hub5’00, так и на отдельных его подмножествах — Hub5’00 SWB и Hub5’00 CH. Из-за этого некоторые графики, призванные изобразить динамику точности распознавания речи по годам, попахивают откровенной шизофренией. Давайте всё-таки попробуем найти какие-то точки опоры — например Hub5’00 SWB. В 2000 г. показатель WER CU-HTK на Hub5’00 SWB составил 19,3%. В 2011 г. модель [1926] , созданная исследователями из Microsoft и основанная на комбинации глубокой нейронной сети и скрытых марковских моделей, продемонстрировала на Hub5’00 SWB показатель WER в 16,1%. Таким образом, за 11 лет уровень ошибки удалось снизить лишь на 3,2 процентных пункта. А в 2013 г. исследователям из IBM удалось [1927] уменьшить WER на Hub5’00 SWB до 11,5%. Это удалось сделать за счёт замены полносвязной сети, получающей на вход мел-кепстральные коэффициенты, на свёрточную нейронную сеть, работающую со спектрограммой звукового сигнала. Таким образом, за два года удалось достичь большего прогресса, чем за предыдущие одиннадцать. И это было только начало.
1926
Seide F., Li G., Yu D. (2011). Conversational Speech Transcription Using Context-Dependent Deep Neural Networks / INTERSPEECH 2011, 12th Annual Conference of the International Speech Communication Association, Florence, Italy, August 27—31, 2011 // https://www.microsoft.com/en-us/research/wp-content/uploads/2016/02/CD-DNN-HMM-SWB-Interspeech2011-Pub.pdf
1927
Sainath T. N., Mohamed A., Kingsbury B., Ramabhadran B. (2013). Deep convolutional neural networks for LVCSR / 2013 IEEE International Conference on Acoustics, Speech and Signal Processing, Vancouver, BC, 2013, pp. 8614-8618 // https://doi.org/10.1109/ICASSP.2013.6639347
В 2014
1928
Saon G., Kuo H. K. J., Rennie S., Picheny M. (2015). The IBM 2015 English Conversational Telephone Speech Recognition System // https://arxiv.org/abs/1505.05899
1929
Xiong W., Droppo J., Huang X., Seide F., Seltzer M., Stolcke A., Yu D., Zweig G. (2017). Achieving human parity in conversational speech recognition // https://arxiv.org/abs/1610.05256
1930
Xiong W., Wu L., Alleva F., Droppo J., Huang X., Stolcke A. (2017). The Microsoft 2017 Conversational Speech Recognition System // https://arxiv.org/abs/1708.06073
По датасету Hub5’00 CH также наблюдается сходный прогресс — от ошибки по метрике WEB 31,4% в 2000 г. до 14,1% в 2015-м и 9,9% в 2017-м. Впрочем, в работах последних лет датасет Hub5’00 и его подмножества уже не так часто используются для оценки качества распознавания речи. Исследователи предпочитают использовать для этих целей «чистую» часть LibriSpeech, величина ошибки на которой с момента его появления в 2015 г. снизилась более чем втрое — с 4,83% [1931] до 1,4% [1932] (2021).
1931
Peddinti V., Povey D., Khudanpur S. (2015). A time delay neural network architecture for efficient modeling of long temporal contexts / INTERSPEECH 2015, 16th Annual Conference of the International Speech Communication Association, Dresden, Germany // https://www.danielpovey.com/files/2015_interspeech_multisplice.pdf
1932
Zhang Y., Qin J., Park D. S., Han W., Chiu C.-C., Pang R., Le Q. V., Wu Y. (2020). Pushing the Limits of Semi-Supervised Learning for Automatic Speech Recognition // https://arxiv.org/abs/2010.10504
Основными источниками прогресса стало появление новых мощных языковых моделей, основанных на новой нейросетевой архитектуре — так называемых трансформерах (мы поговорим о них подробнее в главе 6.3, посвящённой прогрессу в обработке естественного языка), и появление новых мощных технологий аугментации звуковых данных (в первую очередь SpecAugment [1933] ).
В последние годы при создании моделей для распознавания речи активно применяются методы обучения с частичным привлечением учителя (semi-supervised learning), такие как «обучение представлениям» (мы затрагивали этот подход в разделе, посвящённом автокодировщикам), а также «псевдоразметка» (Pseudo-Labeling).
1933
Park D. S., Chan W., Zhang Y., Chiu C. C., Zoph B., Cubuk E. D., Le Q. V. (2019). SpecAugment: A Simple Data Augmentation Method for Automatic Speech Recognition // https://arxiv.org/abs/1904.08779
Идея первого подхода заключается в обучении на неразмеченных данных некоторой модели-кодировщика, выход которой мог бы затем использоваться при обучении на размеченных данных модели распознавания. Такое комбинирование обучения без учителя и с учителем позволяет эффективно использовать потенциал как неразмеченных, так и размеченных данных, имеющихся у исследователей, что, учитывая сравнительную дороговизну разметки, является важным преимуществом подобных моделей. Наиболее популярными кодировщиками, применяемыми в составе подобных решений, являются wav2vec [1934] , vq-wav2vec [1935] и wav2vec 2.0 [1936] . По состоянию на сентябрь 2023 года наибольшая точность при распознавании речи из датасета LibriSpeech была достигнута в июле 2021 г. исследователями из компании Google за счёт сочетания wav2vec 2.0, комбинации трансформерной и свёрточной архитектуры под названием Conformer [1937] , а также усовершенствованной версии SpecAugment для аугментации обучающей выборки. В итоге для «грязной» части LibriSpeech удалось снизить WER до 2,6%, а для «чистой» и вовсе до 1,4% [1938] . Впрочем, несмотря на выдающиеся результаты, использование этого метода требует тщательного подбора параметров и размеров выборок.
1934
Schneider S., Baevski A., Collobert R., Auli M. (2019). wav2vec: Unsupervised Pre-training for Speech Recognition // https://arxiv.org/abs/1904.05862
1935
Baevski A., Schneider S., Auli M. (2019). vq-wav2vec: Self-Supervised Learning of Discrete Speech Representations // https://arxiv.org/abs/1910.05453
1936
Baevski A., Zhou H., Mohamed A., Auli M. (2020). wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations // https://arxiv.org/abs/2006.11477
1937
Gulati A., Qin J., Chiu C.-C., Parmar N., Zhang Y., Yu J., Han W., Wang S., Zhang Z., Wu Y., Pang R. (2020). Conformer: Convolution-augmented Transformer for Speech Recognition // https://arxiv.org/abs/2005.08100
1938
Zhang Y., Qin J., Park D. S., Han W., Chiu C.-C., Pang R., Le Q. V., Wu Y. (2020). Pushing the Limits of Semi-Supervised Learning for Automatic Speech Recognition // https://arxiv.org/abs/2010.10504