Охота на электроовец. Большая книга искусственного интеллекта
Шрифт:
В общем, с идеей запихнуть в какой-нибудь ResNet-152 спектрограмму фразы и получить на выходе класс, соответствующий фразе, можно, по всей видимости, благополучно расстаться. Вот почему достижения в области распознавания изображений нельзя просто взять и перенести в область распознавания речи, необходимо искать решение, способное преобразовать последовательность данных, описывающих звуковой сигнал, в последовательность символов (или слов) естественного языка.
6.2.2.3 Корпусы речи
В области распознавания речи пока что так и не появилось своего аналога ImageNet, однако для английского языка было создано несколько весьма солидных по объёму публичных корпусов, содержащих снабжённые текстовой расшифровкой записи человеческой речи.
Первая попытка создания стандартного корпуса аудиозаписей человеческой речи для исследовательских целей была предпринята ещё в 1980-е гг. В 1988 г. опубликовали датасет, получивший имя TIMIT — в нём объединены аббревиатуры TI (компания Texas Instruments) и MIT (Массачусетский технологический институт). Официальное название датасета — DARPA-TIMIT Acoustic-Phonetic Continuous Speech Corpus (Акустико-фонетический непрерывный
1912
Garofolo J. S., Lamel L. F., Fisher W. M., Fiscus J. G., Pallett D. S., Dahlgren N. L. (1993). DARPA TIMIT: (Technical report). National Institute of Standards and Technology // https://doi.org/10.6028/nist.ir.4930
В 1997 г. свет увидела база данных Switchboard, ставшая результатом одноимённого эксперимента, в ходе которого роботизированная система случайным образом соединяла двух добровольцев, предварительно сообщив им тему для последующего разговора. Всего корпус содержит 2430 записей разговоров средней продолжительностью около 6 минут, что в сумме даёт около 240 часов аудио. Запись осуществлялась с частотой дискретизации 8 кГц (каждый из участников разговора записывался в отдельный канал), в эксперименте участвовало чуть более 500 человек, а суммарная длина текстовых расшифровок превысила 3 млн слов.
В том же году Консорциум лингвистических данных (Linguistic Data Consortium, LDC) подготовил вторую базу под названием CALLHOME American English Speech [1913] , содержащую 120 тридцатиминутных записей телефонных разговоров носителей английского языка, в которых они преимущественно общались с родственниками или близкими друзьями на произвольные темы.
В 2004–2005 гг. Консорциум опубликовал так называемый корпус Фишера (The Fisher corpus) [1914] , [1915] , [1916] — базу данных, созданную в рамках проекта DARPA EARS (Effective, Affordable, Reusable Speech-to-Text, Эффективный, доступный, пригодный для «переиспользования» перевод речи в текст) и содержащую ещё около 2000 часов записей телефонных переговоров с текстовой расшифровкой (всего 11 699 записей; запись, как и в CALLHOME и Switchboard, велась с частотой 8 кГц в раздельные каналы).
1913
Canavan A., Graff D., Zipperlen G. (1997). CALLHOME American English Speech LDC97S42. Web Download. Philadelphia: Linguistic Data Consortium // https://catalog.ldc.upenn.edu/LDC97S42
1914
Cieri C., Miller D., Walker K. (2004). The Fisher corpus: A resource for the next generations of speech-to-text // https://www.ldc.upenn.edu/sites/www.ldc.upenn.edu/files/lrec2004-fisher-corpus.pdf
1915
Cieri C., Graff D., Kimball O., Miller D., Walker K. (2004). Fisher English Training Speech Part 1 Transcripts // https://catalog.ldc.upenn.edu/LDC2004T19
1916
Cieri C., Graff D., Kimball O., Miller D., Walker K. (2005). Fisher English Training Part 2, Transcripts // https://catalog.ldc.upenn.edu/LDC2005T19
Для тестирования качества распознавания английской речи LDC на протяжении многих лет использовал стандартизированный датасет, получивший название «2000 HUB5 English Evaluation Transcripts» [1917] (коротко — Hub’2000 или даже Hub5’00), состоящий из 40 записей телефонных разговоров общей продолжительностью около четырёх часов. Этот датасет был впервые использован в 2000 г. на конкурсе Hub5, спонсировавшемся NIST. Половина разговоров Hub5’00 взята из неопубликованной части Switchboard, вторая — из неопубликованной части CALLHOME. Hub5’00 не был первым датасетом, использованным для оценки качества распознавания речи (на это как бы намекает цифра 5 в названии датасета), но именно Hub5’00 на долгие годы стал наиболее популярным массивом для оценки качества работы систем распознавания речи.
1917
Linguistic Data Consortium (2002). 2000 HUB5 English Evaluation Transcripts LDC2002T43. Web Download. Philadelphia: Linguistic Data Consortium // https://catalog.ldc.upenn.edu/LDC2002T43
В 2015
1918
Panayotov V., Chen G., Povey D., Khudanpur S. (2015). LibriSpeech: an ASR corpus based on public domain audio books / 2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) // https://doi.org/10.1109/ICASSP.2015.7178964
1919
Garofolo J. S., Graff D., Paul D., Pallett D. (2007). CSR-I (WSJ0) Complete // https://doi.org/10.35111/ewkm-cg47
1920
Panayotov V., Chen G., Povey D., Khudanpur S. (2015). LibriSpeech: an ASR corpus based on public domain audio books / 2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) // https://doi.org/10.1109/ICASSP.2015.7178964
LibriSpeech с его 1000 часов записей является на сегодняшний день самым большим открытым речевым датасетом. При этом объёмы проприетарных (несвободных) датасетов, находящихся в распоряжении крупных корпораций, составляют на сегодняшний день десятки тысяч часов [1921] .
6.2.2.4 Метрики оценки
При оценке качества распознавания речи используются различные метрики, но наиболее популярной на протяжении многих лет остаётся метрика под названием WER (Word Error Rate, доля ошибок на уровне слов). Иногда WER называется также «дистанцией редактирования, нормализованной на длину» [length normalized edit distance], поскольку представляет собой дистанцию Левенштейна (редакционное расстояние, дистанцию редактирования) на уровне слов между правильным текстом и текстом на выходе системы распознавания, делённую на длину правильного текста (в словах).
1921
He Y., Sainath T. N., Prabhavalkar R., McGraw I., Alvarez R., Zhao D., Rybach D., Kannan A., Wu Y., Pang R., Liang Q., Bhatia D., Shangguan Y., Li B., Pundak G., Sim K. C., Bagby T., Chang S., Rao K., Gruenstein A. (2018). Streaming End-to-end Speech Recognition For Mobile Devices // https://arxiv.org/abs/1811.06621
Дистанция Левенштейна получила имя в честь советского и российского математика Владимира Левенштейна, который ввёл эту метрику в 1965 г. под названием «дистанция редактирования». Дистанцией редактирования между двумя последовательностями A и B называется минимальное количество вставок, удалений и замен элементов последовательности (например, символов или, как в нашем случае, слов), которые нужно произвести в A для того, чтобы получить B. Например, чтобы получить из предложения МАМА МЫЛА РАМУ предложение МАМА МЫЛА МАМУ, нужно заменить одно слово (РАМУ — МАМУ), следовательно, дистанция редактирования между этими двумя предложениями составляет 1. Чтобы сделать из фразы СЛОНЫ ИДУТ НА СЕВЕР фразу СЛОНЫ МАШУТ УШАМИ нужно произвести три правки (ИДУТ заменить на МАШУТ, НА заменить на УШАМИ, а СЕВЕР удалить), стало быть, дистанция Левенштейна (на уровне слов) между этими двумя фразами составит 3.
Для того чтобы вычислить WER, необходимо поделить дистанцию Левенштейна на количество слов в правильной версии распознаваемой фразы. Если система распознавания речи приняла фразу МАМА МЫЛА РАМУ за МАМА МЫЛА МАМУ, то WER = 1/3 ? 33%. Если при распознавании фразы СЛОНЫ ИДУТ НА СЕВЕР система распознавания расслышала в ней СЛОНЫ МАШУТ УШАМИ, то WER = 3/4 = 75%. Если дистанцию редактирования и длину оригинальной фразы считать на уровне букв, а не на уровне слов, то получившаяся в итоге метрика будет называться CER (Character Error Rate, доля ошибок на уровне символов). Если же расчёт выполнять на уровне целых предложений, то получится метрика SER (Sentence Error Rate, доля ошибок на уровне предложений).
Существует альтернативная методика расчёта WER, при которой вставки и удаления, в отличие от замены, засчитывают не за целую, а за половину ошибки. Эта версия была предложена [1922] в 1990 г. Мелвином Хантом, однако в наши дни под WER обычно понимают оригинальную метрику. Более тонкий подход к оценке качества распознавания может быть получен путём разделения замен на грубые и негрубые, такая перевзвешенная метрика называется IWER (Inflected WER, склоняемый WER), поскольку предназначена прежде всего для того, чтобы снизить штраф за некритичные ошибки в окончаниях слов.
1922
Hunt M. J. (1990). Figures of Merit for Assessing Connected Word Recognisers / Speech Communication, Vol. 9, 1990, pp. 239—336 //90008-WGet