Охота на электроовец. Большая книга искусственного интеллекта
Шрифт:
Одним из результатов работы основоположников ТСТ было создание системы машинного перевода ЭТАП (Электротехнический автоматический перевод), работа над которой началась в 1972 г. в институте «Информэлектро» при Министерстве электромеханической промышленности СССР. Заведовал группой автоматического перевода в «Информэлектро» Апресян, а главным архитектором системы стал Леонид Цинман. Плодами работы группы стали системы ЭТАП-1 (предназначенная для перевода с французского языка), ЭТАП-2 (для перевода с английского), а также многоцелевой лингвистический процессор ЭТАП-3. Причём ЭТАП-3 предназначался для решения широкого спектра задач обработки естественного языка, среди которых был и машинный перевод. С 1985 г. команда, занимавшаяся созданием системы ЭТАП, продолжила свою работу в Институте проблем передачи информации (ИППИ РАН), где на её основе была создана Лаборатория компьютерной лингвистики [2073] , [2074] .
2073
Лагунина И., Ольшанская Е. (2004). Машинный перевод / Радио Свобода, 21 января // https://www.svoboda.org/a/24196111.html
2074
Лаборатория №15. Компьютерная лингвистика / Российская академия наук. Институт проблем передачи информации им. А. А. Харкевича // http://iitp.ru/ru/researchlabs/245.htm
Важно отметить, что при обработке естественного языка в рамках классической парадигмы ИИ (вне зависимости от особенностей применяемого подхода — ТСТ, порождающей грамматики и т. д.), помимо описания языковых структур, необходимо выполнять также ряд операций на уровне отдельных слов. Для того чтобы программа могла выстроить структуру текста, необходимо выполнить его лексическую предобработку (препроцессинг). Создание алгоритмов для эффективного препроцессинга — отдельный, весьма внушительный пласт работы в области компьютерной лингвистики. Определение формы слова, лемматизация (приведение слова к его начальной форме, например «кошкам» -> «кошка»), словообразование — всё это требует наличия адекватных морфологических моделей.
В 1974 г. открылся Всесоюзный центр переводов научно-технической литературы и документации ГКНТ и АН СССР (ВЦП), сотрудники которого начали разработку сразу трёх систем, предназначенных для выполнения машинного перевода в промышленных масштабах. Система для англо-русского перевода получила название АМПАР, для немецко-русского — НЕРПА и для французско-русского — ФРАП [2075] .
В 1970-е гг. RBMT-системы (напомним, что это системы перевода на основе правил) активно развивались и на Западе, как в рамках коммерческих проектов, таких как SYSTRAN, так и в академической среде. Репутация систем машинного перевода в глазах американских государственных чиновников, пошатнувшаяся после отчёта ALPAC, была в определённой мере восстановлена благодаря успехам системы Logos MT, использовавшейся для перевода военной документации на вьетнамский язык во время войны во Вьетнаме. Что же до академии, то центры разработки систем машинного перевода возникали порой в довольно неожиданных местах. Например, в 1970 г. во Французском текстильном институте (Institut Textile de France) была создана система TITUS, использовавшаяся для перевода аннотаций к научным статьям. Система поддерживала целых четыре языка — французский, английский, немецкий и испанский — и могла выполнять перевод с и на каждый из этих языков. В 1972 г. в Китайском университете Гонконга (Chinese University of Hong Kong) была создана система CULT (Chinese University Language Translator, Переводчик Китайского университета), предназначенная для перевода математических текстов с китайского языка на английский [2076] , [2077] . В 1971 г. Университет Бригама Янга (Brigham Young University, BYU) — частный университет США, основанный Церковью Иисуса Христа Святых последних дней, — начал проект по переводу текстов мормонов на другие языки с помощью машинного перевода [2078] , [2079] . На фоне таких исследовательских организаций советский институт «Информэлектро» в качестве одного из мировых центров развития технологий машинного перевода вовсе не казался какой-то экзотикой.
2075
Галактионов В. А., Мусатов А. М., Мансурова О. Ю., Ёлкин С. В., Клышинский Э. С., Максимов В. Ю., Аминева С. Н., Жирнов Р. В., Игашов С. Ю., Мусаева Т. Н. (2007). Система машинного перевода «Кросслятор 2.0» и анализ её функциональности для задачи трансляции знаний // https://www.keldysh.ru/papers/2007/prep89/prep2007_89.html
2076
Hutchins W. J. (2000). Early Years in Machine Translation: Memoirs and biographies of pioneers. John Benjamins Publishing // https://books.google.ru/books?id=3dU5AAAAQBAJ
2077
Loh S.-C., Kong L., Hung H.-S. (1978). Machine translation of Chinese mathematical articles / ALLC Bulltein, Vol. 6(2), pp. 111—120 // http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.598.8762&rep=rep1&type=pdf
2078
Hutchins W. J. (2000). Early Years in Machine Translation: Memoirs and biographies of pioneers. John Benjamins Publishing // https://books.google.ru/books?id=3dU5AAAAQBAJ
2079
Chan S. (2004). A Dictionary of Translation Technology. Chinese University Press // https://books.google.ru/books?id=3gwOFvbxMGcC
Несмотря на отдельные успехи RBMT-систем, почти одновременно с выходом их на мировую арену начинается активный поиск альтернативных подходов. Идеи Уивера об использовании в переводе статистических методов вновь приобретают актуальность, особенно в свете растущей производительности вычислительных машин. В Советском Союзе это направление получило развитие благодаря усилиям Раймунда Пиотровского. В 1957 г. по его инициативе была создана исследовательская группа «Статистика речи», к которой со временем присоединился ряд исследователей из различных вузов со всех уголков Советского Союза [2080] . В работе группы участвовали лингвисты, математики и программисты [2081] . Пиотровский рассматривал естественный язык как нечёткую систему, которая охватывает размытые множества, состоящие из нечётких лингвистических объектов [2082] .
2080
Лаздинь Т. А. (2009). Основы статистической оптимизации преподавания иностранных языков / Вестник СПбГУ. Язык и литература. 2009. № 3 // https://cyberleninka.ru/article/n/osnovy-statisticheskoy-optimizatsii-prepodavaniya-inostrannyh-yazykov
2081
Зубов А. В., Носкова Т. Н. (2017). Р. Г. Пиотровский — основатель компьютерной лингвистики в Беларуси / Пиотровские чтения 2017 // http://ceur-ws.org/Vol-2233/
2082
Пиотровский Р. Г. (1980). Статистика речи и автоматический анализ текста. — Л.: Наука // https://www.phantastike.com/linguistics/statistika_rechi_1980/pdf/
В 1971 г. при Ленинградском государственном педагогическом институте имени А. И. Герцена (ЛГПИ) под руководством Пиотровского была создана Научно-исследовательская лаборатория инженерной лингвистики, сотрудники которой активно занимались разработкой технологий для автоматической обработки текста. В 1991 г. бывшие сотрудники этой лаборатории под руководством Светланы Соколовой основали компанию PROMT [2083] . Название PROMT является сокращением от PROject of Machine Translation (Проект машинного перевода). В октябре 1998 г. компания запустила первый российский сервис машинного перевода — translate.ru.
2083
История машинного перевода: от гипотез Лейбница и Декарта — до мобильных приложений и облачных сервисов (2019) / PROMT // https://www.promt.ru/press/blog/istoriya-mashinnogo-perevoda-ot-gipotez-leybnitsa-i-dekarta-do-mobilnykh-prilozheniy-i-oblachnykh-se/
Первые версии PROMT использовали RBMT-подход, а в 2009 г. компания представила гибридную технологию перевода, использующую элементы статистического машинного перевода.
В 2006 г. компания Google запустила бесплатный сервис Google Translate, основанный на технологии статистического машинного перевода. Идея Google Translate основывалась на поиске определённых структур в корпусе текстов, чтобы затем на базе анализа найденных структур принять решение о том, какие именно варианты перевода слов следует выбрать и как расположить их в структуре целевого языка. Изначально Google Translate практически во всех случаях использовал английский в качестве языка-посредника, то есть при переводе в любой языковой паре, не включающей в себя английский язык, текст сначала переводился с языка-источника на английский, а затем полученный англоязычный текст переводился на целевой язык перевода. Двойной перевод в совокупности с низкой грамматической точностью ранних статистических алгоритмов приводил к сравнительно невысокому качеству перевода, что стало источником множества шуток и забавных ошибок, превратившихся в мемы, однако сам сервис приобрёл большую популярность во всём мире.
Парадоксальным образом в эпоху больших данных ранние системы статистического перевода страдали именно от нехватки данных. Хотя за 2000–2010 гг. уже было накоплено огромное количество оцифрованных текстов, двуязычные тексты, основанные на точных и хорошо синхронизированных с оригиналами переводах, оставались большой редкостью. Создатели Google Translate были вынуждены использовать в качестве базы для статистического перевода документы и стенограммы Организации Объединённых Наций и Европейского парламента, однако этот корпус не столь уж велик и вдобавок весьма ограничен с точки зрения стиля и набора тем.
Последующее появление обширных синхронных корпусов дву- и многоязычных текстов сильно помогло обучению новых, нейросетевых моделей. Например, в 2021–2022 гг. компания Meta (бывшая Facebook), опубликовала корпуса FLORES (Facebook Low Resource, Малоресурсные [языки] от Facebook) и NLLB (No Language Left Behind, Ни один язык не будет брошен), содержащие свыше 450 Гб синхронных текстов, охватывающих более 200 языков. Обученная на этих данных нейросетевая модель, получившая название NLLB-200 [2084] , была выложена исследователями в открытый доступ и по сей день является одним из лучших открытых решений для задач машинного перевода (придя на смену своей предшественнице — созданной в 2020 г. модели M2M-100 [2085] ). В августе 2023 г. исследователи из Meta выпустили модель SeamlessM4T (Seamless Massively Multilingual & Multimodal Machine Translation, Бесшовный массово многоязычный и мультимодальный машинный перевод) — эта модель способна принимать на вход текст или аудиозапись речи более чем на ста поддерживаемых языках и выдавать на выход перевод: в виде текста более чем на ста языках, а в виде аудиозаписи — на 36 языках [2086] .
2084
NLLB Team, Costa-jussa M. R., Cross J., Celebi O., Elbayad M., Heafield K., Heffernan K., Kalbassi E., Lam J., Licht D., Maillard J., Sun A., Wang S., Wenzek G., Youngblood A., Akula B., Barrault L., Gonzalez G. M., Hansanti P., Hoffman J., Jarrett S., Sadagopan K. R., Rowe D., Spruit S., Tran C., Andrews P., Ayan N. F., Bhosale S., Edunov S., Fan A., Gao C., Goswami V., Guzman F., Koehn P., Mourachko A., Ropers C., Saleem S., Schwenk H., Wang J. (2022). No Language Left Behind: Scaling Human-Centered Machine Translation // https://arxiv.org/abs/2207.04672
2085
Fan A., Bhosale S., Schwenk H., Ma Z., El-Kishky A., Goyal S., Baines M., Celebi O., Wenzek G., Chaudhary V., Goyal N., Birch T., Liptchinsky V., Edunov S., Grave E., Auli M., Joulin A. (2020). Beyond English-Centric Multilingual Machine Translation // https://arxiv.org/abs/2010.11125
2086
Seamless Communication, Barrault L., Chung Y., Meglioli M. C., Dale D., Dong N., Duquenne P., Elsahar H., Gong H., Heffernan K., Hoffman J., Klaiber C., Li P., Licht D., Maillard J., Rakotoarison A., Sadagopan K. R., Wenzek G., Ye E., Akula B., Chen P., Hachem N. E., Ellis B., Gonzalez G. M., Haaheim J., Hansanti P., Howes R., Huang B., Hwang M., Inaguma H., Jain S., Kalbassi E., Kallet A., Kulikov I., Lam J., Li D., Ma X., Mavlyutov R., Peloquin B., Ramadan M., Ramakrishnan A., Sun A., Tran K., Tran T., Tufanov I., Vogeti V., Wood C., Yang Y., Yu B., Andrews P., Balioglu C., Costa-jussa M. R., Celebi O., Elbayad M., Gao C., Guzman F., Kao J., Lee A., Mourachko A., Pino J., Popuri S., Ropers C., Saleem S., Schwenk H., Tomasello P., Wang C., Wang J., Wang S. (2023). SeamlessM4T-Massively Multilingual & Multimodal Machine Translation // https://aps.arxiv.org/abs/2308.11596
О
6.3.2.6 Метрики и проблемы качества перевода
Хотя поздние RBMT-системы и ранние системы статистического перевода и не смогли достичь уровня качества профессиональных переводчиков, но смогли уверенно доказать свою полезность. Дело в том, что доступность профессионального перевода для среднестатистического читателя весьма ограниченна, особенно если речь идёт о не самых распространённых языках. Вряд ли рядовой пользователь интернет-форумов и социальных сетей станет обращаться к профессиональным переводчикам, чтобы прочитать комментарии иностранцев под видео любимой музыкальной группы. Услуги же системы машинного перевода обычно бесплатны и с точки зрения скорости и простоты выполнения перевода во много раз превосходят услуги людей-переводчиков. Там, где перевод осуществляется в развлекательных целях, цена ошибки сравнительно невелика, тем более что лишь небольшая часть ошибок машинного перевода искажает текст настолько, чтобы сделать непонятным смысл переведённой фразы. За последние два или три десятилетия было проделано множество попыток подсчитать, во сколько раз постредактирование машинного перевода быстрее, чем выполнение перевода с нуля. Полученный разброс оценок составил от двух- до более чем 10-кратного ускорения перевода при использовании постредактирования. И в этом нет ничего удивительного, ведь даже данные отчёта ALPAC говорят о том, что уже в 1960-е гг. постредактирование могло успешно конкурировать с полным переводом «вручную».
Тем не менее оценка реального прогресса в области машинного перевода всегда была связана с определёнными трудностями. Если не брать в расчёт грубые ошибки, оценка качества перевода содержит в себе субъективный элемент. Конечно, можно использовать усреднение оценок разных людей, на этом подходе основана, например, метрика, получившая название «усреднённая субъективная оценка» (Mean opinion score, MOS), однако её расчёт является в ряде случаев весьма затратным и небыстрым мероприятием. Поэтому в 2010-е гг. для оценки качества машинного перевода стали активно использовать автоматизированные метрики, такие как BLEU (Bilingual Evaluation Understudy, Двуязычная оценка сходства) [2087] , TER (Translation Edit Rate, Доля редактирования перевода — аналог WER при распознавании речи) [2088] , AMBER (A Modified BLEU, Enhanced Ranking, Модифицированный BLEU с улучшенным ранжированием) [2089] , METEOR (Metric for Evaluation of Translation with Explicit ORdering, Метрика оценки перевода с явным упорядочением) [2090] , LEPOR (Length Penalty, Precision, n-gram Position difference Penalty and Recall, Штраф за длину, точность, штраф за разницу в позициях n– грамм и полнота) [2091] , nLEPOR [2092] , hLEPOR [2093] , ROUGE (Recall-Oriented Understudy for Gisting Evaluation, Ориентированный на полноту аналог оценки кратких аннотаций) [2094] — изначально разработанная для оценки сжатого изложения текста, BERTScore (оценка перевода при помощи нейросетевой архитектуры BERT, о которой мы поговорим позже) [2095] и так далее. Все эти метрики преследуют одну простую цель — при наличии перевода для оценки, а также референсного (эталонного) перевода, выполненного профессиональным переводчиком, оценить качество сделанного перевода. Если бы каждому предложению соответствовал единственный правильный перевод, то оценка качества перевода была бы тривиальной задачей, однако вариативность естественных языков настолько велика, что оценивать перевод, используя посимвольное сравнение с эталоном, нельзя — полученная оценка будет слабо коррелировать с оценками экспертов. Идея распространённой метрики BLEU, разработанной Кишором Папинени и его коллегами из IBM в 2001 г. [2096] и опубликованной в статье [2097] 2002 г., заключается в том, чтобы рассчитать долю совпадения n-грамм в оцениваемом и референсном переводах, умножить её на поправочный коэффициент в случае, если длина (в словах) оцениваемого перевода меньше длины референсного, и, сделав данные подсчёты для разных n (от униграмм до квадрограмм), вычислить их среднее геометрическое как итоговый результат. Данная метрика является одной из наиболее простых и популярных метрик машинного перевода. Однако из-за простоты её адекватность регулярно подвергается критике, поэтому за последние два десятилетия был предложен ряд улучшений и альтернатив, в детали которых мы сейчас вдаваться не будем. Считается, что значение BLEU больше 0,5 соответствует очень хорошему переводу. В 2012 г. для пары «немецкий — английский» значение BLEU для лучшей из систем, представленных на VII Симпозиуме по статистическому машинному переводу (Workshop on Statistical Machine Translation), составило 0,24 (для сравнения: на сентябрь 2023 г. — 0,41), для пары «французский — английский» — 0,30 (на сентябрь 2023 г. — 0,46), а для пары «испанский — английский» — 0,38 (на сентябрь 2023 г. — 0,42) [2098] , [2099] , [2100] , [2101] . К сожалению, сравнения проделаны на разных параллельных корпусах, поэтому их сопоставимость находится под вопросом, однако в целом прогресс в качестве перевода очевиден.
2087
Papineni K., Roukos S., Ward T., Zhu W.-J. (2002). BLEU: a Method for Automatic Evaluation of Machine Translation / Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics, pp. 311—317 // https://doi.org/10.3115/1073083.1073135
2088
Snover M., Dorr B., Schwartz R., Micciulla L., Makhoul J. (2006). A Study of Translation Edit Rate with Targeted Human Annotation / Proceedings of Association for Machine Translation in the Americas, 2006, pp. 223—231 // http://mt-archive.info/AMTA-2006-Snover.pdf
2089
Chen B., Kuhn R. (2011). AMBER: a modified BLEU, enhanced ranking metric / WMT '11: Proceedings of the Sixth Workshop on Statistical Machine Translation, July 2011, pp. 71—77 // https://www.aclweb.org/anthology/W11-2105/
2090
Banerjee S., Lavie A. (2005). METEOR: An Automatic Metric for MT Evaluation with Improved Correlation with Human Judgments / Proceedings of the ACL 2005 Workshop on Intrinsic and Extrinsic Evaluation Measures for MT and/or Summarization // https://www.aclweb.org/anthology/W05-0909/
2091
Han A. L.-F. (2017). LEPOR: An Augmented Machine Translation Evaluation Metric // https://arxiv.org/abs/1703.08748
2092
Han A. L.-F., Wong D. F., Chao L. S., He L., Lu Y. (2014). Unsupervised Quality Estimation Model for English to German Translation and Its Application in Extensive Supervised Evaluation / The Scientific World Journal, Vol. 2014 // https://doi.org/10.1155/2014/760301
2093
Aaron Li-Feng Han A. L.-F., Wong D. F., Chao L. S., He L., Lu Y., Xing J., Zeng X. (2013). Language-independent Model for Machine Translation Evaluation with Reinforced Factors / Proceedings of the XIV Machine Translation Summit (Nice, September 2–6, 2013), pp. 215—222 // http://www.mt-archive.info/10/MTS-2013-Han.pdf
2094
Lin C.-Y. (2004). ROUGE: a Package for Automatic Evaluation of Summaries / Proceedings of the Workshop on Text Summarization Branches Out (WAS 2004), Barcelona, Spain, July 25—26, 2004 // https://www.aclweb.org/anthology/W04-1013/
2095
Zhang T., Kishore V., Wu F., Weinberger K. Q., Artzi Y. (2020). BERTScore: Evaluating Text Generation with BERT // https://arxiv.org/abs/1904.09675
2096
Marie B. (2022). BLEU: A Misunderstood Metric from Another Age But still used today in AI research / Towards Data Science, Nov 5, 2022. // https://towardsdatascience.com/bleu-a-misunderstood-metric-from-another-age-d434e18f1b37
2097
Papineni K., Roukos S., Ward T., Zhu W.-J. (2002). BLEU: a Method for Automatic Evaluation of Machine Translation / Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics, pp. 311—317 // https://doi.org/10.3115/1073083.1073135
2098
Callison-Burch C., Koehn P., Monz C., Post M., Soricut R., Specia L. (2013). Findings of the 2012 Workshop on Statistical Machine Translation / NAACL 2012 Seventh Workshop on Statistical Machine Translation // http://www.statmt.org/wmt12/pdf/WMT02.pdf
2099
Gao P., He Z., Wu H., Wang H. (2022). Bi-SimCut: A Simple Strategy for Boosting Neural Machine Translation // https://arxiv.org/abs/2206.02368
2100
Wei J., Bosma M., Zhao V. Y., Guu К., Yu A. W., Lester B., Du N., Dai A. M., Le Q. V. (2021). Finetuned Language Models Are Zero-Shot Learners // https://arxiv.org/abs/2109.01652
2101
Liang X., Wu L., Li J., Wang Y., Meng Q., Qin T., Chen W., Zhang M., Liu T.-Y. (2020). R-Drop: Regularized Dropout for Neural Networks // https://arxiv.org/abs/2106.14448