Охота на электроовец. Большая книга искусственного интеллекта, Марков Сергей Николаевич

Охота на электроовец. Большая книга искусственного интеллекта

на обложку

Марков Сергей Николаевич

Шрифт:

Первая половина отчёта посвящена исследованию потребностей в переводах американских учёных и государственных служащих, а также вопросу количества переводчиков с русского языка. ALPAC начал отчёт с предложения, что поскольку английский является основным языком научной литературы (76% всех статей в 1965 г.), то, возможно, самым простым и экономически выгодным решением будет обучить всех нуждающихся в чтении русскоязычных материалов чтению статей на языке оригинала. Авторы отчёта исходили из предположения о том, что для овладения этим навыком нужно потратить не более 200 часов времени (видимо, имея в виду вышеуказанный опыт быстрого обучения учёных русскому языку для перевода).

Затем комитет рассмотрел вопрос о количестве переводчиков (штатных и внештатных), выполняющих переводы по заказам государственных учреждений. ALPAC не смог определить точное количество штатных переводчиков, но установил, что средняя зарплата переводчиков была заметно ниже, чем у работавших в тех же учреждениях учёных,

притом что текучка кадров среди переводчиков весьма низка. На основании этих и некоторых других фактов комитет пришёл к выводу, что предложение в области перевода превышает спрос, резюмируя итоги анализа ситуации с переводами следующим образом: «В области перевода отсутствует какая-либо чрезвычайная ситуация. Задача не в том, чтобы удовлетворить какую-либо несуществующую потребность посредством несуществующего машинного перевода. Однако существует несколько важных проблем с переводами, а именно их качество, скорость и стоимость».

Для оценки качества ALPAC организовал эксперимент, в ходе которого оценивались переводы, выполненные как людьми, так и машинами. Авторы отчёта проанализировали работу четырёх систем машинного перевода. Помимо системы Джорджтаунского университета и системы, разработанной Гилбертом Кингом во время его работы в IBM и использовавшейся в то время в Отделе иностранных технологий (Foreign Technology Division, FTD), также изучались экспериментальные прототипы систем от компаний Bunker-Ramo и Computer Concepts. Компания Computer Concepts была основана выходцем из Джорджтаунского проекта Питером Тома. Системой, представленной Computer Concepts на тестирование, была, по всей видимости, AUTOTRAN, основанная во многом на версии джорджтаунской системы под названием SERNA и являвшаяся предшественницей популярной в будущем системы SYSTRAN.

В отношении скорости перевода ALPAC видел немалый потенциал для улучшения: учёные жаловались на задержки. Машинный перевод текста за счёт затрат на ручное редактирование полученных переводов на деле был медленнее, чем перевод, выполняемый людьми. Исходя из того, что плата переводчикам-людям варьировала в пределах от 9 до 66 долларов за 1000 слов, а также из факта, что читатель неотредактированного машинного перевода затрачивал на чтение статьи в среднем в два раза больше времени, чем на чтение качественного перевода, выполненного человеком, авторы ALPAC подсчитали, что если документ должен быть прочитан более чем 20 людьми, то традиционный человеческий перевод оказывается дешевле машинного.

Вторая половина отчёта начинается тем, что авторы ALPAC определили машинный перевод как алгоритмическую процедуру, получающую на вход машиночитаемый текст и производящую на выходе полезный текст без привлечения людей-переводчиков или редактуры. Основываясь на этом определении и изучении опыта использования систем машинного перевода, комиссия пришла к выводу, что машинного перевода произвольного научного текста в настоящее время не существует и не предвидится в ближайшей перспективе. В качестве подтверждения своего вывода авторы отчёта привели тот факт, что «после восьми лет работы, в 1962 г., в проекте машинного перевода Джорджтаунского университета для получения полезного результата вынуждены прибегать к постредактированию. При этом перевод с последующим редактированием выполняется дольше и обходится дороже, чем обычный перевод человека». К постредактированию машинного перевода прибегали и пользователи системы в FTD, что, по мнению ALPAC, также было свидетельством фиаско.

Вывод экспертов ALPAC в отношении качества машинного перевода был следующим: «Неотредактированный машинный перевод научного текста по большей части можно разобрать, но иногда он вводит в заблуждение, а иногда неверен… это делает чтение медленным и мучительным». По мнению комитета, исследования в области машинного перевода следовало продолжать во имя науки, но не рассчитывать на ощутимое улучшение в практике перевода: «Возможно, наше отношение могло быть другим, если бы существовала некая насущная потребность в машинном переводе, но мы её не обнаружили». По сути, формулировки экспертов ALPAC были убийственными: если бы в мире где-то и существовало военное ведомство, финансирующее что-либо во имя науки, то его, вне всякого сомнения, добавили бы в список семи чудес света под номером ноль.

С несколько большим энтузиазмом авторы отчёта смотрели на системы, призванные облегчить работу людей-переводчиков: базы данных терминов, глоссарии и так далее. Это технологическое направление в наши дни называют обычно автоматизированным переводом (Computer-Aided Translation, CAT). Лейтмотивом выводов ALPAC была мысль о том, что подобные инструменты, какими бы примитивными они ни были, с экономической точки зрения гораздо эффективнее, чем любые системы машинного перевода.

Итоговые рекомендации ALPAC заключались в том, что государству следует поддерживать исследования в определённых областях:

• практические методы оценки переводов;

• средства для ускорения процесса перевода,

выполняемого людьми;

• оценка качества и стоимости различных источников переводов;

• изучение использования переводов (для защиты от выполнения невостребованных переводов);

• изучение задержек в общем процессе перевода и способов их устранения (в отношении как журналов, так и отдельных статей);

• оценка относительной скорости и стоимости различных видов машинного перевода;

• адаптация существующих процессов механизированного редактирования и производственных процессов для задач перевода;

• обобщённый процесс перевода;

• подготовка адекватных справочных работ для переводчика, включая адаптацию глоссариев, которые в настоящее время существуют в основном для автоматического поиска в словарях при машинном переводе.

Интересно, что категорические выводы экспертов ALPAC не слишком согласуются с данными опроса переводчиков, приведёнными в одном из приложений к отчёту. В приложении 14 сообщается об исследовании, в рамках которого 22 переводчикам было предложено сравнивать сложность перевода двух фрагментов из книги по кибернетике со сложностью постредактирования машинного перевода тех же фрагментов. Голоса переводчиков разделились поровну: восемь из них посчитали постредактирование более сложной задачей, шесть сочли обе задачи примерно одинаковыми по сложности, а восемь заявили, что постредактирование было проще. Это не единственная претензия, которую можно предъявить к выводам комиссии. Например, указанная в отчёте оценка суммы государственных вложений в системы машинного перевода, по всей видимости, завышена примерно в полтора раза (до 20 млн долларов вместо 12–13). Впрочем, с формальной точки зрения выводы отчёта не выглядели катастрофичными. Более того, авторы признавали, например, тот факт, что исследования в области машинного перевода помогли совершить серьёзный прорыв в области лингвистики. Однако в вопросе о том, можно ли в обозримом будущем рассчитывать на прикладные результаты, отчёт давал вполне однозначный ответ — нет. Эта мысль красной нитью проходит через весь текст документа. По всей видимости, именно этот вывод повлиял на дальнейшие бюджетные решения. Отчёт ALPAC сыграл примерно ту же роль для машинного перевода, что и приснопамятное письмо Бэббиджа Веллингтону для проекта разностной машины: разочарованные невозможностью получить быстрый хозяйственный эффект, лица, принимающие решения, предпочли резко сократить финансирование. За 130 лет масштаб инновационных проектов вырос многократно, однако с финансовой точки зрения они стали только более уязвимыми, поскольку для своего развития требовали куда более значительной концентрации финансовых и материальных ресурсов. Если Бэббидж мог взять на себя половину затрат на свой проект, то в годы баснословной дороговизны машинного времени ЭВМ подобную схему финансирования было трудно представить.

Впрочем, как отказ правительства Великобритании финансировать проект Бэббиджа, так и резкое сокращение финансирования проектов в области машинного перевода по итогам рассмотрения отчёта ALPAC не привели к полной остановке работ в соответствующих областях. Считается, что результатом работы ALPAC стала утрата интереса к области машинного перевода в США на десять лет (а если говорить об отказе в правительственном финансировании проектов в этой области, то и на более длительный период), а также формирование стойкого убеждения в том, что идея машинного перевода обернулась полным провалом (некоторые динозавры считают так и по сей день). Но, хотя влияние отчёта на отрасль в целом и не подвергается сомнению, в некоторых отношениях оно, возможно, преувеличено. Исследования машинного перевода в США не были прекращены полностью и бесповоротно, некоторые исследовательские группы продолжали работу над проектами в этой области — например группа под руководством Гарри Джоссельсона в Университете Уэйна (Wayne State University, WSU) или группа под руководством Уинфреда Леманна и Рольфа Стаховица в Университете Техаса. При этом многие проекты в области машинного перевода лишились государственного финансирования ещё до выхода отчёта. Например, в 1962 г. было прекращено финансирование соответствующих программ в Университете штата Вашингтон и Мичиганском университете. Проект Джорджтаунского университета, чья система была подвергнута резкой критике со стороны ALPAC, не получал финансирования после 1963 г. [2046] И наконец, некоторые проекты развивались за счёт средств частного сектора, как, например, уже упомянутая SYSTRAN Питера Тома. Появление этой системы, на многие годы ставшей «золотым стандартом», пришлось на самый разгар «зимы машинного перевода».

2046

Hutchins J. (1996). ALPAC: the (in)famous report / MT News International, No. 14, June 1996, pp. 9—12 // http://www.hutchinsweb.me.uk/MTNI-14-1996.pdf