Охота на электроовец. Большая книга искусственного интеллекта
Шрифт:
Воин: Клянусь честью, что жестоко отомщу за смерть брата!
Эльф: С тобой будет мой лук!
Гном: И мой топор!
Некромант: И ТВОЙ БРАТ [2026] .
Если вы пролистаете огромный (почти 500 килобайт) исходный код SHRDLU, то обнаружите, что он состоит из множества хитроумных правил и условий, предназначенных для интерпретации различных видов предложений естественного языка.
2026
Товарищ Силоч (@comrade_siloch) (2020) / Twitter // https://twitter.com/comrade_siloch/status/1217102334376976384
Чтение правил позволяет оценить, насколько изощрённая логика была заложена автором в его систему и какой большой труд был проделан им в процессе разработки. По всей видимости, Виноград провёл уйму экспериментов, чтобы учесть все возможные
6.3.2 Сосиска в тексте: машинный перевод
Царь: Вызывает антирес
Ваш технический прогресс:
Как у вас там сеют брюкву —
С кожурою али без?..
Посол: Йес!
Ещё одна задача из области обработки естественного языка, возможно не такая зрелищная, как предыдущие, но весьма востребованная на практике, — автоматизация работы переводчика или по крайней мере повышение производительности его труда. Хотя определённые идеи, давшие начало развитию этой области, зародились ещё в древности, полноценным годом её рождения нужно, по всей видимости, считать 1933 год. Именно в этом году произошли два важных события, положивших начало новому направлению в области информационных технологий.
6.3.2.1 Первые проекты Смирнова-Троянского и Арцруни
В 1933 г. советский изобретатель Пётр Смирнов-Троянский, выпускник Института красной профессуры, представил в Академию наук СССР проект разработанной им конструкции «машины для подбора и печатания слов при переводе с одного языка на другой». Машина представляла собой стол с наклонной поверхностью, перед которым был закреплён фотоаппарат, сопряжённый с печатной машинкой. На поверхности стола было расположено так называемое «глоссарное поле» — свободно перемещающаяся пластина с напечатанными на ней словами на нескольких языках. В том же году Смирнову-Троянскому было выдано авторское свидетельство на это изобретение.
В том же 1933 г. Жорж Арцруни, французский инженер армянского происхождения, запатентовал сходное устройство.
«Механический мозг», предложенный Арцруни, представлял собой универсальное запоминающее устройство со средствами для поиска и печати сохранённой в нём информации. В отличие от Троянского Арцруни не считал машинный перевод основной областью применения своей машины. Он предлагал использовать её для автоматического формирования расписания движения поездов, создания автоматизированных телефонных справочников, подготовки банковских выписок и каталогов антропометрических записей. Арцруни считал, что его устройство особенно хорошо подходит для криптографии — и лишь среди прочего для перевода текстов с одного языка на другой [2027] .
2027
Hutchins J. (2004). Two precursors of machine translation: Artsrouni and Trojanskij / International Journal of Translation, Vol. 16(1), January—June 2004, pp. 11—31 // http://www.hutchinsweb.me.uk/IJT-2004.pdf
Смирнов-Троянский и Арцруни, по всей видимости, не были первыми изобретателями, предложившими создание систем, предназначенных для автоматизации процесса перевода. Идея механического перевода с одного языка на другой высказывалась ещё Лейбницем. Попытки же создания таких устройств были предприняты примерно за десятилетие до Смирнова-Троянского и Арцруни. Например, 24 февраля 1924 г. эстонская газета «Свободная страна» (Waba Maa) сообщила [2028] о проекте пишущей машинки, способной выполнять автоматический перевод текста, разработанной изобретателем А. Вахером. К сожалению, о дальнейшей судьбе изобретателя и его машины ничего неизвестно. Впрочем, другая эстонская газета, «Понедельник» (Esmaspaev), почти за год до этого в статье [2029] с таким же заголовком («Пишущая машинка — переводчик») сообщала, что в Лондоне создана система, состоящая из двух печатных машинок, способная осуществлять перевод текста. Появление этой машины авторы статьи считали предвестником великого будущего. Скорее всего, прототипом для этого материала стала одна из существовавших
2028
Kirjutusmafin-tolk (1924) / Waba maa, Num. 46, 24 February 1924, p. 4 // https://dea.digar.ee/page/wabamaa/1924/02/24/4
2029
Kirjutusmafin-tolk (1923) / Esmaspaev, 19 november 1923, p. 1 // https://dea.digar.ee/article/esmaspaev/1923/11/19/11
Конструкции Смирнова-Троянского и Арцруни стали первыми из дошедших до нас детально проработанными проектами переводящих устройств. При этом как минимум машина Арцруни была выполнена «в железе». Впрочем, в электромеханическую эпоху этим устройствам так и не удалось стать серийными образцами. Изобретение Смирнова-Троянского было встречено в академических кругах весьма скептически и забыто до конца 1950-х.
Устройство Арцруни демонстрировалось на Парижской универсальной выставке 1937 г., где получило награду (diplome de grand prix) секции обработки данных (mecanographie). Представители ряда государственных организаций были весьма впечатлены демонстрацией и заключили предварительные контракты с изобретателем на разработку прототипов различных систем, основанных на изобретённой Арцруни системе механической памяти. Французская почта заинтересовалась созданием машины для учёта почтовых чеков, железнодорожные чиновники хотели получить машину для печати билетов в различные пункты назначения, а Министерство обороны нуждалось в системе регистрации и учёта военнопленных. Конец всем этим планам был положен оккупацией Франции нацистами в 1940 г.
Смирнов-Троянский до конца жизни продолжал работать над своей концепцией автоматического перевода, стремясь доказать скептикам, что, хотя его устройство и не может выполнять переводы, сравнимые по качеству с результатами труда профессиональных переводчиков, оно всё же способно существенно сократить трудозатраты на процесс перевода. Он выпустил ещё несколько статей, посвящённых более детальной проработке концепции машинного перевода, а также полемике со своими критиками, однако его исследования до второй половины 1950-х годов были известны лишь чрезвычайно узкому кругу специалистов. Интерес к его исследованиям проснулся лишь тогда, когда были осуществлены первые эксперименты по машинному переводу с применением ЭВМ. В 1959 г. Академия наук СССР опубликовала обширное собрание сочинений Смирнова-Троянского. Однако самому изобретателю не суждено было дожить до признания своих идей [2030] .
2030
Hutchins J. (2004). Two precursors of machine translation: Artsrouni and Trojanskij / International Journal of Translation, Vol. 16(1), January—June 2004, pp. 11—31 // http://www.hutchinsweb.me.uk/IJT-2004.pdf
6.3.2.2 Использование ЭВМ и формулирование теории машинного перевода
Задачу использования ЭВМ для перевода текстов с одних естественных языков на другие впервые в явном виде сформулировали в конце 1940-х годов директор отделения естественных наук фонда Рокфеллера Уоррен Уивер (уже знакомый нам по истории создания «Бюллетеня математической биофизики» Рашевского) и британский исследователь из Биркбек-колледжа (Университет Лондона) Эндрю Бут.
С марта 1947 г. Уивер вступил в переписку с Норбертом Винером, интересуясь мнением того о перспективах машинного перевода. Винер, впрочем, проявил некоторый скепсис, поскольку считал преждевременным изучение данной задачи. В одном из писем к Винеру Уивер предложил в качестве чернового решения использовать словарь биграмм (напомним, что биграмма — серия из двух слов, встречающихся в тексте последовательно). При 2000 слов в словаре список биграмм включал бы в себя 4 млн элементов, что не выглядело таким уж большим числом для компьютера того времени.
Уивер, занимавшийся во время Второй мировой войны проблемами, связанными с криптографией, считал, что задача машинного перевода по своей сути близка к задаче дешифровки. «Когда я вижу текст на русском языке, я говорю себе, что на самом деле он написан по-английски и зашифрован при помощи странных знаков. Мне надо просто его расшифровать», — писал он в письме Винеру.
Проблема перевода в те годы действительно была тесно переплетена с задачами криптографии. Здесь сразу же вспоминается история «говорящих с ветром» — индейцев навахо, служивших радистами-шифровальщиками в американской армии. Использование редкого и сложного языка при передаче сообщений серьёзно затрудняло их расшифровку. Сама идея использовать индейские языки для пересылки сообщений была испытана ещё во время Первой мировой, тогда в американской армии радистами служили восемь представителей народа чокто. В рассказе писателя-фронтовика Николая Богданова «Дружба» [2031] описано, как советские солдаты применили для фронтовой радиопередачи казахский язык. Наверняка можно найти ещё немало подобных примеров.
2031
Богданов Н. В. Дружба / Богданов Н. В. (1958). О смелых и умелых // http://www.kulichki.com/moshkow/PRIKL/BOGDANOW/smelye.txt