Чтение онлайн

на главную - закладки

Жанры

Об ИИ без мифов. Путеводитель по истории Искусственного Интеллекта
Шрифт:

История NLP

NLP принято переводить как «обработка текста на естественном языке», хотя в оригинале текст не упомянут. Перевод вообще странен, если вдуматься. «Текст на естественном языке», а бывают ли тексты на неестественном языке? Казалось бы, к NLP имеют отношение лингвисты, а это явная периссология, пользуясь их терминологией, поэтому оставим NLP. Подавляющая часть работ из области NLP связана с операциями над текстами, но есть еще устная речь и другие знаковые системы, например, жестовые языки, из NLP им посвящено небольшое количество публикаций.

Многие источники определяют NLP как способность программы или компьютера понимать человеческий язык или текстовые документы, хотя точнее интерпретировать, возможность такого перевода understanding обсужден выше. NLP, так же как

и CV, служит интерфейсом между уровнем данных и уровнем информации в пирамиде DIKW, то есть представляет собой средство преобразования данных-текстов в более удобную для человека форму, иначе говоря, NLP – это зонтичный термин для различных средств, служащих для автоматизации работы с текстами. Потребность в них постоянно возрастает, поскольку человечество порождает тексты с гигантской скоростью. На своеобразие NLP, как научного направления, влияют особенности языка – это не некое объективно существующее природное явление с известными свойствами, язык – является плодом тысячелетней эволюции, он создан человеческим сообществом и не имеет строгих законов, неоднозначен и перманентно изменяется во времени. Наука о языке не может быть столь же стройной как естественные науки, по этой причине не удается выстроить совершенно строгую и логичную последовательность имен и открытий, приведших к тому виду, в котором это направление AuI существует сегодня. NLP сложилось примерно так как складывается большое мозаичное полотно.

Предыстория NLP

По данным палеолингвистики – одного из направлений исторической лингвистики, реконструирующего дописьменные языки, предпосылки к появлению языка как средства коммуникации возникли примерно полмиллиона лет назад. Сторонники моноцентрической теории считают, что следующий шаг – создание единого прамирового языка – был сделан 70 тысяч лет назад, разумеется эти даты достаточно условны. Количество существующих на данный момент живых языков колеблется в пределах от 2500 до 7000, количество мертвых не поддается оценке. Долгие тысячелетия язык существовал в форме устной речи, в отдельных горных районах есть свистящие языки и по историческим меркам совсем недавно, в XIX веке были созданы жестовые языки для неслышащих.

Первые опыты записи простейших сообщений датируются 9-м тысячелетием до н. э., об этом свидетельствуют найденные в Месопотамии глиняные печати. Самую раннюю из известных систем письма, клинопись, придумали шумеры в 4-м тысячелетии до н. э. Первые попытки изучения языка датируются 2-м тысячелетием, это случилось в Вавилоне, там глиняные таблички размножились в таком количестве, что были созданы прообразы библиотек с элементами каталогизации. С тех пор и на протяжении столетий параллельно сосуществовали два направления: одно – исследования языка, приведшие к появлению науки лингвистики, второе – систематизация текстов, начавшееся с создания библиотечных систем, вылившееся в информационную науку (information science). В СССР до семидесятых годов совершенно заслуженно называли ее информатикой, но потом это название усилиями относительно небольшой группы энтузиастов у нее отобрали и так стали называть computer science, чем создали изрядные затруднения.

Радикальные изменения в работе с текстами начались в конце XV века в Европе после изобретения печати наборным шрифтом, обычно его связывают с именем Иоганна Гутенберга (Johannes Gutenberg, 1400–1468). Печатные оттиски с цельных досок делали намного раньше, что же касается набора из отдельных литер, он был изобретен в Китае за два столетия до Гутенберга. Наборная печать оказался востребована и обрела популярность в Европе под влиянием преобразований Эпохи Возрождения. Набор не только привел к увеличению тиражей книг, но еще и способствовал созданию определенных стандартов на издания, что позволило перейти от плохо упорядоченных монастырских скрипториев к близким к современности университетским библиотекам с их систематическим хранением книг.

Каталоги, как неотъемлемая часть любой библиотеки, были придуманы в еще Ассирии в середине 1 века до н. э., но свой классический вид (ящики с каталожными карточками) они приобрели благодаря изобретению Карла Линнея. Этот ученый создал не только единую систему классификации растительного и животного мира, но и вообще стал основоположником систем классификации, за что получил титул «отца современной таксономии».

До Линнея каталоги имели вид тетрадей, а он заменил непрерывные тетради дискретными карточками, которые можно дополнять и переупорядочивать со всеми вытекающими последствиями. Библиотечные каталоги на карточках появились впервые в Австро-Венгрии в 1780 году, для записи данных о книгах использовалась рубашка удобных по формату игральных карт. После Французской революции и в наполеоновские времена карточные каталоги были заметно усовершенствованы. Окончательный стандарт на формат карточки 3х5 дюймов и конструкцию ящика был прият в конце XIX века. С 90-х годов прошлого века бумажные каталоги стали вытесняться компьютерными и в 2015 был напечатан последний тираж каталожных карточек.

С появлением печатных книг возникла массовая грамотность, она стимулировала изучение языка и появление лингвистики. Впрочем, термин лингвистика (linguistics) появился намного позже, только лишь в середине XIX века, до этого лингвистами (linguist) называли студентов, изучающих язык. Предпосылки к созданию новой науки создал Вильгельм фон Гумбольдт, а также Иоганн Гердер и Иоганн Кристоф Аделунг. Отцом современной лингвистики считают швейцарца Фердинанда де Соссюра (Ferdinand de Saussure, 1857–1913), основателя Женевской лингвистической школы, заложившего основы структурной лингвистики. Материалы прочитанных им лекций собрали и издали в виде книги «Курс общей лингвистики» в 1916 году его ученики Шарль Балли и Альбер Сеше. История лингвистики – самостоятельная дисциплина, мы ее затрагивать не будем.

В истории обнаруживаются и более ранние попытки применить формальные методы для работы с текстами, известен, например, Авраам бен Самуэль Абулафия, еврейский мыслитель и каббалист, живший в Испании во второй половине XIII века. Он был современником Раймунда Луллия, есть сведения, что Абулафия и Луллий состояли в переписке. Объектом исследования Абулафии был трактат Сефер Йецира (Книга творения) – один из основополагающих каббалистических текстов. В нем рассматривается то, как бог создал язык и способ его записи 22 буквами еврейского алфавита. Абулафия пошел дальше, он стремился понять можно ли, следуя формальным правилам, манипулировать символами для получения новых истин. Идеологически Абулафия и Луллий близки, первый манипулировал буквами, а второй с помощью своей машины – словами. Абулафия назвал созданное им наукой о комбинации букв, которую можно считать зародышем NLP.

В своем романе «Маятник Фуко» Умберто Эко вернул имя Абулафии в современную массовую европейскую культуру, так им назван персональный компьютер, принадлежащий главному героем Бельбо. Этот компьютер, используемый для работы с текстами, стал наравне с людьми одним из персонажей «Маятника», а выдержки из книги Абулафии Эко использует в качестве эпиграфов к главам.

Как это ни странно, но близкой к кабалистическим представлениям Абулафии о языке оказалась диссертация «О комбинаторном искусстве» (On the Combinatorial Art) Готфрида Лейбница, написанная им в 1666 году в двадцатилетнем возрасте до того, как он стал признанным универсальным гением, проявившим себя в философии, логике, математике, механике, физике и даже юриспруденции, истории и дипломатии. В зрелом возрасте Лейбниц изменил свои взгляды на более здравые, когда в 1690 году диссертацию издали без согласования с ним, он выразил категорический протест.

NLP, данные и информация

Текст – это символьные данные, содержащие информацию, если текст обозрим, то человек без всякой помощи прекрасно справляется с решением задачи преобразования этих данных в полезную для себя информацию. Но в наше время объем текстов, доступных в цифровой форме, таков, что человек с ним справиться не может и возникает потребность в автоматизации этого процесса. Возвращаясь к иерархической модели DIKW, можно сказать, что NLP – это технология преобразования текстовых, она служит инструментом для интеллектуального анализа текстов (text mining, TM), для преобразования неструктурированного текста на естественном языке в нормализованные структурированные данные, которые можно хранить в базах или хранилищах данных и т. д. NLP сочетает методы лингвистики, математики и компьютерной науки и делится на две взаимодополняющие составляющие Natural Language Understanding (NLU) и Natural Language Generation (NLG).

Поделиться:
Популярные книги

Истинная со скидкой для дракона

Жарова Анита
Любовные романы:
любовно-фантастические романы
5.00
рейтинг книги
Истинная со скидкой для дракона

Герцог и я

Куин Джулия
1. Бриджертоны
Любовные романы:
исторические любовные романы
8.92
рейтинг книги
Герцог и я

На границе империй. Том 9. Часть 5

INDIGO
18. Фортуна дама переменчивая
Фантастика:
космическая фантастика
попаданцы
5.00
рейтинг книги
На границе империй. Том 9. Часть 5

Росток

Ланцов Михаил Алексеевич
2. Хозяин дубравы
Фантастика:
попаданцы
альтернативная история
фэнтези
7.00
рейтинг книги
Росток

Демон

Парсиев Дмитрий
2. История одного эволюционера
Фантастика:
рпг
постапокалипсис
5.00
рейтинг книги
Демон

Огромный. Злой. Зеленый

Новикова Татьяна О.
1. Большой. Зеленый... ОРК
Любовные романы:
любовно-фантастические романы
5.40
рейтинг книги
Огромный. Злой. Зеленый

Запечатанный во тьме. Том 1. Тысячи лет кача

NikL
1. Хроники Арнея
Фантастика:
уся
эпическая фантастика
фэнтези
5.00
рейтинг книги
Запечатанный во тьме. Том 1. Тысячи лет кача

Тайны ордена

Каменистый Артем
6. Девятый
Фантастика:
боевая фантастика
попаданцы
7.48
рейтинг книги
Тайны ордена

Кодекс Охотника. Книга VI

Винокуров Юрий
6. Кодекс Охотника
Фантастика:
фэнтези
попаданцы
аниме
5.00
рейтинг книги
Кодекс Охотника. Книга VI

Неудержимый. Книга XXI

Боярский Андрей
21. Неудержимый
Фантастика:
попаданцы
аниме
фэнтези
5.00
рейтинг книги
Неудержимый. Книга XXI

Возлюби болезнь свою

Синельников Валерий Владимирович
Научно-образовательная:
психология
7.71
рейтинг книги
Возлюби болезнь свою

На границе империй. Том 5

INDIGO
5. Фортуна дама переменчивая
Фантастика:
боевая фантастика
попаданцы
7.50
рейтинг книги
На границе империй. Том 5

Виконт, который любил меня

Куин Джулия
2. Бриджертоны
Любовные романы:
исторические любовные романы
9.13
рейтинг книги
Виконт, который любил меня

Академия проклятий. Книги 1 - 7

Звездная Елена
Академия Проклятий
Фантастика:
фэнтези
8.98
рейтинг книги
Академия проклятий. Книги 1 - 7