Чтение онлайн

на главную - закладки

Жанры

Шрифт:

Содержание, семантика, смысл кодируется с помощью специальных языков науки и техники и прежде всего с помощью нашего человеческого языка, сложного и неоднозначного. Перевод с этого языка на язык информатики— так можно сформулировать задачу номер один, которая стоит перед современными исследователями.

В поисках языка

Язык машины — язык чисел. На этот язык в принципе должна быть переведена вся информация, накопленная человечеством в области науки и техники, вообще вся сумма знаний, запечатленных в печатной продукции. Кодирование числами началось задолго до появления ЭВМ и информационного взрыва. Списки книг и произведений составлялись и древними греками, и египтянами, и жителями Двуречья. Уже в VII веке до н. э.

на глиняных табличках из библиотеки ассирийского царя Ашшурбанипала давалось заглавие, номер таблички или собрания табличек, образующих «глиняную книгу» и т. д. Более ста лет назад, в 1876 году, американский библиотековед Мелвил Дьюи предложил классифицировать книги, относящиеся к различным областям знания, с помощью десятичных чисел.

Каждый основной раздел этой классификации обозначался одной цифрой, от нуля до девяти. При дальнейшем его делении к этой цифре присоединяется вторая, а затем и третья цифра. А чтобы индексы были всегда трехзначные, к однозначным и двузначным числам Дьюи добавлял нули. Например, естественные науки получают индекс 500, математика тогда будет под индексом 510, астрономия — 520, физика — 530, химия — 540, геология — 550, палеонтология — 560 и т. д.

Сведения о той или иной сфере могут быть в периодических изданиях, словарях и других публикациях. Они могут касаться истории вопроса, могут говорить о практическом применении и о многом другом. Дьюи разработал список таких делений, занумеровал его, и теперь тот или иной номер может присоединяться к трехзначному числу, индексу любого раздела классификации. Например, физика имеет индекс 530, а ее раздел механика — индекс 531. Тогда словари по механике кодируются как 53103 (словари обозначены в списке Дьюи числом 03), история механики — 53109 (09 — обозначение «истории вопроса»).

А как быть со странами или языками? Дьюи предложил для обозначения их использовать окончания индексов филологии и истории, которые зафиксировали различные языки и страны мира. И тогда геология Европы получает обозначение 55040 (первые три цифры — индекс геологии, две вторые — Европы), геология Азии — 55050, геология Африки — 55060 и т. п.

Десятичной классификацией Дьюи пользуются почти девяносто процентов библиотек США и Великобритании. Однако в большинстве стран мира, в том числе и в нашей стране, используется другая десятичная классификация, именуемая универсальной, сокращенно УДК. Создана она была в начале нашего столетия и с тех пор продолжает совершенствоваться и расширяться. В последних изданиях УДК содержится более ста тысяч руб-рик, охватывающих самые различные области человеческого знания. Полный объем ее таблиц составляет около пятисот авторских листов, то есть десяток томов по триста — пятьсот страниц в каждом.

Тысячи учреждений почти в сотне стран мира пользуются системой УДК. По сути дела, это своеобразный международный язык-посредник. Ведь тексты, выходящие на множестве различных языков мира, индексируются с помощью числового кода УДК. Зная этот код, мы можем перевести его символы средствами своего родного языка.

Система УДК. представляет собой иерархию. Вершина ее — десять цифр, от нуля до девяти, обозначающих главные разделы: 0 — общий отдел, 1 — философия, 2 — религия, 3 — общественные науки и т. д. Далее по тому же десятичному принципу каждый из разделов дробится на отдельные подразделы, те, в свою очередь, на группы, группы—на подгруппы и так до тех пор, пока сохраняется необходимость членения. Чем больше развита та или иная область знания, тем больше и глубина деления.

Например, в минералогии и кристаллографии она достигла десятой степени, то есть отдельные понятия записываются в виде десяти цифр (структура кальцита обозначается числом 548.736.442.2, где цифра 5 обозначает математику и естественные науки, 4 — химию и т. д.). Там, где надо, глубина может увеличиваться безгранично.

Приведем для образца запись на УДК фрагмента текста на русском языке. Фраза «Строительство из стали с экономической точки зрения» будет записана так: 624.94.003.1. Первая цифра, шестерка, кодирует прикладные знания, медицину, технику; вторая — двойка — технику и инженерное дело. Сочетание цифр 624.94. обозначает

строительство, каркасные конструкции. А цифры 003.1 — определитель «экономической точки зрения».

И все-таки какой бы совершенной ни была УДК или любая другая классификация этого типа, она не решает главных проблем, возникших в связи с информационным взрывом. Ибо такие системы, если можно так выразиться, одномерны. А поиск информации в наши дни идет по самому различному набору признаков, в многочисленных «измерениях». Специалисты по информатике иллюстрируют это на убедительном и наглядном примере.

Допустим, мы размещаем книги библиотеки по цвету их переплета. В одну группу помещаем книги в красном, в другую — в желтом, в третью — в голубом переплете. Но вот к иам попадает книга в зеленом переплете. Куда ее поместить? Мы выделяем еще одну группу. Когда у нас будет слишком много книг в светло-голубых переплетах, мы эти книги выделим в отдельную подгруппу или даже группу. Оттенки спектра бесчисленны. И мы можем, если потребуется, дробить и дробить эту группировку, используя тот или иной цвет или его оттенок.

Именно так и поступает УДК или подобная ей система. Только вместо бесконечного спектра здесь используется бесконечный ряд чисел. Но представим, что в нашу библиотеку попадает книга, переплет которой частью красный, а частью голубой. Куда ее отнести? К голубым или красным? Если мы отнесем ее и к голубым, и к красным книгам, получится двусмысленность, да и неточность; ведь книга-то не красная и не голубая, а красно-голубая.

Между тем в наше время то и дело возникают именно такие вот «красно-голубые», смешанные области знания, возникшие на стыке наук. Практические же применения их, если продолжить наше сравнение, вообще «серо-буро-малиновые»: медицина переплетается с электроникой, психологией, математикой. Лингвистика, как вы сами убедились, читая эту книгу, стыкуется с инженерией, статистикой и т. д. и т. п. УДК и другие подобные ей системы малопригодны для информационного поиска по любым, заранее не предусмотренным сочетаниям предметов. И совсем непригодны они для поиска по единичным предметам, а также предметам межотраслевого характера, рожденным стыком наук или неожиданным контактом техники и нового открытия в пауке…

Это вывод современных специалистов по информатике. Но задолго до рождения этой науки, еще в 1933 году, выдающийся индийский ученый Шиали Рамамрита Ранганатан указал на слабости цифровой классификации по типу УДК, обозначения «предметов и книг порядковыми числами, необходимого для достижения специфических целей». И не только указал на недостатки старой системы, но и разработал свою систему, весьма оригинальную. Принципы ее и по сей день используют ученые, работающие в области ИПЯ — информационно-поисковых языков. В наши дни создано несколько тысяч таких ИПЯ, так что по своему количеству они могут соперничать с естественными языками.

«Пусто — Непусто», БИТ, «Коран»…

Рассказ о различных информационных языках потребовал бы не очерка, а целой книги. Мы ограничимся лишь несколькими ИПЯ, наиболее известными или интересными.

«Пусто — Непусто» — так назывался первый в нашей стране информационный язык, разработанный в ВИНИТИ в начале шестидесятых годов. Этот ИЯ предназначался для поиска рефератов по электротехнике с помощью ЭВМ. Знаменательные слова, или, говоря языком информатики, дескрипторы кодировались трехзначными числами. Например, фраза «данные о напряжении тока» на этом языке записывалась так: 153.414.883 (153 — данные, 414 — напряжение, 883 — ток). Информационный язык «Пусто — Непусто» применен был для текстов на двух языках — русском и английском.

В 1965 году В. И. Тарасовым был предложен информационный язык «Кристалл». В отличие от «Пусто — Непусто» кодирование в нем смешанное, с помощью слов и цифр. Слова текста записываются в исходной форме, без грамматических форм. С помощью чисел обозначаются отношения между словами. В наши дни язык «Кристалл» применяется в самых различных сферах: с его помощью отыскивается информация в области химии, медицины, приборостроения, легкой промышленности и т. д. Свыше ста тысяч различных документов переведено на этот информационно-поисковый язык.

Поделиться:
Популярные книги

Восход. Солнцев. Книга I

Скабер Артемий
1. Голос Бога
Фантастика:
фэнтези
попаданцы
аниме
5.00
рейтинг книги
Восход. Солнцев. Книга I

Мастер...

Чащин Валерий
1. Мастер
Фантастика:
героическая фантастика
попаданцы
аниме
6.50
рейтинг книги
Мастер...

Газлайтер. Том 18

Володин Григорий Григорьевич
18. История Телепата
Фантастика:
попаданцы
аниме
фэнтези
5.00
рейтинг книги
Газлайтер. Том 18

Камень. Книга 4

Минин Станислав
4. Камень
Фантастика:
боевая фантастика
7.77
рейтинг книги
Камень. Книга 4

Кровь на эполетах

Дроздов Анатолий Федорович
3. Штуцер и тесак
Фантастика:
альтернативная история
7.60
рейтинг книги
Кровь на эполетах

Наследник павшего дома. Том IV

Вайс Александр
4. Расколотый мир
Фантастика:
фэнтези
попаданцы
аниме
5.00
рейтинг книги
Наследник павшего дома. Том IV

Отмороженный 13.0

Гарцевич Евгений Александрович
13. Отмороженный
Фантастика:
боевая фантастика
попаданцы
рпг
фантастика: прочее
фэнтези
5.00
рейтинг книги
Отмороженный 13.0

На границе империй. Том 9. Часть 5

INDIGO
18. Фортуна дама переменчивая
Фантастика:
космическая фантастика
попаданцы
5.00
рейтинг книги
На границе империй. Том 9. Часть 5

Испытание морем

Распопов Дмитрий Викторович
4. 30 сребреников
Фантастика:
попаданцы
альтернативная история
фэнтези
фантастика: прочее
5.00
рейтинг книги
Испытание морем

Я уже князь. Книга XIX

Дрейк Сириус
19. Дорогой барон!
Фантастика:
юмористическое фэнтези
попаданцы
аниме
5.00
рейтинг книги
Я уже князь. Книга XIX

Черный Маг Императора 5

Герда Александр
5. Черный маг императора
Фантастика:
юмористическое фэнтези
попаданцы
аниме
5.00
рейтинг книги
Черный Маг Императора 5

Аристократ из прошлого тысячелетия

Еслер Андрей
3. Соприкосновение миров
Фантастика:
фэнтези
попаданцы
аниме
5.00
рейтинг книги
Аристократ из прошлого тысячелетия

Я не князь. Книга XIII

Дрейк Сириус
13. Дорогой барон!
Фантастика:
юмористическое фэнтези
попаданцы
аниме
5.00
рейтинг книги
Я не князь. Книга XIII

Чехов. Книга 2

Гоблин (MeXXanik)
2. Адвокат Чехов
Фантастика:
фэнтези
альтернативная история
аниме
5.00
рейтинг книги
Чехов. Книга 2