Электронные издания, Вуль Владимир Абрамович

Электронные издания

на обложку

Вуль Владимир Абрамович

Шрифт:

В настоящее время достигнута тесная интеграция различных издательских сетевых технологий: издательская корпоративная интрасеть посредством экстрасети обеспечивает защищенный обмен информацией через региональные сети и глобальную сеть Интернет. Такие связи используются не только для распространения информации об изданиях, издательской рекламы и для решения дистрибьюторских задач, но и для извлечения из сети Интернет информации об изданиях в определенной тематической области и определенных авторов, в частности, работающих с данным издательством. Именно это определяет необходимость соответствия между структурой издательских баз данных и представлением информации в информационных хранилищах, а также в глобальной сети и на поисковых серверах.

Элементы метаинформации позволяют осуществить детерминированный поиск одного или группы изданий. В некоторых случаях наряду с детерминированным поиском требуется обеспечить поиск по другим признакам, в частности, по тематике изданий. Для этого необходимо каждому изданию поставить в жесткое соответствие набор ключевых слов, на основе которого

возможна организация почти детерминированного поиска этого изданий. Известно, что в настоящее время основным источником для быстрого получения исчерпывающей информации по самым различным вопросам стала Всемирная сеть Интернет. Именно оттуда следует пытаться с наименьшими затратами, включая рабочее время работников издательства, извлечь нужные данные. Заполнение модулей издательской БД, рассмотренных в главе 7, может производиться вручную, силами специально выделенных сотрудников издательства, но гораздо лучше разработать механизмы для автоматического поиска и извлечения нужной информации из сети Интернет и последующего занесения этой информации в БД.

Как уже говорилось ранее (см. главу 2), функция описания поискового образа документа была возложена на тэг <META>. До этого в качестве поискового образа документа использовался либо весь документ, либо слова первого абзаца. Тэг <META> имеет 2 параметра: NAME, с помощью которого задается имя атрибута и CONTENT, который определяет значение или содержимое этого атрибута. Например:

<META NAME="author" CONTENT="В. А. Вуль">.

<META NAME="description" CONTENT="Учебное пособие АВТОМАТИЗИРОВАННЫЕ ИЗДАТЕЛЬСКИЕ СИСТЕМЫ И ТЕХНОЛОГИИ"> или

<META NAME="description" CONTENT = "документ посвящен проблемам применения тэга \'МЕТА\' для описания атрибутов и ключевых слов, используемых в гипертекстовом документе">.

<META NAME="keywords" CONTENT="метаинформация, поиск по ключевым словам, учебное пособие, HTML-документ, атрибутивный поиск>.

Здесь с помощью параметра NAME="description" тэга <META> можно задать как название документа, так и его описание или реферат, который сохраняется в качестве пояснения в ссылке на документ в базе данных поискового сервера и выдается на экран монитора в ответе на запрос к серверу. С помощью параметров тэга <META> можно также задать: имя автора, название издательства, время выхода документа в свет, срок хранения документа в сети, и даже список ключевых слов, используемых в нем.

Наиболее последовательно использование этого тэга в поисковых стратегиях реализовано на поисковом сервере Webcrawler. При индексировании документа поисковым роботом значения параметра CONTENT тэгов <META> после фильтрации попадет в индекс поисковой машины и может быть использовано для составления запросов. Процесс фильтрации отбракует в них стоп-слова. В составе атрибутов будут учтены автор, название и т. п.

Многие роботы, индексирующие документы HTML, пользуются описанием, которые они находят в параметре "description" при выводе информации о найденных документах. Если этой инструкции в документе не окажется, то в результатах поиска будет содержаться описание документов в виде 256 или 512 первых их символов, разумеется, за вычетом команд языка HTML. Возможность контролировать то, какое описание страницы получит пользователь, позволяет повысить шансы на извлечение этой Web-страницы посетителем, интересующимся именно этой темой. Наличие мета-описания позволяет пользователю поисковой машины даже при беглом просмотре списка обнаружить нужные ему страницы.

Тэг <META> используется многими программами подготовки документов. Они размещают в нем свой идентификатор. В общем случае контейнер <META> и </META> выглядит следующим образом:

Практика показывает, что при индексировании можно указывать одновременно и атрибут NAME и атрибут HTTP-EQUIV с одинаковыми значениями. Это связано с тем, что одни роботы-индексировщики анализируют содержание META-элемента по атрибуту NAME, а другие – по атрибуту HTTP-EQUIV [42]. В качестве примера на рис. 8.1 приводится заголовочная часть HTML-документа, полученного в результате конвертирования этого раздела, подготовленного в редакторе Word 2000, в HTML-формат с помощью диалогового окна Сохранить как , где в качестве типа файла указано значение Web-страница .

Рис. 8.1. Начало заголовочной части HTML-документа

На рис. 8.1 показана только малая часть содержимого контейнера <HEAD> и </HEAD>. Все содержимое превышает 400 строк текста. Гипертекстовый документ представляется в формате HTML 5.0, который еще не утвержден в качестве стандарта и поддерживается только программными средствами фирмы Microsoft. С помощью самого тега <META> представлена информация о том, что для подготовки исходного документа и его преобразования в HTML-формат использовался редактор Word и что кодировка текста соответствует странице Windows-1251. Затем следует заголовок документа, который совпадает с названием раздела. Далее в тэге комментариев (< !– – >) указаны его свойства (<o:DocumentProperties>). В свойствах размещены сведения о тематике документа (<o:Subject>Учебное пособие для студентов СЗИП ПГУТД </o:Subject>), авторе (o:Author>В. А. Вуль</o:Author>), времени создания документа (2002-01-02), количестве содержащихся в нем страниц, слов и символов, а также строк (125) и абзацев (22).

Перечислены также ключевые слова, но, к сожалению, это лишь те ключевые слова, которые автоматически выделяет из текста редактор Word 2000 в режиме команды Автореферат меню Сервис . Попутно отметим, что основную часть содержательных сведений автор занес вручную в диалоговом окне Свойства , вызываемом с помощью одноименной команды меню Файл . Следует также заметить, что поисковые роботы не умеют пока обрабатывать новые тэги языка HTML, представленные в версии 5.0. Таким образом, пока практически вся информация, заносимая в заголовочную часть HTML-документа в данном редакторе, совершенно не используется в поисковых стратегиях, а лишь увеличивает объем гипертекстового документа (см. также главу 4). В дальнейшем следует ожидать увеличение роли мультимедийных данных и их постепенное включение в электронные издания, хранимые на нижнем уровне издательской БД. Это потребует разработки новых поисковых стратегий и модернизации тэга <META> таким образом, чтобы он позволял описывать не только текстовые, но и мультимедийные компоненты.

8.1.2. Организация поиска документов по заданной тематике

Каждый раз в начале любой исследовательской работы, фундаментальной, поисковой или прикладной, авторы должны выполнить этап просмотра основных литературных источников и составление резюме или постановки задачи на этой основе. Большинство современных научных и инженерных публикаций может быть обнаружено в сети Интернет. Поиск и классификация этих документов требует обычно определенных затрат времени, но, в большинстве случаев, может быть выполнена без участия человека, т. е. этот процесс может быть формализован и автоматизирован. Остановимся на методике автоматизации процесса поиска и классификации документов, извлекаемых из сети Интернет.

Прежде всего возникает вопрос, на каком поисковом сервере искать нужные литературные источники? Здесь можно отталкиваться от результатов исследования работы шести поисковых серверов, входящих в десятку наиболее известных – AltaVista, Excite, HotBot, Infoseek, Lycos и Northern Light. Сотрудники исследовательского центра NEC Research Institute в Принстоне – пришли к выводу [1], что с помощью одной поисковой системы можно найти не больше одной трети размещенных в WWW документов по заданной тематике. Хотя авторы и не указывают методику оценки релевантности найденных документов, но в целом с ними следует, видимо, согласиться. Согласно данным этой статьи в совокупности индексы всех шести поисковых служб охватывают в 3,5 раза больше документов, чем каждый из них. Из этого следует вывод: самый простой способ повысить шансы на успех при поиске информации – использовать сразу несколько поисковых механизмов. В этом случае, к сожалению, многократно возрастает объем работы по поиску и просмотру найденных ссылок, что делает задачу автоматизации данной процедуры еще более актуальной.

Успешность или эффективность поиска документа (или их набора в определенной предметной области) зависит не только от качества построения запроса, но и от особенностей организации баз данных на поисковом сервере. От этого зависит и эффективность самого способа построения запроса. Одним из важнейших признаков эффективности поиска данных является степень автоматизации отбора информации в базу данных сервера.

В частности, возможен ручной отбор информации, когда специалисты осуществляют исследование, отбор и каталогизацию информации, которая размещается в библиотеках или базах данных. Такой способ достаточно традиционен, так как много лет применялся работниками реферативных служб библиотек. Получаемая в результате информационная структура носит название предметного или тематического каталога. Это иерархическая структура во многом подобна обычному библиотечному каталогу. Верхний уровень структуры характеризуется самыми общими категориями, а элементы нижнего уровня представляют собой ссылки на отдельные издания, включая их краткое описание. Такой каталог, чаще всего, бывает недостаточно полный, но зато характеризуется высокой осмысленностью и четкой логикой отбора изданий. Создание и поддержка таких каталогов требует значительных усилий и средств. К наиболее известным инструментам этого типа относятся Yahoo, Virtual Library, Galaxy . Именно в таких каталогах, по нашему мнению, целесообразно выполнить предварительный поиск и просмотр литературы, чтобы отобрать заведомо пригодные, нужные и важные работы по поставленной проблеме .

Из-за высокой стоимости и малой скорости каталогизации Web-страниц и сетевых изданий, на большинстве поисковых серверов применяются автоматизированные методы и процессы отбора информации. В частности, при организации ссылочных баз данных на поисковых серверах используется методика, которая ранее применялась для организации полнотекстовых баз данных. В них в результате автоматической обработки документов создается так называемый полнотекстовый индекс , т. е. список всех значащих слов, содержащихся в документе. С каждым словом в таком поисковом индексе связан указатель – индекс ссылок , который характеризует позицию слова внутри документа. Размеры этих вспомогательных структур достаточно велики, поэтому следует стремиться снизить их избыточность, в результате чего обязательно повысится и эффективность выборки информации. Простейший способ повышения эффективности состоит в создании списка неиндексируемых слов – так называемого стоп-листа, в который включаются малозначащие слова: союзы, предлоги, артикли, многие наречия и прилагательные, а также те глаголы и существительные, содержательная роль которых сравнительно мала.