Создание информационно-поисковых систем (ИПС) было предопределено информационными потребностями и наличием большого количества электронных документов, расположенных в сети Интернет. Основой поисковых систем являются так называемые поисковые машины, или автоматические индексы.
Основным инструментом поиска в ИПС является запрос. Специальные программы-роботы в автоматическом режиме периодически обследуют Интернет на основе определенных алгоритмов, проводя индексацию найденных документов. Созданные индексные базы данных используются поисковыми машинами для предоставления пользователю доступа к размещенной на узлах Интернет информации. Пользователь в рамках соответствующего интерфейса формулирует запрос, который обрабатывается системой, после чего в окно браузера выдаются результаты обработки запроса. Механизмы обработки запросов постоянно совершенствуются, и современные поисковые системы не просто перебирают огромное число документов. Поиск ведется на основе оригинальных и весьма сложных алгоритмов, а его результаты анализируются и сортируются таким образом, чтобы представленная пользователю информация в наибольшей степени соответствовала его ожиданиям. Запрос редко может точно выразить информационную потребность. Однако многие ИПС по разным причинам не могут определить, соответствует ли тот или иной документ запросу. Степень соответствия документа запросу называется релевантностью. Релевантный документ может оказаться непертинентным (т. е. не соответствующим по сути) и наоборот. В простейшем случае релевантность
текста определенному запросу – это процент вхождения запроса к общему объему текста. Для поисковых систем высокорелевантным текстом считается такой, где вхождение запроса в текст примерно равно 4–7 % – меньшего может не хватить, большее чревато тем, что система может счесть текст за поисковый спам и наложит на страницу фильтр.
В ту или иную ИПС заложена конкретная технология представления и структурирования информации. Можно провести следующую классификацию ИПС:
1. Классификационные ИПС. В классификационных ИПС используется иерархическая (древовидная) организация информации, которая называется классификатором. Разделы классификатора называются рубриками. Библиотечный аналог классификационной ИПС – систематический каталог. Классификационные ИПС обладают рядом специфических недостатков. Уже разработка классификатора связана с оценкой относительной важности различных областей человеческой деятельности. Примеры классификационных ИПС: Yahoo, Yellow Web, Созвездие Интернет, Ау.
2. Словарные ИПС. Основная идея словарной ИПС – создать словарь из слов, встречающихся в документах Интернет, в котором при каждом слове будет храниться список документов, из которых взято данное слово. Если поиск слов в таком словаре выполняется быстро, то можно отказаться от услуг разработчиков классификаторов и от услуг систематизаторов, оставаясь один на один с авторами документов. Примеры словарных ИПС: Alta Vista, Яндекс, Апорт.