Юный техник, 2001 № 05
Шрифт:
Информационное наполнение (база данных) обычно создается автоматически работающей на данном сервере программой, рассылающей по сети автономные модули — «пауки», выполняющие сбор, первичный анализ и пересылку на поисковый сервер информации об обрабатываемых сайтах.
Преимущества: значительно больший, чем для каталогов, охват имеющейся в Интернете информации.
Недостатки: значительное количество «информационного шума» в результирующем списке (ссылок на сайты, в содержимом которых заданное ключевое слово употреблено лишь формально).
Пример: поисковая служба «Яндекс» (рис. 1).
Рис. 1
•
Технология «пауков» позволяет включить в сферу поиска максимально возможное количество сайтов, но у многих специалистов вызывает опасение тот факт, что способность этих программных модулей к автономной работе на других серверах (точнее, заложенное в системах безопасности этих серверов разрешение на допуск «паука» к информации и его запуск на исполнение) может стать «лазейкой» для создателей компьютерных вирусов и каких-либо разрушительных действий.
• Логика построения поискового запроса — правила, позволяющие формировать правильную ключевую фразу из набора ключевых слов. В зависимости от поставленной поисковой задачи возможны следующие ситуации:
— точное соответствие, когда в искомом тексте должна присутствовать именно эта фраза и никакая иная (пример: компьютерная мышь);
— в искомом тексте должны находиться все заданные ключевые слова (пример: мопеды И мотоциклы);
— достаточно, если в искомом тексте присутствует хотя бы одно ключевое слово (пример: самолет ИЛИ вертолет);
— одно или несколько ключевых слов не должно входить в искомый текст (скажем, чтобы отсечь большой массив «ложных» ссылок; пример: локомотив НЕ футбол).
Иногда отдельно рассматривается ситуация, когда еще заданные ключевые слова должны не только присутствовать в тексте, но и располагаться рядом, например, в пределах одного абзаца. Важным часто является и регистр букв (строчной или прописной), например, ключевое слово «лебедь» позволяет найти и птицу, и генерала, а «Лебедь» — только фамилию.
Современные поисковые серверы, как правило, предоставляют возможность ввода ключевой фразы в свободной форме и автоматически выполняют ее смысловую предобработку: выделение ключевых слов с отсечением незначащих (предлогов, местоимений и пр.), вариации окончаний слов, иногда автоматический перевод фразы на другие языки (например, заданная пользователем фраза «книги по программированию на Бейсике» автоматически превращается в запрос типа: (книга ИЛИ книге ИЛИ книгу ИЛИ книги ИЛИ книг ИЛИ book ИЛИ books) И (программирование ИЛИ программированию ИЛИ программирования ИЛИ programming) И (Бейсик ИЛИ Бейсике ИЛИ Бейсика ИЛИ Бейсику ИЛИ Basic ИЛИ BASIC). Кроме того, при задании нескольких ключевых слов в результирующий список могут включаться и сайты, в которых содержатся не все эти ключевые слова (на поисковом сервере «Яндекс» в этом случае после аннотации, помещенной в результирующий список, делается примечание: «Нестрогое соответствие»). Дополнительно предусматривается сортировка найденных ссылок в списке по «релевантности» — этот термин подразумевает максимальное соответствие найденных страниц заданному ключу поиска, которое программа определяет на основе анализа количества вхождений ключевых слов в текст, место, в котором они обнаружены (наиболее подходящими, например, считаются страницы, где ключевые слова обнаружены в заголовке документа), благодаря использованию алгоритмов «искусственного интеллекта» (хотя они пока еще далеко не совершенны). Соответственно, в результирующем списке наиболее подходящие ссылки выдаются первыми.
Конкретные правила записи (синтаксис) поискового запроса на конкретном поисковом сервере могут несколько отличаться от остальных (обычно на головной странице «поисковика»
• Портал, мультипортал — сайт, содержащий подборку ссылок на информацию, чаще всего требуемую большинству пользователей Интернета, не являющихся профессионалами в области компьютики: сведения о погоде, курсе валюты, новости, программы телевидения, спортивные события и пр.
• WebRing — технология объединения в единую тематическую подборку различных сайтов, при которой формируется замкнутый в кольцо массив ссылок на них, а на каждом из этих сайтов содержатся типовые ссылки «Next» (переход на следующий сайт в кольце), «Prev» (переход на предыдущий сайт в кольце), «Random» (переход на случайно выбранный сайт кольца), «List Sites» (переход на полный список сайтов, входящих в кольцо) и «Next 5» (выдача списка следующих пяти сайтов). Поддержка всех подобных колец осуществляется централизованно на сервере WebRing.
Пример: модуль на сайте Russian Project «Chip & Dale — Rescue Rangers» (рис. 2).
Рис. 2
Адресная книга
Поисковые серверы:
— Яндекс — http://www.yandex.ru/
— Rambler — http://www.rambler.ru/
— AltaVista — http://www.altavista.com/
— Yahoo — http://www.yahoo.com/
Мультипортал «Кирилл и Мефодий» — http://www.km.ru/
Сервер WebRing — http://dir.webring.yahoo.com/rw
Ребята! Давайте познакомимся поближе! Я приготовила для вас несколько вопросов. Чтобы ответить на них, пометьте ответ или ответы, с которыми вы согласны, — если слева от ответов стоят кружочки, то выбрать можно только один ответ из имеющихся, если квадратики — можно выбрать несколько ответов, а иногда нужно будет вписать свой ответ в отведенную графу. Заполнив анкету, пришлите ее в редакцию по адресу: 125015, Москва, А-15, Новодмитровская ул., 5а. Или же по электронной почте: [email protected].
КОЛЛЕКЦИЯ «ЮТ»
В 1959 году концерн «МИТСУБИСИ» выпустил многоцелевой двухмоторный самолет, который сразу получил признание многих покупателей. В первую очередь его использовали в личных целях для путешествий, а также для исследований. Первый полет прототипа состоялся 13 сентября 1963 года. Затем совместно с США было разработано около десятка модификаций. До 1979 года выпущено 600 машин различных типов.