Чтение онлайн

на главную - закладки

Жанры

Работа в Интернете. Энциклопедия

Ташков Петр Андреевич

Шрифт:

Работа над запросом конкретного пользователя (а заодно и над всеми другими возможными запросами) началась задолго до его введения. Специальная программа, называемая «пауком», просматривает содержимое веб-сайтов. Ее задачи чем-то схожи с задачами обычного веб-браузера, только вместо того, чтобы показывать страницы на экране, «паук» передает их содержимое другой программе – «путешествующему пауку». Задача «путешествующего паука» – вычленение из загруженной страницы ссылок на другие сайты, по которым снова направляется «паук». Цикл этот повторяется многократно, точнее, непрерывно.

На этом работа не заканчивается. За дело принимается

программа-индексатор, которая, используя определенные правила, анализирует полученные «пауками» страницы и формирует сложную базу данных поискового сервера. Вот эта самая база данных потом и выдает результаты поиска, которые появляются после обработки введенного запроса. На принципах работы индексатора остановимся подробнее, так как именно от него зависит то, что войдет в результаты поиска.

В основе работы большинства современных поисковиков лежит индекс цитирования, который вычисляется индексатором в результате анализа ссылок на текущую страницу с других страниц Интернета. Чем их больше, тем выше индекс цитирования анализируемой страницы и тем выше эта страница будет отображена в результатах поиска. Кроме того, учитывается индекс цитирования страниц, которые ссылаются на страницу, изучаемую индексатором.

Кроме индекса цитирования учитываются также следующие параметры:

• наличие искомых слов в заголовке страницы или названии сайта;

• частота повторений искомых слов на странице;

• размер шрифта, которым на странице написаны слова из поискового запроса, а также выделение этих слов шрифтами и стилями;

• тематика ссылающихся сайтов и некоторые другие.

После ввода запроса пользователем за дело берется последнее звено поискового сервера – система выдачи результатов. В итоге анализа и сопоставления упомянутых выше показателей эта система определяет степень соответствия содержимого страницы условиям запроса. Чем эта степень больше, тем выше станица будет представлена в списке найденных ресурсов.

Возвращаясь к вопросу о скорости обработки запроса, отмечу, что такая высокая скорость обеспечивается за счет того, что страницы Интернета проиндексированы заранее, а результаты поиска составляются на основе информации из базы данных поискового сервера.

Такой способ, как несложно догадаться, имеет очевидный недостаток, заключающийся в том, что содержимое веб-страниц может со временем изменяться, а «паук» не будет успевать найти их и обработать, следовательно, результаты поиска будут неточными. Еще раз упомянув о времени, необходимом поисковому серверу для просмотра и индексации всего Интернета, скажу, что на это у разных поисковиков уходит от нескольких суток до нескольких недель, в зависимости от алгоритма обработки информации. Так что сайты, появившиеся в Сети недавно, в результатах поиска представлены не будут.

Разработчики поисковых серверов борются с этим явлением разными способами и с переменным успехом. Например, большинство современных поисковиков предоставляет такой сервис, как поиск по новостным лентам, которые обновляются каждые несколько минут и поэтому чаще индексируются поисковиками. Как бы там ни было, лучшего способа, чем предварительная индексация страниц, сегодня не существует.

Правила построения поисковых запросов

Как уже отмечалось, в Интернете существует множество поисковых серверов, отечественных и зарубежных.

Российские поисковые серверы:

• «Яндекс» – http://www.yandex.ru;

• «Рамблер» – http://www.rambler.ru;

• «Апорт» – http://www.aport.ru;

• Gogo – http://www.gogo.ru.

Зарубежные

поисковые серверы:

• Google – http://www.google.com;

• AltaVista – http://www.altavista.com;

• Yahoo! – http://www.yahoo.com.

Для поиска на русском языке лучше подходят российские серверы, на иностранном – зарубежные, хотя, например, Google неплохо справляется с поиском на многих языках. Подробнее о наиболее популярных поисковых системах поговорим позже, рассматривая расширенные возможности поиска, так как у каждой из этих систем есть свои особенности. Сейчас остановимся на некоторых базовых правилах построения поисковых запросов, общих для всех поисковиков.

Несмотря на заявления многих владельцев поисковых серверов, что запросы могут быть написаны практически на естественном языке, который люди используют для общения между собой, это далеко не так. По всей видимости, еще не скоро наступит время, когда компьютер и человек смогут общаться на естественном (для человека) языке. Впрочем, нужно отдать должное поисковым серверам, в последнее время они стали гораздо лучше понимать пользователя и результаты поиска теперь больше соответствуют ожиданиям, чем это было несколько лет назад. Произошло это во многом благодаря внедрению новых языковых технологий.

Из вышесказанного следует, что на практике рядовому пользователю находить нужную информацию стало проще. Поисковики теперь ищут не только запрашиваемое слово, но и его словоформы, что позволяет делать результаты поиска более точными. Например, если в поисковом запросе присутствует слово умный, то его результаты будут содержать не только это слово, но и его производные: умного, умная, а также ум и даже разум. Конечно, страницы со словоформами будут не в числе первых результатов поиска, но элементы искусственного интеллекта налицо. Этот факт полезно учитывать при построении поисковых запросов. Теперь расскажу еще о нескольких таких фактах.

Поисковые серверы при обработке запроса не учитывают регистр символов. Поэтому запросы Отдых в Турции и отдых в турции с точки зрения поисковика идентичны.

Также следует помнить, что применять знаки препинания в поисковых запросах вовсе не обязательно, точнее, даже не нужно, так как они также игнорируются поисковыми серверами. Зато многие традиционные знаки препинания могут быть использованы при построении сложных, расширенных запросов, результаты поиска по которым обычно гораздо ближе к ожидаемым.

Большинство поисковых серверов (кроме, пожалуй, Google) также игнорирует короткие слова, не несущие смысловой нагрузки. В русском языке это предлоги, союзы и т. д., в иностранных – например, артикли.

Многие поисковые серверы позволяют бороться с опечатками и неправильной раскладкой клавиатуры. Наверняка многим читателям часто случалось набрать при включенной английской раскладке клавиатуры русское слово, и получалось, например, gfhjdjp вместо паровоз. Тот же «Яндекс» сразу определит, что здесь что-то не так, и вверху страницы с результатами поиска выдаст ссылку Быть может, вы искали: паровоз, перейдя по которой можно получить страницу с правильными результатами. Аналогично можно бороться с опечатками. Если поисковому серверу покажется, что в слове допущена ошибка или опечатка, то он предупредит об этом той же фразой Быть может, вы искали…

Поделиться:
Популярные книги

Камень Книга одиннадцатая

Минин Станислав
11. Камень
Фантастика:
фэнтези
аниме
5.00
рейтинг книги
Камень Книга одиннадцатая

Купец VI ранга

Вяч Павел
6. Купец
Фантастика:
попаданцы
аниме
фэнтези
5.00
рейтинг книги
Купец VI ранга

Попаданка в деле, или Ваш любимый доктор

Марей Соня
1. Попаданка в деле, или Ваш любимый доктор
Фантастика:
фэнтези
5.50
рейтинг книги
Попаданка в деле, или Ваш любимый доктор

Связанные Долгом

Рейли Кора
2. Рожденные в крови
Любовные романы:
современные любовные романы
остросюжетные любовные романы
эро литература
4.60
рейтинг книги
Связанные Долгом

Довлатов. Сонный лекарь

Голд Джон
1. Не вывожу
Фантастика:
альтернативная история
аниме
5.00
рейтинг книги
Довлатов. Сонный лекарь

Пышка и Герцог

Ордина Ирина
Фантастика:
юмористическое фэнтези
историческое фэнтези
фэнтези
5.00
рейтинг книги
Пышка и Герцог

В погоне за женой, или Как укротить попаданку

Орлова Алёна
Фантастика:
фэнтези
6.62
рейтинг книги
В погоне за женой, или Как укротить попаданку

Город Богов

Парсиев Дмитрий
1. Профсоюз водителей грузовых драконов
Фантастика:
юмористическая фантастика
детективная фантастика
попаданцы
5.00
рейтинг книги
Город Богов

Убивать, чтобы жить

Бор Жорж
1. УЧЖ
Фантастика:
героическая фантастика
боевая фантастика
рпг
5.00
рейтинг книги
Убивать, чтобы жить

Попаданка 2

Ахминеева Нина
2. Двойная звезда
Любовные романы:
любовно-фантастические романы
5.00
рейтинг книги
Попаданка 2

Газлайтер. Том 10

Володин Григорий
10. История Телепата
Фантастика:
боевая фантастика
5.00
рейтинг книги
Газлайтер. Том 10

Я уже князь. Книга XIX

Дрейк Сириус
19. Дорогой барон!
Фантастика:
юмористическое фэнтези
попаданцы
аниме
5.00
рейтинг книги
Я уже князь. Книга XIX

Вечный. Книга II

Рокотов Алексей
2. Вечный
Фантастика:
боевая фантастика
попаданцы
рпг
5.00
рейтинг книги
Вечный. Книга II

Товарищ "Чума" 5

lanpirot
5. Товарищ "Чума"
Фантастика:
городское фэнтези
попаданцы
альтернативная история
5.00
рейтинг книги
Товарищ Чума 5