Яндекс для всех
Шрифт:
По-настоящему богаты те, кто может себе позволить делиться с другими. Если исходить из этого, Яндекс — богатая компания. То, что было разработано для себя и является основой бизнеса, предлагается всем желающим. Как на платной основе, так и на бесплатной.
Корпоративным клиентам предлагаются два продукта — Спамооборона и Яндекс. Сервер.
Корпоративный продукт "Спамооборона" — это серверное решение для фильтрации спама. Основные свойства системы: полнота и высокая точность фильтрации, актуальная база знаний о спаме, наличие гибких настроек. Установив ее на корпоративном почтовом сервере,
Хотите, чтобы на вашем портале было легко найти любую информацию — установите Яндекс. Сервер. Большинство возможностей этого продукта теперь доступно в бесплатной версии, более чем достаточной для большинства интернет-проектов.
Персональный поиск Яндекса — это программа на вашем компьютере, осуществляющая поиск по файлам и письмам с учетом морфологии русского языка. Совершенно бесплатная, обладающая прекрасными поисковыми возможностями. Позволяет во много раз быстрее искать, к примеру, в базах почтовой программы The Bat! письма, чем выполнять поиск стандартными средствами почтовика.
Яндекс. Бар — это уже совсем иной продукт. Удобство его использования почувствует в первую очередь тот, кто много и часто пользуется Яндексом. А все потому, что в этот плагин, работающий и на MS IE, и на FireFox, включено большинство служб Яндекса, а также обеспечен доступ к вашим личным ресурсам (почте, ленте, денежным средствам).
Есть на Яндексе и другие сервисы и службы — игры и общение, соревнования по поиску и фотоальбомы. Сервисы постоянно развиваются, а количество их увеличивается. Но "нельзя объять необъятное", говорил незабвенный Козьма Прутков. И не отвлекаясь на новинки, разберем, чем же является Яндекс сегодня.
Илья Сегалович — директор "Яндекса" по технологиям и разработке, один из основателей компании.
Поисковыми технологиями Илья начал заниматься в 1990 году — в компании "Аркадия", где руководил группой программного обеспечения. В период с 1993 по 2О00 год, Илья работал в компании CompTek International, где возглавлял отдел поисковых систем. При непосредственной поддержке созданы Национальный корпус русского языка (Ruscorpora) и Российский семинар по оценке методов информационного поиска (РОМИП). Илья Сегалович имеет высшее образование в области геофизики. Вместе со своей женой Марией Илья поддерживает благотворительную студию "Дети Марии" (социальная помощь детям-сиротам и детям-инвалидам).
Глава 1
Поиск (Найдется всё!)
Главная задача информационно-поисковой системы — это поиск информации, релевантной информационным потребностям пользователя. Слово релевантность означает соответствие между желаемой и действительно получаемой информацией. Релевантность можно еще представить как меру близости между реально полученными документами и тем, что следовало бы получить из системы.
1.1. Что такое "поисковая машина"
Каждому из нас в определенный момент времени бывает необходима информация, отсутствующая среди записей, заметок и данных на нашем компьютере. Где в таком случае вы будете ее искать? Одним из наиболее простых и удобных способов поиска является Интернет (далее также "Сеть"). Здесь есть все — техническая и экономическая
Первым шагом на пути систематизации информации, размещаемой в Интернете, стало создание каталоговсайтов, в которых ссылки на ресурсы группировались по тематическому признаку. Так построено большинство современных каталогов, но началом всему стал проект Yahoo! открытый в 1994 году. Вторым шагом после создания каталога стал поиск по размещенным в нем ссылкам. Понятно, что это был поиск не по всем ресурсам Интернета, а лишь по тем, которые присутствовали в каталоге. Даже сегодня, спустя десятилетия после появления первых каталогов, в них присутствует лишь малая толика интернет-ресурсов. В одном из самых крупных каталогов — DMOZ (Open Directory Project) находятся ссылки на 4 миллиона сайтов, распределенных по 590 000 категорий, а в базе Яндекса размещена информация свыше чем о 2 278 900 000 документов. Показатели для поиска несравнимые.
Поэтому не удивительно, что почти одновременно с появлением каталогов, появились и поисковые машины.Первой из них стал проект WebCrawler, появившийся в 1994 году. Следом за ним открылись поисковые системы Lycos и AltaVista, а в 1997 году Сергей Брин и Ларри Пейдж создали Google. В том же году была официально анонсирована и поисковая система Яндекс, ставшая самой популярной в русскоязычной части Интернета.
1.1.1. Компоненты поисковых машин
Информация в Сети не только пополняется, но и постоянно изменяется, но об этих изменениях никто никому не сообщает. Отсутствует единая система занесения информации, одновременно доступная для всех пользователей Интернета. Поэтому с целью структурирования информации, предоставления пользователям удобных средств поиска данных и были созданы поисковые машины.
Поисковые системы бывают разных видов. Одни из них выполняют поиск информации на основе того, что в них заложили люди. Это могут быть каталоги, куда сведения о сайтах, их краткое описание либо обзоры заносят редакторы. Поиск в них ведется среди этих описаний.
Вторые собирают информацию в Сети, используя специальные программы. Это поисковые машины, состоящие, как правило, из трех основных компонентов:
Агента;
Индекса;
Поискового механизма.
Агент, или более привычно — паук, робот (в англоязычной литературе — spider, crawler), в поисках информации обходит сеть или ее определенную часть. Этот робот хранит список адресов (URL), которые он может посетить и проиндексировать, с определенной для каждой поисковой машины периодичностью скачивает соответствующие ссылкам документы и анализирует их. Полученное содержимое страниц сохраняется роботом в более компактном виде и передается в Индекс. Если при анализе страницы (документа) будет обнаружена новая ссылка, робот добавит ее в свой список. Поэтому любой документ или сайт, на который есть ссылки, может быть найден роботом. И наоборот, если на сайт или любую его часть нет никаких внешних ссылок, робот может его не найти.