Яндекс для всех
Шрифт:
В период с 1997 по 2000 год — в должности заместителя директора по работе с иностранными клиентами в компании ООО "Артстоун" продолжал заниматься переводами.
С 2000 года — менеджер проектов компании "Яндекс".
Под руководством Евгения Ломизе были запущены популярные сервисы Яндекса — Каталог, Энциклопедии, Яндекс. Лингво, РРС-версия Директа, Рекламная сеть.
Глава 10
Владельцам сайтов
10.1. Яndex.Server для вашего сайта
Поиск в Интернете с помощью Яндекса или иного поисковика, безусловно, хорош. И находит много, и
Надо сказать, что существует множество вариантов организации такого поиска, включая и собственные разработки, и бесплатные скрипты. Яндекс предлагает для решения подобных задач свое решение — Яndex.Server. Он предназначен для полнотекстового поиска информации на веб-сервере или в локальной сети с учетом морфологии русского языка и является аналогом поисковой системы, используемой самим Яндексом.
Имеется два варианта поставки этого продукта: бесплатная версия и платная версия Enterprise, различающиеся своими возможностями. Отличия версии Enterprise от бесплатной заключаются в:
возможности настройки дизайна страницы результатов поиска с помощью Perl, C++, XSLT;
настраиваемом поиске в отдельных частях документа;
поиске в нескольких коллекциях документов с возможностью слияния результатов;
индексировании документов, хранящихся в СУБД;
поддержке индексирования документов в форматах, отличных от простого текстового и HTML (XML, RTF, PDF, DOC, XLS, PPT, FLASH, MP3 — с возможностью расширения этого списка).
Но даже бесплатная версия обеспечивает организацию многих поисковых возможностей Яндекса. Эта версия не содержит лицензионных ограничений на число индексируемых документов, их размер или суммарный размер индекса. Позволяет индексировать документы как через HTTP-соединение, так и чтением локальной файловой системы. Дает независимо настраивать параметры индексирования для разных групп документов. Поддерживает все возможности языка запросов, ранжирования результатов поиска и подсветки найденных слов. Но вывод результатов делает только на встроенную форму дизайна. Кроме того, на использование бесплатной версии имеются и другие ограничения. Так, недопустимо изменение встроенного дизайна страниц результатов поиска, полученных с помощью этой программы, удаление информации об авторских правах. Иными словами, устанавливая программу на свой веб-ресурс, вы не сможете подогнать дизайн поисковика к дизайну вашего сайта. Эта возможность доступна лишь в версии Enterprise.
10.1.1. Настраиваем Яndex.Server
Программу можно разделить на две основные и две вспомогательные подсистемы:
основные — подсистема индексации и подсистема поиска. Индексатор обеспечивает анализ документов и сохранение информации о них в индексных файлах. Поисковый сервер обрабатывает запросы и формирует полученные результаты;
вспомогательные — это языковой модуль, предназначенный для преобразования слов к их словарным формам с учетом морфологии языка, и шаблоны выходных страниц.
В связи с тем, что объем индексируемой информации на сайте или в локальной сети конечен, индексатор
Индексирование выполняется без остановки поискового сервера, имеются возможности создания компактных индексов, использования стоп-слов, распознавания зон в HTML- и XML-документах, распознавания кодировок и использования различных фильтров при индексации.
Для установки программы под Windows (есть релизы и под другие системы —.nix, FreeBSD, Sun Solaris) достаточно распаковать дистрибутив в выбранный вами раздел (размер дистрибутива для Windows составляет примерно 6 Мбайт), отредактировать конфигурационный файл, установить программу в качестве системного сервиса. После выполнения этих действий поиск готов к работе.
Очень важно правильно настроить конфигурационный файл. С его помощью вы можете настроить программу на конкретные условия вашего сервера — указать, какие каталоги и типы файлов индексировать, а какие исключить, выбрать кодировку русского языка, указать способ получения документов (непосредственно из каталога или через веб-сервер), перестраивать ли весь индекс при новом индексировании или организовать обновление и слияние.
Конфигурационный файл обычно называется yandex.cfg и располагается в том же каталоге, где находится выполняемый модуль Яndex. Server (для Windows). В этом файле можно определять параметры, относящиеся к сервису в целом, к процессу индексирования и процессу поиска. Каждый параметр определяется своей директивой, состоящей из одного или нескольких слов, разделенных пробельными символами.
Директивы конфигурационного файла могут быть сгруппированы в секции. Каждая секция начинается со строки <имя_секции> и кончается строкой </имя_секции>, где Имя_секции соответствует параметру, настраиваемому с помощью одной или нескольких директив, расположенных внутри секции. Секции могут быть вложенными.
Секция Server, не являющаяся обязательной, определяет настройки сервера. В ней могут быть определены:
IP-адрес, на котором работает Яndex.Server. Значение должно соответствовать одному из допустимых IP-адресов компьютера;
порт, на котором работает Яndex.Server. По умолчанию используется порт 17000;
хост, на котором работает Яndex.Server. Значение по умолчанию: официальное имя хоста;
количество одновременно выполняемых поисковых запросов. Если уже выполняется определяемое данной директивой количество запросов, выполнение вновь поступивших запросов откладывается до тех пор, пока не будут выполнены текущие запросы. По умолчанию это значение равно 5;
максимальный размер очереди поисковых запросов, ожидающих начала выполнения. В случае нулевого значения директивы максимальный размер очереди запросов бесконечен. Если начала выполнения уже ожидает определяемое данной директивой количество запросов, на вновь поступившие запросы сервер отвечает HTTP/1.0 503 Service Unavailableи не выполняет их;
рабочий каталог Яndex.Server. Должен быть указан абсолютный путь;
путь к файлу, в который будут выводиться сообщения Яndex.Server.