Чтение онлайн

на главную - закладки

Жанры

Профессиональный поиск в Интернете

Кутовенко Алексей

Шрифт:

Поскольку в персональном поиске используется готовая индексная база Google, проверить работу своего поисковика можно сразу же после его регистрации. Для этого достаточно ввести тестовый запрос и просмотреть результаты, полученные именно с указанных вами сайтов.

Изменить большинство из указанных при регистрации параметров нового поисковика впоследствии можно с помощью раздела Основные сведения, который расположен на боковой панели управления Google CSE.

Следующий этап работы над персональным поисковиком – заполнение его индексной базы – занимает гораздо больше времени. Поддерживая свой поисковик, пользователь в основном занимается именно этой работой. В настоящее время существует ограничение на общее количество сайтов, задействованных при персональном поиске одного пользователя – не более 5000 ссылок. Добавить адреса новых сайтов в индекс поисковика можно с помощью веб-интерфейса сервиса, дополнения для браузера, а также посредством импорта предварительно отформатированного пользователем файла в формате XML.

Первый способ предполагает

использование веб-интерфейса самого поисковика Google CSE. В боковой панели системы находится ссылка. Сайты, которая и открывает соответствующую форму. Работа идет сразу с двумя списками: первый из них позволяет включать сайты в индекс поисковика. Назначение второго – прямо противоположное: исключение результатов с указанных вами сайтов из результатов поиска.

В ходе добавления новых ресурсов к персональной системе в адресах сайтов можно использовать маски, позволяющие точно указать, что именно мы хотим включить в свой индекс. Это дает возможность задействовать в своей системе широкий диапазон ресурсов: от целых доменов до конкретных веб-страниц. Данная возможность серьезно повышает гибкость настройки системы поиска, поскольку позволяет «оптом» добавлять в индекс сразу группы сайтов, или наоборот – ограничивать индекс определенного сайта каким-либо одним его разделом. Это полезно, если вы нашли сайт широкого профиля. Если просто включить его в базу, то кроме полезных для вашего тематического поиска результатов в списке выдачи окажется много лишних ссылок из других разделов сайта. Если взять, например, авиационную тему, то эту ситуацию можно проиллюстрировать на примере фотогалерей. Допустим, мы хотим включить в свою систему результаты поиска в базе фотохостинга Flickr. Простое добавление в индекс адреса fLickr.com ни к чему хорошему не приведет: мы получим огромное количество результатов, большинство из которых будет иметь к тематике нашего поисковика лишь отдаленное отношение. Гораздо дальновидней включить в индекс только конкретные подборки или архивы пользователей, которые фотографируют именно авиацию. Например, следующая маска даст возможность включить в индекс нашего поисковика только фотографии группы, посвященной британскому истребителю Lightning:

www.flickr.com/groups/english_electric_lightning/*

Другие примеры шаблонов представлены в табл. 6.1.

Таблица 6.1. Шаблоны в Google Custom Search Engine

Пополнять базы с помощью веб-интерфейса Google CSE имеет смысл, пожалуй, только на начальном этапе создания поисковика. Далее удобней пользоваться инструментом. Указатель GoogLe (рис. 6.1). Он представляет собой дополнение к браузеру, с помощью которого можно быстро включать открытые в браузере сайты и отдельные веб-страницы в базу персонального поиска во время серфинга, не открывая сайта Google CSE. Установить его можно на страничке www.google.com/coop/cse/marker. Работа с ним очень похожа на добавление записей в онлайновый сервис закладок. На панель браузера добавляется новая кнопка, которая открывает всплывающее окно с формой описания сайта. В ней указываются персональный поисковик, в индекс которого мы хотим добавить сайт, и список тематических ярлыков, которые мы можем присвоить сохраняемому ресурсу. Настройкой таких ярлыков мы займемся немного позже. Кроме того, в данной форме есть возможность выбора между добавлением сайта целиком и добавлением только одной конкретной страницы сайта. Другими словами, нам предлагают автоматически сгенерировать маску, которая обеспечит включение в индекс только открытой в данный момент веб-страницы. К сожалению, возможности более гибкой работы с масками в этом диалоге нет. Поэтому, если вам понадобится указать не одну веб-страницу, а раздел сайта, придется обратиться к стандартному веб-интерфейсу Google CSE.

Рис. 6.1. Инструмент Указатель Google

Облегчить достаточно трудоемкую работу по заполнению индексной базы Google CSE помогает режим автоматического сбора ссылок с указанной веб-страницы. Этот режим, доступный в разделе Сайты панели управления поисковиком, называется динамическим извлечением страниц. Его можно включить как для уже присутствующей в списке веб-страницы, так и для нового добавляемого в систему сайта. После включения этого режима Google CSE просматривает исходную веб-страницу и добавляет в индекс поисковика все сайты, на которые с этой страницы ведут ссылки. Данный режим весьма удобен для сбора новых адресов из разделов полезных ссылок тематических сайтов или, допустим, с обновляемых лент новостей. В результате для того, чтобы ваша персональная база начала пополняться в автоматическом режиме, достаточно включить в область поиска хотя бы один-два сайта с обновляемым тематическим контентом. Необходимо обратить внимание, что такие ссылки не добавляются в индекс в виде самостоятельных записей. В индексе сохраняется только исходная ссылка, поэтому к автоматически собранным сайтам нельзя применять индивидуальную настройку.

Как уже отмечалось, построенный на основе Google CSE поисковик начинает работать сразу же после включения в индекс хотя бы нескольких сайтов. В принципе, работа над персональной системой поиска может быть сведена к пополнению

списка сайтов, однако Google CSE предлагает широкий набор дополнительных вариантов настройки и инструментов, с помощью которых можно заметно улучшить работу поисковика.

Пожалуй, первый режим, который стоит включить в новом поисковике, – это режим назначения ярлыков-уточнений. Когда персональный поисковик становится достаточно крупным (несколько сотен сайтов), мы опять сталкиваемся с проблемой «длинного хвоста» результатов, которые, не попадая на первые страницы списка выдачи, оказываются невидимыми для пользователя. Решение этой проблемы – разделение общего индекса поисковика на несколько более узких по теме баз.

Разделив результаты поиска, мы будем получать при каждом запросе только ту информацию, которая требуется в каждый конкретный момент. В то же время это не скажется на широте поиска, поскольку в любое время можно будет перейти к общему поиску без использования тегов. Продуманная система разделов способна значительно повысить удобство работы с персональным поисковиком. Технически это реализуется за счет присваивания сохраняемым ссылкам ярлыков-уточнений. Например, в нашем тестовом поисковике можно выделить раздел. Форумы, в который поместить все выявленные сайты с обсуждениями, раздел. Книги, где собрать ссылки на сайты с литературой по теме, разделы Фото и Видео – для сайтов с мультимедиа-контентом. Одному сайту может быть сопоставлена как одна, так и несколько тематических меток.

Как показывает практика, имеет смысл сразу предусмотреть нейтральный ярлык для сайтов, не подходящих ни под одну из уточненных категорий. Дело в том, что в системе Google CSE нельзя «оптом» отобрать записи, у которых нет ярлыков. Поэтому, если вы придумаете какую-либо новую тематическую категорию, придется вручную перебирать индекс в поиске «свободных» ссылок. Если же сразу отмечать их «нейтральным» ярлыком, то такие ссылки потом можно будет отобрать буквально парой щелчков мышью. Назвать такой ярлык можно просто Сайты.

Ярлыки настраиваются в разделе Уточнения панели управления Google CSE. Система уточнений способна работать в двух режимах, активирующихся при выборе пользователем на странице поисковика определенного тематического раздела Первый режим позволяет включать в результаты поиска только сайты, отмеченные конкретным ярлыком. Второй режим менее радикален: поиск ведется во всей базе, но сайты, отмеченные выбранным ярлыком, выводятся на первые позиции.

Любопытно, что Google ведет собственную единую базу тематических ярлыков, предназначенных для персональных поисковиков. Каждому включенному в такую базу «универсальному» ярлыку сопоставляются наиболее авторитетные и полезные, по мнению Google, веб-ресурсы. Использование базы таких ярлыков, как и многих других дополнительных инструментов Google Custom Search Engine, обеспечивает автоматизацию наполнения персонального поисковика новыми данными. Если мы применим в своем поисковике любой из универсальных ярлыков, то получим возможность автоматически добавить к своему индексу все привязанные к ярлыку тематические веб-ресурсы. Надо признать, что список таких универсальных ярлыков пока несколько эклектичен и не очень велик. Ознакомиться с ним можно по адресу www.google.com/coop/docs/cse/labels.html. Ярлыки разделены на тематические группы, например Автомобили, Компьютеры и игры, при этом каждая группа, в свою очередь, предлагает готовый набор ярлыков.

При желании можно принять участие в совершенствовании таких универсальных тематических разделов. Для этого сначала надо зарегистрироваться на странице www.google.com/coop/topics. Затем в списке ярлыков можно выбрать нужный и либо загрузить предварительно составленный XML-файл с описанием тематических ресурсов, либо добавить сайты вручную на странице сервиса Полученные данные будут обработаны и учтены при формировании списка рекомендуемых ресурсов.

Еще один способ ускорить работу по наполнению индекса персонального поисковика – пригласить для совместной работы других пользователей. Сделать это можно с помощью раздела Совместная работа. Для приглашений служат инвайты, рассылаемые по электронной почте. К сожалению, при совместной работе нескольких пользователей над одной системой отсутствует возможность правки записей, созданных другими пользователями. Нельзя даже удалить неудачные записи – только аккаунт соавтора. Это означает, что к выбору партнеров по работе нужно подходить достаточно ответственно.

Продолжить совершенствование поисковика можно путем настройки средств продвижения сайтов, обработки синонимов и автозаполнения запросов.

Раздел Продвижения позволяет выделить в индексе поисковика сайты, которые будут иметь безусловное преимущество при сортировке результатов поиска по определенным ключевым словам (рис. 6.2). Такие ссылки начнут появляться в отдельном блоке над общим списком выдачи Данный прием позволяет повысить точность работы поисковика, поскольку лучшие узкотематические сайты попадут на первые позиции вне зависимости от результатов работы алгоритмов ранжирования. В нашем тестовом поисковике такую роль могут сыграть сайты, целиком посвященные определенному типу летательных аппаратов или же персоналиям. При добавлении каждого «продвижения» указывается его название, адрес целевого веб-сайта, а также список ключевых слов, ввод которых включит режим продвижения в результатах поиска. Альтернативный способ продвижения – загрузка предварительно составленного файла описаний продвижений. Данный вариант подходит, если вам нужно загрузить несколько десятков, а то и сотен продвигаемых адресов. При меньших объемах удобнее использовать стандартные инструменты раздела Продвижения.

Поделиться:
Популярные книги

На границе империй. Том 3

INDIGO
3. Фортуна дама переменчивая
Фантастика:
космическая фантастика
5.63
рейтинг книги
На границе империй. Том 3

(Не) моя ДНК

Рымарь Диана
6. Сапфировые истории
Любовные романы:
современные любовные романы
эро литература
5.00
рейтинг книги
(Не) моя ДНК

Измена. Избранная для дракона

Солт Елена
Любовные романы:
любовно-фантастические романы
3.40
рейтинг книги
Измена. Избранная для дракона

Блуждающие огни

Панченко Андрей Алексеевич
1. Блуждающие огни
Фантастика:
боевая фантастика
космическая фантастика
попаданцы
5.00
рейтинг книги
Блуждающие огни

Архонт

Прокофьев Роман Юрьевич
5. Стеллар
Фантастика:
боевая фантастика
рпг
7.80
рейтинг книги
Архонт

Ваше Сиятельство 11

Моури Эрли
11. Ваше Сиятельство
Фантастика:
технофэнтези
аниме
фэнтези
5.00
рейтинг книги
Ваше Сиятельство 11

Мама из другого мира. Делу - время, забавам - час

Рыжая Ехидна
2. Королевский приют имени графа Тадеуса Оберона
Фантастика:
фэнтези
8.83
рейтинг книги
Мама из другого мира. Делу - время, забавам - час

Черный Маг Императора 6

Герда Александр
6. Черный маг императора
Фантастика:
юмористическое фэнтези
попаданцы
аниме
7.00
рейтинг книги
Черный Маг Императора 6

Пятничная я. Умереть, чтобы жить

Это Хорошо
Фантастика:
детективная фантастика
6.25
рейтинг книги
Пятничная я. Умереть, чтобы жить

Барон Дубов 2

Карелин Сергей Витальевич
2. Его Дубейшество
Фантастика:
юмористическое фэнтези
аниме
сказочная фантастика
фэнтези
5.00
рейтинг книги
Барон Дубов 2

Кодекс Охотника. Книга VII

Винокуров Юрий
7. Кодекс Охотника
Фантастика:
фэнтези
попаданцы
аниме
4.75
рейтинг книги
Кодекс Охотника. Книга VII

Контролер

Семин Никита
3. Переломный век
Фантастика:
попаданцы
альтернативная история
5.00
рейтинг книги
Контролер

Ох уж этот Мин Джин Хо 4

Кронос Александр
4. Мин Джин Хо
Фантастика:
попаданцы
дорама
5.00
рейтинг книги
Ох уж этот Мин Джин Хо 4

Измена. Вторая жена мужа

Караева Алсу
Любовные романы:
современные любовные романы
5.00
рейтинг книги
Измена. Вторая жена мужа