Чтение онлайн

на главную - закладки

Жанры

Журнал «Компьютерра» № 15 от 17 апреля 2007 года
Шрифт:

Для изучения многих других процессов вообще не существует лабораторных установок по одной простой причине: создать их невозможно. О лабораторных работах по изучению, например, законов Кеплера до появления персональных компьютеров оставалось только мечтать.

Обучающие программы, как и учебники, нужно выбирать аккуратно. Ошибки бывают разные: как формальные (которые были описаны), так и методические — в построении интерфейса, составе и организации информации. Каждые ошибки опасны по-своему. Первые приведут к неправильному знанию, вторые могут на долгие годы заложить представление

о предмете как о скучном и неинтересном. Как и в учебниках, ошибки в обучающих программах обходятся дорого.

Каждому по поиску

Автор: Янковский, Роман

Наступившая эпоха Web 2.0 затронула и поисковики. Один за другим появляются различные специализированные поисковые системы (например, scholar.google.com, google.com/codesearch, koders.com и др.). В этой статье автор хотел бы поделиться впечатлениями о сервисах, позволяющих создать свой тематический поисковик.

Первая ласточка

Около года назад ЗАО «Поисковые технологии» запустило бета-версию «Персонального поиска» в рамках проекта «Новотека», который позволил желающим создавать свои тематические поисковые системы. Предлагается несколько вариантов использования сервиса «Новотека», в том числе и бесплатный (в результатах поиска которого демонстрируется реклама). Платные варианты отличаются размером дисковой квоты и количеством разрешенных за месяц запросов. Также они позволяют экспортировать результаты поиска в XML-формате.

Автор тематического поисковика должен настроить поискового робота, указывая ему точки входа на сайты (страницы, с которых начнется индексация содержимого сайта) и маски, по которым робот будет отбирать ссылки на веб-страницы для скачивания. Размер поисковой базы ограничен дисковой квотой, которая в бесплатном варианте составляет 1 Гбайт — этого объема достаточно в большинстве случаев. Некоторые из поисковиков, разработанных на базе «Новотеки», обрели популярность. Например, поиск по антивирусным сайтам от Игоря Ашманова или по ресурсам для поисковых оптимизаторов.

Несмотря на жесткие правила регистрации новых посетителей, уже опубликовано более 550 поисковых систем на различные темы — от электронных библиотек и научных сайтов до недвижимости и тендеров.

Следующим этапом эволюции «Персонального поиска» станет проект Flexum, запуск которого запланирован на середину апреля. Как обещают разработчики, пользователи «Персонального поиска» будут автоматически перенесены во Flexum, но об этом чуть позже.

Гигант поиска, в том числе тематического

Через несколько месяцев после запуска «Персонального поиска» и Google объявил об открытии сервиса Google Custom Search Engine. Поисковому гиганту нет нужды в выделении дополнительных мощностей под хранение данных тематического поиска, достаточно лишь использовать уже существующую базу.

Как раз благодаря использованию готовой глобальной базы отпадает надобность в поисковом роботе — достаточно настроить фильтрацию существующей поисковой базы. Настройка Google CSE — гибкая, простая и интуитивно понятная — заключается в указании фрагментов ссылок на страницы, которые будут использоваться в тематическом поиске. У автора поисковика также есть возможность

присвоить сайтам теги, выбирая которые, пользователь сможет лучше конкретизировать запрос.

В отличие от «Персонального поиска», Google CSE не позволяет экспортировать результаты в XML. Интеграция с поиском возможна только с использованием JavaScript или AJAX. Это действительно проще, но накладывает ограничения на программную обработку результатов поиска.

Google SCE, как и системе от «Новотеки», не хватает поддержки регулярных выражений в масках. Нельзя сказать, что она нужна позарез, но порой довольно удобна. В некоторых случаях регулярные выражения позволили бы сделать запись более компактной. Например, вместо нескольких ссылок, вроде site.ru/hunting, site.ru/fishing и site.ru/justforfun, можно было бы прибегнуть к более краткому варианту: site.ru (hunting|fishing|justforfun).

Сервисная специфика

Опыт использования упомянутых движков для реализации поиска по материалам о программировании1 показывает, что Google CSE часто позволяет более качественно и в то же время просто фильтровать контент при включении в поиск только отдельных частей сайтов. В «Персональном поиске» нередко приходилось использовать несколько точек входа, количество которых, к слову, для одного сайта ограничено, что сужает возможности настройки.

На многих сайтах размещены материалы на самую разную тему. Например, на одном и том же сайте может присутствовать как документация по программированию на PHP, так и статьи о веб-дизайне. Можно выделить два способа построения ссылок при разбиении сайта на тематические разделы. В первом случае имеют место статьи с адресами вида site1.ru/category_name/article_name.htm и оглавление раздела со ссылками на статьи по адресу site1.ru/category_name. А во втором соответственно site2.ru/article_name.htm и site2.ru/category_name.htm.

При работе с «Персональным поиском» оба способа одинаково удобны: задается одна или несколько точек входа — по количеству страниц оглавлений разделов, — и статьи, на которые эти точки ссылаются, будут проиндексированы.

В Google CSE очень просто работать со ссылками первого типа: для каждого раздела достаточно добавить фрагмент текста, который присутствует в адресах входящих в него статей (site1.ru/category_name). Со вторым типом возникают проблемы. Если указать строку «site2.ru», то в поиске будут задействованы статьи всех разделов, даже ненужных. В таких случаях можно добавлять в базу ссылки на статьи нужной тематики по одной, но это трудоемкое занятие, если статей на сайте сотни. К счастью, большинство качественных ресурсов использует первый способ адресации статей и разделов.

Отметим и возможность показа объявлений Google AdSense в тематическом поиске, которые приносят автору поисковика дополнительный доход. Также сервис Google позволяет выводить на странице поиска список наиболее популярных запросов.

Отсутствие у «Новотеки» общих поисковых баз не следует ставить ей в вину. «Персональный поиск» предоставляет возможность создания своей собственной поисковой базы. Некоторые веб-страницы по разным причинам могут отсутствовать в индексе Google. «Персональный поиск» лишен этого недостатка, и в базу будет включено только то, что указано в настройках робота. И обновляться она будет с заданной периодичностью.

Поделиться:
Популярные книги

Менталист. Конфронтация

Еслер Андрей
2. Выиграть у времени
Фантастика:
боевая фантастика
6.90
рейтинг книги
Менталист. Конфронтация

Последний из рода Демидовых

Ветров Борис
Фантастика:
детективная фантастика
попаданцы
аниме
5.00
рейтинг книги
Последний из рода Демидовых

Адвокат вольного города 2

Парсиев Дмитрий
2. Адвокат
Фантастика:
городское фэнтези
альтернативная история
аниме
5.00
рейтинг книги
Адвокат вольного города 2

Кодекс Крови. Книга Х

Борзых М.
10. РОС: Кодекс Крови
Фантастика:
фэнтези
юмористическое фэнтези
попаданцы
аниме
5.00
рейтинг книги
Кодекс Крови. Книга Х

Четвертый год

Каменистый Артем
3. Пограничная река
Фантастика:
фэнтези
9.22
рейтинг книги
Четвертый год

Мастер Разума

Кронос Александр
1. Мастер Разума
Фантастика:
героическая фантастика
попаданцы
аниме
6.20
рейтинг книги
Мастер Разума

Наследник с Меткой Охотника

Тарс Элиан
1. Десять Принцев Российской Империи
Фантастика:
попаданцы
альтернативная история
аниме
5.00
рейтинг книги
Наследник с Меткой Охотника

На границе империй. Том 10. Часть 5

INDIGO
23. Фортуна дама переменчивая
Фантастика:
космическая фантастика
попаданцы
5.00
рейтинг книги
На границе империй. Том 10. Часть 5

Тот самый сантехник. Трилогия

Мазур Степан Александрович
Тот самый сантехник
Приключения:
прочие приключения
5.00
рейтинг книги
Тот самый сантехник. Трилогия

Повелитель механического легиона. Том IV

Лисицин Евгений
4. Повелитель механического легиона
Фантастика:
фэнтези
технофэнтези
аниме
5.00
рейтинг книги
Повелитель механического легиона. Том IV

Хозяйка собственного поместья

Шнейдер Наталья
1. Хозяйка
Фантастика:
фэнтези
5.00
рейтинг книги
Хозяйка собственного поместья

Инквизитор Тьмы 2

Шмаков Алексей Семенович
2. Инквизитор Тьмы
Фантастика:
попаданцы
альтернативная история
аниме
5.00
рейтинг книги
Инквизитор Тьмы 2

Целительница моей души

Чекменёва Оксана
Любовные романы:
любовно-фантастические романы
7.29
рейтинг книги
Целительница моей души

Отверженный. Дилогия

Опсокополос Алексис
Отверженный
Фантастика:
фэнтези
7.51
рейтинг книги
Отверженный. Дилогия