Профессиональный поиск в Интернете
Шрифт:
Удобно, что свой поисковый запрос можно сохранить в виде RSS-ленты. Это позволяет оперативно отслеживать новинки по своей любимой теме на торрент-трекерах, даже не заходя на поисковик.
NowTorrents
Поисковик NowTorrents работает с двумя десятками крупных торрент-трекеров, среди которых есть как общеизвестные сервисы, так и менее «раскрученные» проекты в духе IdealTorrents или TorrentHound. NowTorrents позволяет вручную отбирать трекеры, на которые будут уходить ваши запросы. Соответствующие параметры доступны на странице настройки поиска. Среди других доступных параметров – количество результатов, демонстрируемых на одной странице, а также параметры их сортировки.
Для
Рис. 9.3. Система NowTorrents способна обновлять список выдачи в режиме реального времени
Похвально, что создатели NowTorrents уделили внимание качеству поиска. В частности, машина автоматически опознает и удаляет из результатов поиска «мертвые» торренты. Качество торрента визуально интерпретируется диаграммой рядом с каждой позицией в результатах поиска. Зеленая полоска указывает на потенциально качественный релиз, а вот с ресурсами, удостоившимися красной полоски, лучше не связываться.
RSS-поиск
Пополнять список своего RSS-агрегатора можно различными способами. Первый и наиболее распространенный – простой поиск сайтов по интересующим темам, а затем подписка на их RSS-ленты, если, конечно таковые имеются. Способ несложный, однако на редкость медленный и трудоемкий. Другой распространенный вариант – воспользоваться различными рекомендательными сервисами и каталогами. Правда, логика деления таких каталогов может быть просто фееричной, да и обновляются каталоги не так часто, как хотелось бы. В последнее время появилась любопытная альтернатива – интернет-машины, предназначенные для поиска RSS-каналов. Одним из наиболее интересных проектов такого типа является система RSSMicro.
В настоящее время RSSMicro индексирует более чем двенадцать тысяч RSS-каналов. Если же говорить об индексации отдельных сообщений, то счет идет на миллионы. Анализируются новостные сайты, форумы, блоги и другие источники, предлагающие данные в формате RSS. Обновление индекса происходит с периодичностью в несколько часов. Для пополнения индекса используются различные источники, в том числе сервис DMOZ, а также собственные роботы, ведущие поиск веб-сайтов с RSS-каналами. Система поддерживает режим автоматического поиска RSS-источников на сайтах.
Основа поисковика – технология FeedRank. Это собственная разработка владельцев поисковика. Основным параметром оценки канала служит так называемый алгоритм Feed Delta, который выбирает в анализируемом RSS-канале уникальную информацию и определяет ее процент по отношению к общему количеству сообщений ленты. Далее учитывается наличие в сообщениях ленты полных текстов новых материалов и разнообразного дополнительного контента, например изображений. Задействуются и другие параметры. Например, учитывается «жизнеспособность» ленты: количество опубликованных за определенный промежуток времени постов. Анализируется и популярность ленты. В результате формируется численная оценка «дельты» той или иной RSS-ленты.
Кроме оценки качества источника, необходимого для объективного определения позиции той или иной ленты в списке выдачи поисковика, данный показатель используется для отсеивания информационного шума. Дело в том, что по утверждению разработчиков FeedRank автоматически генерируемые
FeedRank измеряется в диапазоне значений от нуля до десяти. Нулевой рейтинг получают давно не обновляющиеся ленты, ленты без текста в постах, большинство лент, автоматически полученных с других ресурсов и не прошедших дополнительную обработку, а также ленты с ошибками, которые роботу банально не удалось открыть. Таковых среди поступающих в систему порядка 6 %. Подавляющее большинство лент – почти 70 % – получают рейтинг, равный единице. Это значит, что звезд с неба они не хватают, имеют ошибки в форматировании либо неполный контент в постах, однако предлагают интересную информацию. Рейтинги 2 и 3 отражают повышающееся качество и оригинальность контента, а вот для получения рейтинга от 4 до 6 от канала потребуется еще и регулярное обновление. Действительно высокие рейтинги получают ленты популярных веб-ресурсов с большим количеством подписчиков и новостные агентства, располагающие собственным оригинальным контентом. Интересно, что лент с рейтингом 8-10 в индексе RSSMicro всего около 1,3 %, так что подход к оценкам у системы достаточно жесткий. Заметим, что RSSMicro отслеживает и индексирует только ленты с положительным рейтингом. Любопытный факт: с особенным вниманием рассматриваются каналы с рейтингами 4–5, поскольку именно в этой зоне, по мнению разработчиков FeedRank, должно находиться большинство качественных ресурсов, которые пока просто не имеют достаточной известности и финансовых возможностей для конкуренции с раскрученными и активно продвигаемыми проектами.
Возможно и самостоятельное добавление RSS-ленты своего веб-сайта в базу RSSMicro. Для этого даже не потребуется регистрировать аккаунт и сообщать какие-либо персональные сведения. Достаточно указать в специально отведенном для этой задачи разделе сайта RSSMicro URL-адрес предлагаемого канала, отнести его к одной из имеющихся тематических категорий и пройти капча-тест. Как только все нужные сведения будут указаны, система сразу же проанализирует предложенный канал и рассчитает его рейтинг. Кроме формы предложения новой RSS-ленты, этот раздел поисковика содержит достаточно толковые комментарии с примерами правильно отформатированного кода и советами по подготовке RSS-лент.
На главной странице RSSMicro предлагается четыре варианта поиска в вертикальных базах. Кроме поиска каналов (Feeds), это поиск отдельных сообщений (Posts), а также поиск изображений и видео. Выбирать режим можно с помощью вкладок рядом с полем ввода запроса (рис. 9.4).
Рис. 9.4. Система поиска RSSMicro
При настройке поиска можно определить предпочитаемый язык RSS-каналов и сообщений, включить режим поиска во всем контенте сообщений. Кроме того, здесь есть флажок ALL Time Search, который определяет, будет ли поиск производиться во всей индексной базе RSSMicro или же только в свежих обновлениях RSS-лент.
Результаты поиска в RSSMicro вполне адекватные и достаточно полезные. При вводе запроса работает механизм автодополнения, предлагающий похожие запросы. К сожалению, RSSMicro не лучшим образом подходит для поиска небольших, узкотематических каналов. Дело в том, что по объективным причинам по таким тематикам обеспечить постоянный поток новостей бывает достаточно затруднительно. В результате подобные ленты получают рейтинг не выше «тройки» и индексируются по остаточному принципу, если вообще попадают в базу.