Профессиональный поиск в Интернете
Шрифт:
Элементы списка на странице выдачи содержат название канала, значение рейтинга, аннотацию канала, а также ссылки, открывающие предварительный просмотр ленты и список ее последних сообщений. Кроме того, имеется прямая ссылка на канал, которую можно использовать для подписки. Если тема достаточно популярна, на странице выдачи появится также панель с перечнем автоматически найденных кластеров, с помощью которой можно быстро уточнить свой запрос.
Раздел RSS Feed Directory основан на анализе базы DMOZ, в которой выбирались сайты, располагающие RSS-каналами. Всего в каталоге порядка ста пятидесяти тысяч источников, разбитых на пятнадцать основных категорий. Есть в нем и около трех тысяч лент на русском языке. Картину дополняют списки рекомендуемых RSS-каналов
RSSMicro предлагает также ряд собственных RSS-каналов, основанных на результатах работы алгоритма FeedRank. На странице RSSMicro News имеются разделы с перечнем наиболее популярных и «трендовых» тем в анализируемых RSS-каналах. Отдельно предлагаются наиболее популярные изображения и видеофайлы, проходившие в RSS-лентах. Пожалуй, здесь наиболее любопытен раздел Authentic & Original News, посвященный исходным текстам активно перепечатываемых статей, а также сообщениям из малоизвестных, но ценных тематических RSS-лент. Для всех названных разделов созданы собственные RSS-каналы, поэтому система RSSMicro вполне может рассматриваться и в качестве «рекомендательной машины».
Раздел Tools содержит различные вспомогательные инструменты. Среди них – форма самостоятельного добавления RSS-ленты в индекс и средство расчета ее рейтинга в режиме реального времени. Кроме того, предлагается инструмент для создания поискового виджета RSSMicro. У него достаточно гибкие возможности настройки, относящиеся как к контенту, так и к внешнему оформлению. Во-первых, предлагается задать перечень ключевых слов, по которым будет вестись поиск, предпочитаемый язык сообщений, область поиска (вся база или только обновления RSSMicro), способ сортировки и количество выводимых в виджете сообщений. Также можно выбирать демонстрируемые элементы RSS-сообщения. Можно также настроить параметры, касающиеся внешнего вида виджета, такие как шрифт заголовка новости и ее текста, размер и цвет блока самого виджета. Рядом с редактором виджета генерируется превью будущего виджета, которое наглядно демонстрирует будущий результат ваших усилий. Далее остается только получить код и поместить его на своем ресурсе. Надо сказать, это хорошая заготовка для автоматического новостного блока. Создание аналогичного виджета с помощью мэшап-редакторов займет гораздо больше времени, даже если вывести за скобки собственно весьма трудоемкий процесс поиска сайтов с тематическими RSS-лентами.
Выводы и рекомендации
Скрытые ресурсы – серьезный источник информации самого различного плана и назначения. В основном объектом поиска выступают файлы, что обуславливает специфические требования к поисковикам и приемам работы с запросами.
При поиске FTP-ресурсов основное внимание приходится уделять языку запросов, благо поисковые операторы на различных ресурсах в основном повторяются.
Поиск ресурсов на файлообменных сервисах, как правило, ведется по косвенным признакам: поисковики индексируют различные веб-ресурсы, размещающие ссылки на таких сайтах. В то же время, есть и сервисы, пытающиеся работать с файлами напрямую. Рассмотренные поисковые машины не всемогущи, но действительно существенно упрощают поиск файлов, размещенных на Rapidshare. Максимальной эффективности поиска можно добиться, используя несколько машин, желательно работающих на разных принципах.
Не секрет, что Rapidshare и другие подобные файлообменные ресурсы зачастую используются для распространения контента в условиях брутального надругательства над авторскими правами. Обзор поисковиков, облегчающих работу с ними, может быть истолкован двояко. Поэтому в заключение хотелось бы расставить точки над «i». Это просто инструменты поиска, которые каждый применяет в соответствии с велениями собственной совести. Не будем также забывать, что рассмотренные поисковики – оружие обоюдоострое и вполне могут служить для поиска и удаления нелегально размещенных в Сети материалов, благо возможности подачи жалоб на содержимое сохраненных файлов есть на всех крупных современных файлообменниках.
Весьма полезным дополнением
Если же говорить о «настоящих» метапоисковиках торрентов, опирающихся на собственные базы, то ситуация здесь неоднозначная. С одной стороны, существующие решения, позволяющие охватить сразу несколько крупных трекеров, действительно способны повысить эффективность поиска торрентов и заслуживают самого серьезного внимания. С другой – невооруженным глазом заметно, что простор для дальнейшего роста у них еще весьма и весьма солидный. При этом речь не идет о каких-то сверхсложных экспериментах, достаточно присмотреться к эволюции «обычных» метапоисковиков, предназначенных для работы с веб-документами. Многие функции, ставшие для них стандартными, в торрент-машинах еще не реализованы.
Типичный современный торрент-поисковик, как правило, работает с пятью-десятью крупнейшими универсальными трекерами. Поскольку их список на большинстве метапоисковиков совпадает, на первый план выходят возможности составления сложных запросов и фильтрации результатов по различным признакам. По данному критерию, пожалуй, наиболее интересно выглядят метапоисковики Torrentz и ScrapeTorrent. Система NowTorrents полезна своей функцией обновления результатов в режиме реального времени.
Еще один важный аспект применения метапоисковой технологии – это работа с многочисленными относительно небольшими тематическими трекерами, счет которым в Сети идет на тысячи. Ручной перебор таких ресурсов при поиске редких файлов занимает массу времени и просто-таки требует автоматизации. Метапоисковики как раз и способны ввести такие редкие трекеры в поисковый оборот. Лидерами по количественному охвату торрент-ресурсов сейчас являются поисковики, использующие базу Google, однако стандартные интерфейсы и инструменты уточнения запросов Google CSE мало подходят для реального поиска торрентов, что неблагоприятно сказывается на качестве результатов.
Глава 10
Поиск для Web 3.0
Технологии «семантического веба» – главного претендента на роль следующего поколения развития. Сети, которое уже окрестили Web 3.0, неторопливо, но верно обосновываются на все большем количестве интернет-сервисов. Появление новых проектов связано с актуальной и серьезной проблемой извлечения полезной информации из огромного объема представленных в современной. Сети данных. Сбор, обработка и сведение воедино данных из множества источников остается весьма трудоемким занятием, которое было бы весьма заманчиво переложить на плечи компьютеров. Однако интернет в его современном состоянии не самым лучшим образом приспособлен для решения этой задачи. Причины этого довольно глубоки, можно сказать, концептуальны. При всем своем многообразии подавляющее большинство современных веб-проектов объединяет то, что они ориентированы исключительно на человеческое восприятие. Под это понятное и естественное требование изначально подгонялись форма и технологии создания веб-ресурсов. В конце концов, их же должен просматривать Homo Sapiens, который способен самостоятельно выделить смысл содержимого страницы.
Проанализировать смысл такой веб-страницы в автоматическом режиме – сложная задача. Что скрывается за текстом веб-страницы – ценные сведения и выводы, сделанные знатоками темы, просто бесполезная в данный момент информация или откровенная ерунда, компьютеру не ведомо. Попытка преодолеть данный семантический барьер «в лоб», на базе технологий современной сети, требует приложений, приближенных по уровню к искусственному интеллекту, что отодвигает их перспективы в неясное будущее, по крайней мере, для обычных пользователей Сети.