Чтение онлайн

на главную - закладки

Жанры

Интернет-разведка. Руководство к действию
Шрифт:

Страница, которая нужна пользователю, может содержать слова, отличные от тех, которые он, вероятнее всего, введет в поисковую строку. В результате, человек, не обладающий большим опытом поиска информации в Интернете, не сможет найти нужную страницу с помощью поисковой машины.

5. Предпочтение поисковой машиной быстроты поиска, а не его глубины.

Выбор между «максимально быстро» и «максимально полно» существует в любой отрасли, связанной с получением и обработкой информации. Поисковые системы обычно сориентированы их владельцами на наиболее быстрое получение результатов,

пусть даже в ущерб полноте. Поэтому некоторые страницы, индексирование которых трудоемко, остаются за пределами базы данных, попадающей на сервер поисковой машины.

Хотя бывают исключения из этого правила. Существуют специализированные поисковики, которые добывают информацию, копая вглубь и напрочь отметая критерий скорости ее нахождения. Но они при этом «ходят» лишь на тематические сайты. Примером такой специализированной системы может служить, по информации Гэри Прайса Law Crawler (http://lawcrawler.lp.findlaw.com/) или Politicalinformation.com (http://www.politicalinformation.com).

6. Ориентация поисковых машин на поиск текстов в разных вариантах.

Поисковые машины изначально сориентированы на поиск текстов. На раннем этапе развития Интернета – представленных в формате HTML, после чего стали добавляться и другие их разновидности – Word (.doc), Adobe Acrobat (.pdf), Flash. Однако и эти форматы все равно содержат тексты. Индексировать изображения или, например, звуковые файлы (не названия звуковых файлов, а именно сам звук), поисковые машины пока не научились.

Типы контента в невидимом Интернете

Разные типы контента по разным причинам могут стать частью невидимого Интернета.

1. Быстрое устаревание или изменение информации.

Некоторые виды информации устаревают или меняются столь стремительно, что пауки просто не в состоянии ее проиндексировать своевременно. При этом часто владельцы поисковых систем вообще не пускают спайдеров на такие страницы, дабы не тратить ресурсы на бесполезное занятие.

Примером такого контента может служить сайт о погоде в реальном масштабе времени.

2. Ресурсы состоят преимущественно из документов в таких форматах, которые не поддерживаются поисковыми машинами.

Как, скажем, страница, содержание которой ограничивается одним лишь изображением.

3. Содержимое страницы генерируется по запросу и формируется пошагово.

Примером в данном случае может служить ресурс, на котором осуществляется расчет цены автомобиля, в зависимости от комплектации и материала отделки салона. Для получения такой страницы пользователь пошагово заполняет формы на сайте, и конечный результат каждый раз формируется заново. Содержимое такой страницы не может быть проиндексировано по той простой причине, что без запроса страницы не существует, а заполнять формы паук не умеет.

4. Содержимое баз данных.

Результат из базы данных также появляется лишь после ввода определенного

запроса в форму обращения к ней. Паук, как и в предыдущем случае, не может ни заполнить форму запроса, ни проиндексировать содержимое самой базы.

5. Страница не вводилась в форму добавления сайта, не вводилась ни в какие формы проверки рейтинга на поисковых системах и при этом на нее не ведут никакие ссылки.

Паук никоим образом не может узнать о существовании подобной страницы, а потому никогда ее не посетит.

Эти страницы, кстати, могут представлять большой интерес для конкурентной разведки, поскольку на практике известны случаи, когда на них содержались эксклюзивные предложения для некоторых клиентов. Информация такого рода ориентирована на целевые группы и выкладывается на сайте, клиентам же присылаются ссылки на нужные страницы. Последние представляют бесценную находку для компаний, работающих на рынках с высокой конкуренцией, поскольку содержат ответ на вопрос о том, по каким ценам соперник реально продает свою продукцию.

Мы сталкивались с ситуацией, когда компания смогла вычислить алгоритм составления адресов таких страниц конкурентом, после чего была долгое время в курсе всех его специальных предложений – до момента смены системного администратора конкурента.

Примеры поведения поисковой машины при посещении страницы в Интернете

Придя на страницу, паук первым делом определяет, есть ли на сайте что-либо, что его владелец запрещает индексировать.

Подобный запрет может быть реализован двумя способами. Первый заключается в том, что на сайте создается специальный файл robots.txt либо используется особый тег – так называемый, метатег <noindex>. В этот файл или под метатег «прячут» содержимое страницы, которое, по мнению владельца контента, не должно индексироваться поисковыми машинами.

Единственное отличие между ними состоит в том, что <noindex> работает на той странице, на которой он расположен, тогда как robots.txt может быть использован с целью предотвращения индексации любых отдельных страниц, групп файлов или даже всего веб-сайта.

По своей сути, никаких технических препятствий для индексирования содержимого ресурса этот способ не создает. Однако большинство поисковых машин с уважением относится к подобному способу защиты контента, который, как правило, не попадает в информационные системы. Наиболее близким аналогом столь действенного ограничения доступа в реальном мире можно считать таблички «м» и «ж» на дверях общественных уборных.

На наш взгляд, метод ограничения индексирования с помощью файла robots. txt или метатега <noindex> потому получил столь большое распространение, что он препятствует работе пауков, но не мешает людям просматривать содержимое страниц без каких-либо ограничений.

Второй способ охраны контента значительно надежнее первого и заключается в том, что страница защищается паролем. Паук технически неспособен вводить пароль. Однако и человек, прежде всего, должен этот пароль знать, а кроме того, ему необходимо потратить время и приложить усилия для того, чтобы его ввести. При такой защите ресурса работает уже не этический, а технический способ ограничения индексирования.

Поделиться:
Популярные книги

Законы Рода. Том 10

Андрей Мельник
10. Граф Берестьев
Фантастика:
юмористическая фантастика
аниме
фэнтези
5.00
рейтинг книги
Законы Рода. Том 10

Офицер

Земляной Андрей Борисович
1. Офицер
Фантастика:
боевая фантастика
7.21
рейтинг книги
Офицер

На границе империй. Том 3

INDIGO
3. Фортуна дама переменчивая
Фантастика:
космическая фантастика
5.63
рейтинг книги
На границе империй. Том 3

Наследие Маозари 6

Панежин Евгений
6. Наследие Маозари
Фантастика:
попаданцы
постапокалипсис
рпг
фэнтези
эпическая фантастика
5.00
рейтинг книги
Наследие Маозари 6

Камень. Книга вторая

Минин Станислав
2. Камень
Фантастика:
фэнтези
8.52
рейтинг книги
Камень. Книга вторая

Черный Маг Императора 11

Герда Александр
11. Черный маг императора
Фантастика:
юмористическое фэнтези
попаданцы
аниме
фэнтези
5.00
рейтинг книги
Черный Маг Императора 11

Отмороженный 9.0

Гарцевич Евгений Александрович
9. Отмороженный
Фантастика:
боевая фантастика
рпг
5.00
рейтинг книги
Отмороженный 9.0

Метатель

Тарасов Ник
1. Метатель
Фантастика:
боевая фантастика
попаданцы
рпг
фэнтези
фантастика: прочее
постапокалипсис
5.00
рейтинг книги
Метатель

Гоплит Системы

Poul ezh
5. Пехотинец Системы
Фантастика:
фэнтези
рпг
фантастика: прочее
5.00
рейтинг книги
Гоплит Системы

Хозяйка покинутой усадьбы

Нова Юлия
Любовные романы:
любовно-фантастические романы
5.00
рейтинг книги
Хозяйка покинутой усадьбы

Моя (не) на одну ночь. Бесконтрактная любовь

Тоцка Тала
4. Шикарные Аверины
Любовные романы:
современные любовные романы
7.70
рейтинг книги
Моя (не) на одну ночь. Бесконтрактная любовь

Газлайтер. Том 4

Володин Григорий
4. История Телепата
Фантастика:
попаданцы
альтернативная история
аниме
5.00
рейтинг книги
Газлайтер. Том 4

Боярышня Евдокия

Меллер Юлия Викторовна
3. Боярышня
Фантастика:
попаданцы
альтернативная история
5.00
рейтинг книги
Боярышня Евдокия

Опасная любовь командора

Муратова Ульяна
1. Проклятые луной
Фантастика:
фэнтези
5.00
рейтинг книги
Опасная любовь командора