Интернет-разведка. Руководство к действию
Шрифт:
Просмотр служебной информации о сайте с помощью ресурса NETCRAFT [14]
Этот ресурс позволяет определить, какие серверы используются в обслуживании сайта, кому они принадлежат, какие имеют ip-адреса и какие на них установлены операционные системы. Причем, для целей конкурентной разведки может быть полезным то, что здесь отображается вся история изменений как аппаратной и программной части серверов компании, так и провайдеров, которые обеспечивают хостинг. Это помогает, в частности, оценить техническую «подкованность» организации и косвенно – через обновление техники – ее финансовое благополучие.
14
Гиперссылка SearchDNS на главной странице сайта http://news.netcraft.com
Рис. 37. Информация об истории изменения аппаратной, программной части серверов, обслуживающих сайт по адресу http://www.autoland.ru/, и о провайдере, полученная на ресурсе NETCRAFT
Просмотр содержимого файла robots.txt
Для просмотра содержимого этого файла мы рекомендуем воспользоваться скриптом, созданным Сергеем Матвеенко – специалистом по IT из Санкт-Петербурга.
Скрипт доступен по адресу: http://serge.matveenko.ru/robotstxt/.
Вот что пишет о нем сам автор.
Кнопка на панель ссылок браузера для просмотра текста файла robots.txt
Вы можете добавить на панель ссылок вашего браузера кнопку «Посмотреть robots.txt». Чтобы установить кнопку, просто перетащите эту ссылку на панель ссылок вашего браузера: Посмотреть robots.txt.
Теперь, если Вы захотите увидеть файл robots.txt сайта, который в данный момент открыт в браузере, просто щелкните по кнопке «Посмотреть robots.txt» в панели ссылок. Откроется страница, содержащая текст файла.
Кнопка работает во всех браузерах при включенном JavaScript.
При просмотре сайта компании «Автоленд» выяснилось, что файл robots.txt на ресурсе отсутствует. Таким образом, данный способ ограничения индексации поисковыми роботами в указанном случае не применяется. Для получения доказательств того, что скрипт все-таки работает, мы обратились к другому сайту, а именно – форуму на екатеринбургском портале e1 по адресу: www.e1.ru/talk/ forum/.
Результат проверки содержимого файла robots.txt на сайте форума приведен ниже.
User-Agent: *
Disallow: /mye1
Disallow: /ad.php
Disallow: /cgi/go
Disallow: /talk/forum/go.php
Disallow: /fun/photo/get_code.php
Disallow: /auto/sale/print/
Disallow: /talk/forum/forum_news.php
В ряде случаев специалиста конкурентной разведки может ждать удача – когда переход по гиперссылке, указанной в окне с результатами проверки содержимого файла robots.txt, открывает доступ в те зоны сайта, которые в принципе предназначены лишь для служебного пользования, но при этом не запрещены к посещению людьми (то есть ограничения на посещение введены исключительно для поисковых пауков). Соответственно, на наш взгляд, ничего противозаконного или неэтичного в попытке представителя конкурентной разведки взглянуть на страницы ресурса, к которым ведут гиперссылки в файле robots.txt, нет.
Визуальный осмотр офиса изучаемого предприятия на спутниковой фотографии с использованием Google Map
Этот метод хорош при работе с иностранными партнерами из развитых стран, поскольку в Гугле сделана
Рис. 38. Офис компании IBM в Нью-Йорке, показанный с помощью ресурса Google Map.
За рубежом законодательные проблемы точности карт уже решены. При поиске иностранных компаний достаточно ввести название предприятия в поисковую строку Гугла и выбрать масштаб изображения, а также вариант его демонстрации – «карта» (map), как это представлено на рис. 38, «спутниковое изображение» (satellite) или «и то, и другое» (hybrid). При этом пользователю будет показана и контактная информация интересующей его организации.
Грамматические ошибки в тексте, размещенном на сайте
После того, как завершено знакомство с сайтом с технической точки зрения, советуем приступить к исследованию его конента – текстовой и графической информации.
Во время такого изучения могут быть обнаружены орфографические или пунктуационные ошибки. В случае их выявления, для того, чтобы сделать правильные выводы из такой находки, надо постараться понять, почему эти огрехи присутствуют на сайте.
Вот наиболее частые причины появления орфографических и грамматических ошибок в сетевых документах.
Случайные опечатки грамотного человека при вводе информации, при отсутствии контроля качества готового материала.
Безграмотность человека, составлявшего текст.
Принадлежность владельцев или целевой аудитории сайта к субкультуре, которая использует намеренно искаженный язык.
Сетевые традиции написания некоторых слов.
Намеренные ошибки, введенные в текст, призванные помочь сайту обнаруживаться по ключевым словам, которые пользователи часто вводят в поисковую строку с нарушением правил грамматики.
Безусловно, наличие ошибок или опечаток нередко может подорвать доверие к ресурсу, даже если его контент безупречен по содержанию. На рис. 39 и 40 приведены примеры двух размещенных в Интернете текстов, которые содержат такие огрехи. Причины их появления нам не известны, предоставим читателю самостоятельно оценить степень доверия к материалу, изложенному таким образом.
Обычно понять причины появления ошибок или опечаток можно интуитивно. Однако иногда установить, чем обусловлено их возникновение, бывает непросто. Для того, чтобы отличить безграмотность от случайных огрехов, как правило, достаточно «пробежать» несколько текстов, размещенных на сайте. Если какое-то слово на ресурсе пишется в основном правильно и лишь изредка – с ошибкой, то это, вероятно, связано с невнимательностью при вводе, то есть это опечатка. Если же слово везде или по преимуществу написано неправильно, то причина этого – в безграмотности, и в данном случае речь идет уже о грамматической ошибке.