Пособие по журналистике данных
Шрифт:
Рис 57. The Blekko search engine (Blekko.com)
Рис 58. Understanding web popularity: who links to who? The other handy tab is »Crawl stats», especially the »Cohosted with» section. (Blekko.com)
Рис 59. Spotting web spammers and scammers (Blekko.com)
Compete.com
Ресурс Compete.comзанимающийся опросом мнений американских потребителей, составляет подробную статистику использования большого количества сайтов, и некоторые из основных данных предоставляются бесплатно. Выберите вкладку «Site Profile» и введите доменное имя ( Рис 60). В результате вы увидите график трафика сайта за последний год, данные о количестве
Рис 60. Compete.com’s site profile service (Compete.com)
Рис 61. What’s in vogue? What’s in demand?: hotspots on the web (Compete.com)
Google’s Site Search
Функция, которая может оказаться чрезвычайно полезной, когда вы хотите исследовать содержание какого–либо конкретного домена — это ключевое слово «site:». Если вы добавите фразу «site:example.com» к вашему поисковому запросу, Google покажет только те результаты, которые находятся на указанном вами сайте. Вы можете еще больше сузить запрос, указывая префикс тех страниц, которые вас интересуют, например, «site:example.com/pages/», в результате чего вам будут показаны, отвечающие этому конкретному запросу. Это может оказаться полезным при поиске информации, которая находится в открытом доступе, но которая не рекламируется владельцами домена, поэтому выбор правильных ключевых слов может привести к обнаружению очень важной для вас информации.
Веб–страницы, изображения и видео
Иногда у вас может возникнуть желание исследовать активность, связанную с отдельным материалом, а не со всем веб–сайтом. Описанные далее инструменты помогут вам под разными углами посмотреть на то, как люди читают, комментируют, копируют и делятся контентом в Интернете.
Bit.ly
Я всегда пользуюсь bit.ly, когда я хочу узнать, как люди делятся друг с другом какой–то конкретной ссылкой. Чтобы воспользоваться сервисом, введите интересующий вас URL–адрес и щелкните по ссылке «Info Page+». В результате вы перейдете на страницу с полной статистикой (хотя вам может понадобиться нажать сначала «aggregrate bit.ly link», если вы зарегистрированы в этом сервисе). Вы сможете понять, насколько популярной является страница, включая ее обсуждение в Facebook и Twitter, а ниже вы увидите разговоры об этой ссылке, предоставленные сервисом backtype.com. Это сочетание данных о трафике и разговоров бывает весьма полезным, когда необходимо понять причины популярности сайта или страницы, а также узнать, кем именно являются их фанаты. Например, благодаря этим данным я получил весомые доказательства того, что преобладающие комментарии относительно низов и Сары Пэйлин были ошибочны.
С бурным ростом популярности сервиса микроблогов он становится все более полезным в качестве показателя того, как люди делятся тем или иным контентом и что они о нем говорят. Получить результаты обсуждений какой–либо ссылки подозрительно легко. Вы просто вставляете интересующую вас ссылку в строку поиска, после чего вам может понадобиться только нажать «more tweets» (больше твитов), чтобы получить полный список результатов.
Кэш поисковика Google
Если страница становится причиной недовольства или конфликтов, издатель может решить удалить или изменить ее без признания данного факта. Если вы подозреваете, что происходит именно это, то прежде всего необходимо обратиться к кэшу Google, в котором эта страница хранится с момента последнего обхода Интернета поисковиком. Частота обходов постоянно возрастает, поэтому больше всего шансов получить желаемое будет в течение нескольких часов после предполагаемых изменений. Введите нужный URL в строку поиска, затем нажмите двойную стрелку, появляющуюся справа от результата для данной страницы. Появится окно предварительного просмотра, над которым, если вам повезет, будет ссылка «Сохраненная копия». Щелкните по ней, чтобы посмотреть сделанный поисковиком Google снимок страницы. Если вы сталкиваетесь с проблемами при загрузке, вы можете переключиться на более простую текстовую страницу, щелкнув по соответствующей ссылке вверху сохраненной страницы. Рекомендуется сделать скриншот или скопировать нужный вам контент, т. к. содержание кэша может измениться в любой момент в результате создания новых копий после очередного обхода.
Веб–сервис «Машина прошлого» проекта Архив Интернета
Если вы хотите знать, как изменялась конкретная страница на протяжении длительного периода времени, например, на протяжении месяцев или лет, вы можете воспользоваться веб–сервисом The Wayback Machine(Машина прошлого) проекта Internet Archive (Архив Интернета), который с определенной периодичностью делает снимки наиболее популярных страниц сети. Вы идете на сайт проекта, вводите адрес, который вы
Просмотр исходного кода
Это может отнять много времени, однако разработчики нередко оставляют комментарии или другую информацию в HTML–коде страницы. В любом браузере, пусть и в разных местах меню, имеется функция просмотра исходного кода, которая позволяет просматривать HTML–код. Вам не обязательно понимать, что означают машиночитаемые участки кода, просто просматривайте куски текста, которые нередко бывают раскиданы между ними Даже если это просто уведомления об авторском праве или имена разработчиков, эта информация может дать важные подсказки о создании и предназначении страницы.
TinEye
Иногда вам может понадобиться информация об источнике изображения, однако без сопроводительного текста такую информацию бывает трудно добыть с помощью традиционных поисковых движков, таких, как, например, Google. Сервис TinEyeосуществляет «обратный поиск изображений», т. е. вы предоставляете изображение, а он находит в Интернете другие изображения, похожие на предоставленное вами. Т. к. в процессе сравнивания используется распознавание изображений, результат можно получить, даже если копия была обрезана, деформирована или сжата. Этот сервис может оказаться очень полезным, если вы подозреваете, что изображение, которое выдается как оригинальное или новое, таковым не является, кроме того, этот сервис может привести вас к реальному источнику изображения.
YouTube
Щелкнув значок «Статистика» в нижнем правом углу любого видео, вы получите богатый набор информации об аудитории этого видео на протяжении определенного времени. Несмотря на то, что предоставляемая информация не является полной, она может оказаться полезной для понимания состава зрителей, того, откуда и когда они приходят.
Адреса электронной почты
При изучении адресов электронной почты вам зачастую хочется узнать больше о личности и местоположении отправителя. Хороших готовых инструментов для этого не существует, однако очень полезно обладать базовыми знаниями о скрытых заголовках, входящих в состав каждого электронного письма. Они работают как почтовые марки и могут раскрыть неожиданный объем информации об отправителе. В частности, они часто включают в себя IP–адрес компьютера, с которого было отправлено письмо, что напоминает функцию определителя номера в телефонном аппарате. Вы можете изучить этот адрес с помощью сервиса whois, чтобы найти информацию об организации, которой принадлежит этот компьютер. Если окажется, что владельцем является какой–нибудь крупный интернет–провайдер вроде Comcast или AT&T, вы можете посетить ресурс MaxMind, чтобы узнать приблизительное местоположение этого адреса. Чтобы посмотреть эти заголовки в Gmail, откройте письмо, затем откройте меню рядом с кнопкой «Ответить» в верхнем правом углу и выберите «Показать оригинал». Откроется новая страница, на которой будет показано скрытое содержимое. В начале письма будет пара десятков строк, представляющих собой слова с двоеточиями. Нужный вам IP–адрес может находиться где–то среди них, однако его название будет зависеть от того, откуда было отправлено это электронное письмо. Если оно было отправлено с Hotmail, имя будет выглядеть как «X–Originating–IP:», но если оно было отправлено из Outlook или Yahoo, имя будет находиться в первой строке и начинаться со слова «Received:». Проверка адреса с помощью сервиса whois показала, что он принадлежит компании Virgin Media, интернет–провайдеру из Великобритании, а после проверки с помощью сервиса геолокации MaxMind я выяснил, что письмо было отправлено из моего родного города Кембридж. Т. е. я небезосновательно могу быть уверенным в том, что это письмо было отправлено моими родителями, а не какими–нибудь самозванцами!
Тенденции
Если вы ведете расследование по какой–то широкой теме, а не по отдельному сайту или статье, вам может пригодиться пара инструментов.
Трафик статей Википедии
Если вы хотите знать, как менялся со временем общественный интерес к лицу или какой–то теме, на сайте stats.grok.se/вы можете получить данные о просмотре любой из страниц Википедии день за днем. Этот сайт немного сыроват и не доделан, однако он позволит вам получить необходимую информацию, приложив лишь толику усилий. Введите интересующее вас имя, чтобы получить информацию о месячном трафике этой страницы. Там будет график, показывающий, сколько раз в день просматривали данную страницу на протяжении выбранного месяца. К сожалению, за один раз вы можете посмотреть данные только за один месяц, поэтому, чтобы отследить более долгосрочные изменения, вам будет нужно выбрать новый месяц и задать новый поиск.
Сведения о поиске в Google
Вы можете получить ясное представление о поисковых предпочтениях пользователей с помощью сервиса Insights from Google. Введите пару распространенных поисковых фраз, например, «Justin Bieber» и «Lady Gaga», и вы увидите график, отображающий количество поисков на временной шкале. Сервис предлагает различные варианты представления данных, позволяет просматривать их по регионам или получать больше данных по тому или иному периоду. Единственный недостаток — отсутствие абсолютных показателей, вы получаете только относительные значения в процентах, которые бывает сложно интерпретировать.