Чтение онлайн

на главную - закладки

Жанры

Пособие по журналистике данных
Шрифт:

Рис 57. The Blekko search engine (Blekko.com)

Рис 58. Understanding web popularity: who links to who? The other handy tab is »Crawl stats», especially the »Cohosted with» section. (Blekko.com)

Рис 59. Spotting web spammers and scammers (Blekko.com)

Compete.com

Ресурс Compete.comзанимающийся опросом мнений американских потребителей, составляет подробную статистику использования большого количества сайтов, и некоторые из основных данных предоставляются бесплатно. Выберите вкладку «Site Profile» и введите доменное имя ( Рис 60). В результате вы увидите график трафика сайта за последний год, данные о количестве

посетителей и частоте посещений (см. Рис 61). Так как в основе получаемых данных лежат опросы, эти данные являются приблизительными, однако, когда у меня появлялась возможность сравнить их с внутренними аналитическими данными, я понимал, что они являются довольно точными. В частности, их можно принимать во внимание при сравнении между собой двух сайтов, т. к., несмотря на отсутствие абсолютных цифр для этих сайтов, они хорошо показывают относительную разницу в их популярности. Данный ресурс исследует только американских потребителей, поэтому данные по большей части иностранных сайтов будут довольно бедными.

Рис 60. Compete.com’s site profile service (Compete.com)

Рис 61. What’s in vogue? What’s in demand?: hotspots on the web (Compete.com)

Google’s Site Search

Функция, которая может оказаться чрезвычайно полезной, когда вы хотите исследовать содержание какого–либо конкретного домена — это ключевое слово «site:». Если вы добавите фразу «site:example.com» к вашему поисковому запросу, Google покажет только те результаты, которые находятся на указанном вами сайте. Вы можете еще больше сузить запрос, указывая префикс тех страниц, которые вас интересуют, например, «site:example.com/pages/», в результате чего вам будут показаны, отвечающие этому конкретному запросу. Это может оказаться полезным при поиске информации, которая находится в открытом доступе, но которая не рекламируется владельцами домена, поэтому выбор правильных ключевых слов может привести к обнаружению очень важной для вас информации.

Веб–страницы, изображения и видео

Иногда у вас может возникнуть желание исследовать активность, связанную с отдельным материалом, а не со всем веб–сайтом. Описанные далее инструменты помогут вам под разными углами посмотреть на то, как люди читают, комментируют, копируют и делятся контентом в Интернете.

Bit.ly

Я всегда пользуюсь bit.ly, когда я хочу узнать, как люди делятся друг с другом какой–то конкретной ссылкой. Чтобы воспользоваться сервисом, введите интересующий вас URL–адрес и щелкните по ссылке «Info Page+». В результате вы перейдете на страницу с полной статистикой (хотя вам может понадобиться нажать сначала «aggregrate bit.ly link», если вы зарегистрированы в этом сервисе). Вы сможете понять, насколько популярной является страница, включая ее обсуждение в Facebook и Twitter, а ниже вы увидите разговоры об этой ссылке, предоставленные сервисом backtype.com. Это сочетание данных о трафике и разговоров бывает весьма полезным, когда необходимо понять причины популярности сайта или страницы, а также узнать, кем именно являются их фанаты. Например, благодаря этим данным я получил весомые доказательства того, что преобладающие комментарии относительно низов и Сары Пэйлин были ошибочны.

Twitter

С бурным ростом популярности сервиса микроблогов он становится все более полезным в качестве показателя того, как люди делятся тем или иным контентом и что они о нем говорят. Получить результаты обсуждений какой–либо ссылки подозрительно легко. Вы просто вставляете интересующую вас ссылку в строку поиска, после чего вам может понадобиться только нажать «more tweets» (больше твитов), чтобы получить полный список результатов.

Кэш поисковика Google

Если страница становится причиной недовольства или конфликтов, издатель может решить удалить или изменить ее без признания данного факта. Если вы подозреваете, что происходит именно это, то прежде всего необходимо обратиться к кэшу Google, в котором эта страница хранится с момента последнего обхода Интернета поисковиком. Частота обходов постоянно возрастает, поэтому больше всего шансов получить желаемое будет в течение нескольких часов после предполагаемых изменений. Введите нужный URL в строку поиска, затем нажмите двойную стрелку, появляющуюся справа от результата для данной страницы. Появится окно предварительного просмотра, над которым, если вам повезет, будет ссылка «Сохраненная копия». Щелкните по ней, чтобы посмотреть сделанный поисковиком Google снимок страницы. Если вы сталкиваетесь с проблемами при загрузке, вы можете переключиться на более простую текстовую страницу, щелкнув по соответствующей ссылке вверху сохраненной страницы. Рекомендуется сделать скриншот или скопировать нужный вам контент, т. к. содержание кэша может измениться в любой момент в результате создания новых копий после очередного обхода.

Веб–сервис «Машина прошлого» проекта Архив Интернета

Если вы хотите знать, как изменялась конкретная страница на протяжении длительного периода времени, например, на протяжении месяцев или лет, вы можете воспользоваться веб–сервисом The Wayback Machine(Машина прошлого) проекта Internet Archive (Архив Интернета), который с определенной периодичностью делает снимки наиболее популярных страниц сети. Вы идете на сайт проекта, вводите адрес, который вы

хотите изучить, и если в системе хранятся копии этой страницы, то вам будет показан календарь, на котором вы сможете выбрать нужный вам период времени. После этого вам будет показано, как выглядела страница в тот момент. Зачастую на страницах будут отсутствовать элементы стиля или изображения, однако и остального бывает вполне достаточно, чтобы понять, каков был основной контент страницы в прошлом.

Просмотр исходного кода

Это может отнять много времени, однако разработчики нередко оставляют комментарии или другую информацию в HTML–коде страницы. В любом браузере, пусть и в разных местах меню, имеется функция просмотра исходного кода, которая позволяет просматривать HTML–код. Вам не обязательно понимать, что означают машиночитаемые участки кода, просто просматривайте куски текста, которые нередко бывают раскиданы между ними Даже если это просто уведомления об авторском праве или имена разработчиков, эта информация может дать важные подсказки о создании и предназначении страницы.

TinEye

Иногда вам может понадобиться информация об источнике изображения, однако без сопроводительного текста такую информацию бывает трудно добыть с помощью традиционных поисковых движков, таких, как, например, Google. Сервис TinEyeосуществляет «обратный поиск изображений», т. е. вы предоставляете изображение, а он находит в Интернете другие изображения, похожие на предоставленное вами. Т. к. в процессе сравнивания используется распознавание изображений, результат можно получить, даже если копия была обрезана, деформирована или сжата. Этот сервис может оказаться очень полезным, если вы подозреваете, что изображение, которое выдается как оригинальное или новое, таковым не является, кроме того, этот сервис может привести вас к реальному источнику изображения.

YouTube

Щелкнув значок «Статистика» в нижнем правом углу любого видео, вы получите богатый набор информации об аудитории этого видео на протяжении определенного времени. Несмотря на то, что предоставляемая информация не является полной, она может оказаться полезной для понимания состава зрителей, того, откуда и когда они приходят.

Адреса электронной почты

При изучении адресов электронной почты вам зачастую хочется узнать больше о личности и местоположении отправителя. Хороших готовых инструментов для этого не существует, однако очень полезно обладать базовыми знаниями о скрытых заголовках, входящих в состав каждого электронного письма. Они работают как почтовые марки и могут раскрыть неожиданный объем информации об отправителе. В частности, они часто включают в себя IP–адрес компьютера, с которого было отправлено письмо, что напоминает функцию определителя номера в телефонном аппарате. Вы можете изучить этот адрес с помощью сервиса whois, чтобы найти информацию об организации, которой принадлежит этот компьютер. Если окажется, что владельцем является какой–нибудь крупный интернет–провайдер вроде Comcast или AT&T, вы можете посетить ресурс MaxMind, чтобы узнать приблизительное местоположение этого адреса. Чтобы посмотреть эти заголовки в Gmail, откройте письмо, затем откройте меню рядом с кнопкой «Ответить» в верхнем правом углу и выберите «Показать оригинал». Откроется новая страница, на которой будет показано скрытое содержимое. В начале письма будет пара десятков строк, представляющих собой слова с двоеточиями. Нужный вам IP–адрес может находиться где–то среди них, однако его название будет зависеть от того, откуда было отправлено это электронное письмо. Если оно было отправлено с Hotmail, имя будет выглядеть как «X–Originating–IP:», но если оно было отправлено из Outlook или Yahoo, имя будет находиться в первой строке и начинаться со слова «Received:». Проверка адреса с помощью сервиса whois показала, что он принадлежит компании Virgin Media, интернет–провайдеру из Великобритании, а после проверки с помощью сервиса геолокации MaxMind я выяснил, что письмо было отправлено из моего родного города Кембридж. Т. е. я небезосновательно могу быть уверенным в том, что это письмо было отправлено моими родителями, а не какими–нибудь самозванцами!

Тенденции

Если вы ведете расследование по какой–то широкой теме, а не по отдельному сайту или статье, вам может пригодиться пара инструментов.

Трафик статей Википедии

Если вы хотите знать, как менялся со временем общественный интерес к лицу или какой–то теме, на сайте stats.grok.se/вы можете получить данные о просмотре любой из страниц Википедии день за днем. Этот сайт немного сыроват и не доделан, однако он позволит вам получить необходимую информацию, приложив лишь толику усилий. Введите интересующее вас имя, чтобы получить информацию о месячном трафике этой страницы. Там будет график, показывающий, сколько раз в день просматривали данную страницу на протяжении выбранного месяца. К сожалению, за один раз вы можете посмотреть данные только за один месяц, поэтому, чтобы отследить более долгосрочные изменения, вам будет нужно выбрать новый месяц и задать новый поиск.

Сведения о поиске в Google

Вы можете получить ясное представление о поисковых предпочтениях пользователей с помощью сервиса Insights from Google. Введите пару распространенных поисковых фраз, например, «Justin Bieber» и «Lady Gaga», и вы увидите график, отображающий количество поисков на временной шкале. Сервис предлагает различные варианты представления данных, позволяет просматривать их по регионам или получать больше данных по тому или иному периоду. Единственный недостаток — отсутствие абсолютных показателей, вы получаете только относительные значения в процентах, которые бывает сложно интерпретировать.

Поделиться:
Популярные книги

Корпулентные достоинства, или Знатный переполох. Дилогия

Цвик Катерина Александровна
Фантастика:
юмористическая фантастика
7.53
рейтинг книги
Корпулентные достоинства, или Знатный переполох. Дилогия

Как я строил магическую империю 7

Зубов Константин
7. Как я строил магическую империю
Фантастика:
попаданцы
постапокалипсис
аниме
фантастика: прочее
5.00
рейтинг книги
Как я строил магическую империю 7

На границе империй. Том 9. Часть 5

INDIGO
18. Фортуна дама переменчивая
Фантастика:
космическая фантастика
попаданцы
5.00
рейтинг книги
На границе империй. Том 9. Часть 5

Хроники хвостатых: Ну мы же биджу...

Rana13
Фантастика:
фэнтези
5.00
рейтинг книги
Хроники хвостатых: Ну мы же биджу...

Мастер 8

Чащин Валерий
8. Мастер
Фантастика:
попаданцы
аниме
фэнтези
5.00
рейтинг книги
Мастер 8

Неомифы

Неделько Григорий Андреевич
Фантастика:
научная фантастика
5.00
рейтинг книги
Неомифы

Измена. Право на семью

Арская Арина
Любовные романы:
современные любовные романы
5.20
рейтинг книги
Измена. Право на семью

Последний Паладин. Том 2

Саваровский Роман
2. Путь Паладина
Фантастика:
фэнтези
попаданцы
аниме
5.00
рейтинг книги
Последний Паладин. Том 2

Хуррит

Рави Ивар
Фантастика:
героическая фантастика
попаданцы
альтернативная история
5.00
рейтинг книги
Хуррит

Голодные игры

Коллинз Сьюзен
1. Голодные игры
Фантастика:
социально-философская фантастика
боевая фантастика
9.48
рейтинг книги
Голодные игры

Чехов. Книга 2

Гоблин (MeXXanik)
2. Адвокат Чехов
Фантастика:
фэнтези
альтернативная история
аниме
5.00
рейтинг книги
Чехов. Книга 2

Сойка-пересмешница

Коллинз Сьюзен
3. Голодные игры
Фантастика:
социально-философская фантастика
боевая фантастика
9.25
рейтинг книги
Сойка-пересмешница

Купец III ранга

Вяч Павел
3. Купец
Фантастика:
фэнтези
попаданцы
аниме
5.00
рейтинг книги
Купец III ранга

Возвращение Безумного Бога

Тесленок Кирилл Геннадьевич
1. Возвращение Безумного Бога
Фантастика:
фэнтези
попаданцы
аниме
5.00
рейтинг книги
Возвращение Безумного Бога