Чтение онлайн

на главную - закладки

Жанры

Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим
Шрифт:

Многие компании начинают подобным образом проектировать собственные системы сбора и использования информации. В начале деятельности компании Facebook ее специалисты по обработке данных изучили широкую базу выбросов данных и обнаружили, что пользователь чаще всего предпринимает то или иное действие (публикует материал, нажимает значок и пр.) по примеру своих друзей. Компания сразу модернизировала свою систему так, чтобы почти все действия пользователя становились известными его друзьям, и это вызвало новую волну активности на сайте.

Идея распространилась далеко за пределы интернет-сектора — в каждую компанию, у которой есть возможность собирать данные обратной связи с пользователем. Устройства для чтения электронных книг записывают большие объемы

данных о литературных предпочтениях и привычках людей, которые ими пользуются: как быстро они читают страницу или раздел, пролистывают ли некоторые страницы, едва прочитав, или, может, вовсе не дочитывают книгу. Книги фиксируют, если читатели подчеркивают отрывки или делают заметки на полях. Возможность собирать такого рода информацию превращает чтение, которое долгое время считалось сугубо индивидуальным, в коллективную деятельность. Объединенные выбросы данных расскажут издателям и авторам то, что им ни за что не удалось бы узнать с помощью количественных измерений: предпочтения людей и свойственные им модели чтения. Это коммерчески ценная информация: компании — производители электронных книг могут продавать ее издателям для улучшения содержания и структуры книг. Компания Barnes & Noble проанализировала данные со своих устройств для чтения электронных книг Nook, в результате чего выяснила, что люди, как правило, забрасывали чтение длинных книг научного содержания на полпути. Это открытие вдохновило компанию на создание Nook Snaps — коротких тематических выпусков, посвященных актуальным вопросам, таким как здоровье и текущие события. [105]

105

Компания Barnes & Noble проанализировала данные со своих устройств для чтения электронных книг Nook: Alter, Alexandra. Your E-Book Is Reading You // WSJ. — June 29, 2012. URL: http://online.wsj.com/article/SB10001424052702304870304577490950051438304.html.

Программы дистанционного обучения, такие как Udacity, Coursera и edX, отслеживают взаимодействия студентов в интернете, чтобы определить наиболее удачные педагогические подходы. «Вместимость» аудитории порой превышает десятки тысяч студентов, что обеспечивает чрезвычайно большой объем данных. Теперь профессора могут увидеть, что многие студенты повторно просмотрели тот или иной отрывок лекции, и предположить, что определенный момент в ней был непонятен. Профессор Стэнфордского университета Эндрю Нг, преподавая курс машинного обучения в рамках программы Coursera, отметил, что около 2000 студентов неправильно поняли вопрос в домашнем задании, но выдали совершенно одинаковые ответы. Очевидно, они все делали одну и ту же ошибку. Но какую?

Проведя небольшое исследование, Эндрю понял, что студенты изменили порядок алгебраических уравнений в алгоритме. Впредь, если другие студенты сделают ту же ошибку, система не просто сообщит им, что что-то не так, но и посоветует проверить вычисления. Система также работает с большими данными, анализируя каждое сообщение на форуме, прочитанное студентами, и правильность выполненного ими домашнего задания. Это позволяет спрогнозировать вероятность того, что студент, прочитавший то или иное сообщение, правильно решит задание, а значит, определить какие сообщения наиболее полезны. Все это невозможно было узнать прежде. И эти знания могут навсегда изменить подход к преподаванию.

Выбросы данных могут дать компаниям огромные конкурентные преимущества, а также стать мощным рыночным барьером для конкурентов. Возьмем новую компанию, которая разработала интернет-магазин, социальную сеть или поисковую систему, намного лучшую, чем современные лидеры в этих областях — Amazon, Google или Facebook. Новой компании будет трудно конкурировать не только из-за отсутствия эффекта масштаба, сетевой выгоды или бренда, а еще и потому, что эффективность лидирующих компаний во многом связана с выбросами данных, собранными

при взаимодействии с клиентами и включенными обратно в службу. Сможет ли новый сайт дистанционного обучения предложить ноу-хау, способное посоревноваться в эффективности с теми, кто уже собрал гигантское количество данных, чтобы определить наиболее успешные подходы?

Ценность открытых данных

Считается, что сайты вроде Google и Amazon были первопроходцами в области больших данных, но это не так. Первоначальными сборщиками информации в массовом масштабе были государственные органы, и они по-прежнему дадут фору любой частной компании в том, что касается огромного объема управляемых данных. В отличие от держателей данных в частном секторе, государственные органы, как правило, обязывают людей предоставить информацию, а не убеждают или предлагают что-то взамен. Поэтому они и дальше будут собирать и накапливать огромные объемы данных.

Уроки больших данных применимы как к общественным, так и к коммерческим структурам; ценность данных правительственных структур по большому счету скрыта и может быть извлечена только путем инновационного анализа. Несмотря на преимущественное положение в этом отношении, государственные органы, как правило, не умеют эффективно ими распоряжаться. В последнее время стала популярной мысль о том, что лучший способ извлечь ценность из правительственных данных — предоставить эту задачу частному сектору и обществу в целом. И эта идея небезосновательна. Когда государство собирает данные, оно делает это от имени своих граждан и, следовательно, должно предоставить доступ к ним обществу, за исключением ограниченного числа случаев, связанных, например, с возможностью нанести вред национальной безопасности или правам на частную жизнь других людей.

Эта идея привела к несчетному количеству проектов «открытых государственных данных» по всему миру. Утверждая, что государственные органы являются лишь хранителями собираемой информации, а частный сектор и общество найдут ей инновационное применение, сторонники открытых данных призывают официальные органы открыто публиковать данные в общественных и коммерческих целях — разумеется, в стандартизированной форме, пригодной для машинного считывания и обработки, иначе эту информацию можно будет назвать общедоступной только номинально.

Идея открытых государственных данных получила развитие, когда Барак Обама в свой первый полный рабочий день 21 января 2008 года издал президентский указ, обязывающий руководителей федеральных агентств выпускать как можно больше данных. «Перед лицом сомнений открытость имеет приоритетное значение», — наставлял Обама. [106] Это блестящее заявление, особенно в сравнении с мнением его предшественника, который поручил агентствам делать прямо противоположное. По указу Обамы был создан сайт data.gov — хранилище общедоступной информации от федерального правительства. Сайт стремительно вырос с 47 наборов данных в 2009 году до почти 450 000, получаемых из 172 агентств, к своему трехлетию в июле 2012 года.

106

Открытая политика правительства Обамы: Barack Obama. Presidential memorandum. — White House, January 21, 2009.

Значительный прогресс достигнут даже в сдержанной Великобритании, где большая часть государственной информации защищена авторским правом, принадлежащим короне, а получение лицензии на ее применение (например, почтовых индексов для интернет-компаний на карте) — трудоемкий и дорогостоящий процесс. Правительство Великобритании издало указы для поощрения открытости информации и поддержки в создании Института открытых данных (одним из руководителей которого стал Тим Бернерс-Ли, изобретатель всемирной паутины WWW), чтобы содействовать новейшим способам использования открытых данных и высвободить их из цепких рук государства.

Поделиться:
Популярные книги

Газлайтер. Том 10

Володин Григорий
10. История Телепата
Фантастика:
боевая фантастика
5.00
рейтинг книги
Газлайтер. Том 10

На границе империй. Том 7. Часть 2

INDIGO
8. Фортуна дама переменчивая
Фантастика:
космическая фантастика
попаданцы
6.13
рейтинг книги
На границе империй. Том 7. Часть 2

Звездная Кровь. Изгой

Елисеев Алексей Станиславович
1. Звездная Кровь. Изгой
Фантастика:
боевая фантастика
попаданцы
рпг
5.00
рейтинг книги
Звездная Кровь. Изгой

Хозяин Теней 4

Петров Максим Николаевич
4. Безбожник
Фантастика:
попаданцы
аниме
фэнтези
5.00
рейтинг книги
Хозяин Теней 4

Картофельное счастье попаданки

Иконникова Ольга
Фантастика:
фэнтези
5.00
рейтинг книги
Картофельное счастье попаданки

Экзорцист: Проклятый металл. Жнец. Мор. Осквернитель

Корнев Павел Николаевич
Фантастика:
фэнтези
героическая фантастика
5.50
рейтинг книги
Экзорцист: Проклятый металл. Жнец. Мор. Осквернитель

Доктора вызывали? или Трудовые будни попаданки

Марей Соня
Фантастика:
юмористическая фантастика
попаданцы
5.00
рейтинг книги
Доктора вызывали? или Трудовые будни попаданки

Метатель

Тарасов Ник
1. Метатель
Фантастика:
боевая фантастика
попаданцы
рпг
фэнтези
фантастика: прочее
постапокалипсис
5.00
рейтинг книги
Метатель

Моя на одну ночь

Тоцка Тала
Любовные романы:
современные любовные романы
короткие любовные романы
5.50
рейтинг книги
Моя на одну ночь

Чехов. Книга 2

Гоблин (MeXXanik)
2. Адвокат Чехов
Фантастика:
фэнтези
альтернативная история
аниме
5.00
рейтинг книги
Чехов. Книга 2

Хозяин Теней 2

Петров Максим Николаевич
2. Безбожник
Фантастика:
попаданцы
аниме
фэнтези
5.00
рейтинг книги
Хозяин Теней 2

Сумеречный стрелок 7

Карелин Сергей Витальевич
7. Сумеречный стрелок
Фантастика:
городское фэнтези
попаданцы
аниме
5.00
рейтинг книги
Сумеречный стрелок 7

Жизнь под чужим солнцем

Михалкова Елена Ивановна
Детективы:
прочие детективы
9.10
рейтинг книги
Жизнь под чужим солнцем

Красноармеец

Поселягин Владимир Геннадьевич
1. Красноармеец
Фантастика:
боевая фантастика
попаданцы
4.60
рейтинг книги
Красноармеец