Чтение онлайн

на главную - закладки

Жанры

Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим
Шрифт:

Подходящий пример — камера Lytro. Она стала революционным открытием, так как применяет большие данные к основам технологии фотографии. Эта камера захватывает не только одну световую плоскость, как обычные камеры, но и около 11 миллионов лучей всего светового поля. Точное изображение, получаемое из цифрового файла, можно в дальнейшем изменять в зависимости от того, на какой объект кадра нужно настроить фокус. Благодаря сбору всех данных не обязательно настраивать фокус изображения изначально, ведь он настраивается на любой объект изображения после того, как снимок уже сделан. Снимок содержит лучи всего светового поля, а значит, и все данные, то есть «N = всё». В результате информация лучше подходит для «повторного использования», чем обычные изображения, когда

фотографу нужно выбрать объект фокусировки, прежде чем нажать на кнопку затвора.

Поскольку большие данные опираются на всю или максимально возможную информацию, точно так же мы можем рассматривать подробности и проводить новый анализ, не рискуя четкостью. Мы проверим новые гипотезы на любом уровне детализации. Это позволяет обнаруживать случаи договорных боев в борьбе сумо, распространение вируса гриппа по регионам, а также лечить раковые заболевания, воздействуя целенаправленно на поврежденную часть ДНК. Таким образом, мы можем работать на небывало глубоком уровне понимания.

Следует отметить, что не всегда необходимы все данные вместо выборки. Мы все еще живем в мире ограниченных ресурсов. Однако все чаще целесообразно использовать все имеющиеся данные. И если ранее это было невозможно, то теперь — наоборот.

Подход «N = всё» оказал значительное влияние на общественные науки. Они утратили свою монополию на осмысление эмпирических данных, а анализ больших данных заменил ранее востребованных высококвалифицированных специалистов по выборкам. Общественные дисциплины во многом полагаются на выборки, исследования и анкеты. Но если данные собираются пассивно, в то время как люди заняты обычными делами, погрешности, связанные с исследованиями и анкетами, сходят на нет. Теперь мы можем собирать информацию, недоступную ранее, будь то чувства, высказанные по мобильному телефону, или настроения, переданные в твитах. Более того, исчезает сама необходимость в выборках. [36]

36

Замена выборок: Savage, Mike. The Coming Crisis of Empirical Sociology / Mike Savage & Roger Burrows // Sociology. — 2007. — Vol 41. — P. 885–899.

Альберт-Лазло Барабаши, один из ведущих мировых авторитетов в области сетей, и его коллеги исследовали взаимодействия между людьми в масштабе всего населения. Для этого они проанализировали все журналы анонимного мобильного трафика за четыре месяца, полученные от оператора беспроводной связи, который обслуживал около пятой части всего населения страны. Это был первый анализ сетей на общественном уровне, в котором использовался набор данных в рамках подхода «N = всё». Благодаря масштабу, который позволил учесть звонки миллионов людей в течение длительного времени, появились новые идеи, которые, скорее всего, не удалось бы выявить другим способом. [37]

37

Об анализе исчерпывающих данных, полученных от оператора мобильной связи: Onnela, J.-P. et al. Structure and tie strengths in mobile communication networks // Proceedings of the National Academy of Sciences of the United States of America (PNAS). — May, 2007. — Vol. 104. — P. 7332–7336. URL: http://nd.edu/~dddas/Papers/PNAS0610245104v1.pdf

Команда обнаружила интересную закономерность, не свойственную небольшим исследованиям: если удалить из сети людей, имеющих множество связей в сообществе, оставшаяся социальная сеть станет менее активной, но останется на плаву. С другой стороны, если из сети удалить людей, имеющих связи за пределами их непосредственного окружения, оставшаяся социальная сеть внезапно распадется, словно повредили саму ее структуру. Это стало важным, но совершенно неожиданным открытием. Кто бы мог подумать, что люди с большим количеством близких друзей настолько менее важны в структуре сети, чем те, у кого есть более отдаленные связи?

Выходит, что разнообразие высоко ценится как в группе, так и в обществе в целом. Открытие заставило по-новому взглянуть на то, как следует оценивать важность людей в социальных сетях.

Мы склонны думать, что статистическая выборка — это своего рода непреложный принцип (такой, как геометрические правила или законы гравитации), на котором основана цивилизация. Однако эта концепция появилась менее ста лет назад и служила для решения конкретной задачи в определенный момент времени при определенных технологических ограничениях. С тех пор эти ограничения весьма изменились. Стремиться к случайной выборке в эпоху больших данных — все равно что хвататься за хлыст в эпоху автомобилей. Мы можем использовать выборки в определенных обстоятельствах, но они не должны быть (и не будут) доминирующим способом анализа больших наборов данных. Все чаще мы можем позволить себе замахнуться на данные в полном объеме. 

Глава 3

Беспорядочность

Число областей, в которых можно использовать все имеющиеся данные, неуклонно растет, однако увеличение количества приводит к неточности. В наборы данных всегда закрадывались ошибочные цифры и поврежденные биты. Эту проблему следует попытаться решить хотя бы потому, что это возможно. Чего нам никогда не хотелось, так это мириться с такими ошибками, считая их неизбежными. В этом и состоит один из основных переходов от малых данных к большим.

В мире «малых данных» сокращение количества ошибок и обеспечение высокого качества данных становились естественным и необходимым толчком к поиску новых решений. Поскольку собиралась лишь малая часть информации, мы заботились о том, чтобы она была как можно более точной. Поколения ученых оптимизировали свои инструменты, добиваясь все большей точности данных, будь то положение небесных тел или размер объектов под микроскопом. В мире, где правили выборки, стремление к точности принимало характер одержимости, сбор лишь ограниченного числа точек данных неминуемо вел к распространению ошибок, тем самым снижая точность общих результатов.

На протяжении большей части истории наивысшие достижения человека были связаны с завоеванием мира путем его измерения. Одержимость точностью началась в середине ХІІІ века в Европе, когда астрономы и ученые взяли на вооружение как никогда точную количественную оценку времени и пространства — «меру реальности», выражаясь словами историка Альфреда Кросби.

Негласно считалось, что, если измерить явление, его удастся понять. Позже измерения оказались привязанными к научному методу наблюдения и объяснения — способности количественно измерять воспроизводимые результаты, а затем записывать и представлять их. «Измерить — значит узнать», — говорил лорд Кельвин. И это стало основным постулатом. «Знание — сила», — поучал Фрэнсис Бэкон. В то же время математики и те, кто позже стал актуарием или бухгалтером, разработали методы, которые сделали возможным точный сбор и регистрацию данных, а также управление ими. [38]

38

Кросби: Crosby, Alfred W. The Measure of Reality: Quantification and Western Society. — 1997.

К ХІХ веку во Франции (в то время ведущей стране в мире по уровню развития науки) была разработана система строго определенных единиц измерения для сбора данных о пространстве, времени и не только. Другие страны перенимали эти стандарты. Дошло до того, что признанный во всем мире эталон единиц измерения стал закрепляться в международных договорах. Это явилось вершиной эпохи измерений. Лишь полвека спустя, в 1920-х годах, открытия в области квантовой механики навсегда разрушили веру в возможность достичь совершенства в измерениях. Тем не менее, не считая относительно небольшого круга физиков, инженеры и ученые не спешили расставаться с мыслью о совершенстве измерений. В деловой сфере эта идея даже получила более широкое распространение, по мере того как рациональные науки — математика и статистика — начали оказывать влияние на все области коммерческой деятельности.

Поделиться:
Популярные книги

Инцел на службе демоницы 1 и 2: Секса будет много

Блум М.
Инцел на службе демоницы
Фантастика:
фэнтези
5.25
рейтинг книги
Инцел на службе демоницы 1 и 2: Секса будет много

Весь цикл «Десантник на престоле». Шесть книг

Ланцов Михаил Алексеевич
Десантник на престоле
Фантастика:
альтернативная история
8.38
рейтинг книги
Весь цикл «Десантник на престоле». Шесть книг

Предатель. Цена ошибки

Кучер Ая
Измена
Любовные романы:
современные любовные романы
5.75
рейтинг книги
Предатель. Цена ошибки

Жандарм 2

Семин Никита
2. Жандарм
Фантастика:
попаданцы
альтернативная история
аниме
5.00
рейтинг книги
Жандарм 2

Прогрессор поневоле

Распопов Дмитрий Викторович
2. Фараон
Фантастика:
попаданцы
альтернативная история
5.00
рейтинг книги
Прогрессор поневоле

Всемирная энциклопедия афоризмов. Собрание мудрости всех народов и времен

Агеева Елена А.
Документальная литература:
публицистика
5.40
рейтинг книги
Всемирная энциклопедия афоризмов. Собрание мудрости всех народов и времен

Истребитель. Ас из будущего

Корчевский Юрий Григорьевич
Фантастика:
боевая фантастика
попаданцы
альтернативная история
5.25
рейтинг книги
Истребитель. Ас из будущего

Очешуеть! Я - жена дракона?!

Амеличева Елена
Фантастика:
юмористическая фантастика
5.43
рейтинг книги
Очешуеть! Я - жена дракона?!

Отмороженный 4.0

Гарцевич Евгений Александрович
4. Отмороженный
Фантастика:
боевая фантастика
постапокалипсис
рпг
5.00
рейтинг книги
Отмороженный 4.0

Треугольная шляпа. Пепита Хименес. Донья Перфекта. Кровь и песок.

Бласко Висенте Ибаньес
65. Библиотека всемирной литературы
Проза:
классическая проза
5.00
рейтинг книги
Треугольная шляпа.
Пепита Хименес.
Донья Перфекта.
Кровь и песок.

Измена. Жизнь заново

Верди Алиса
1. Измены
Любовные романы:
современные любовные романы
5.00
рейтинг книги
Измена. Жизнь заново

Три `Д` для миллиардера. Свадебный салон

Тоцка Тала
Любовные романы:
современные любовные романы
короткие любовные романы
7.14
рейтинг книги
Три `Д` для миллиардера. Свадебный салон

Бастард Императора. Том 5

Орлов Андрей Юрьевич
5. Бастард Императора
Фантастика:
попаданцы
аниме
фэнтези
5.00
рейтинг книги
Бастард Императора. Том 5

Идеальный мир для Лекаря 21

Сапфир Олег
21. Лекарь
Фантастика:
фэнтези
юмористическое фэнтези
аниме
5.00
рейтинг книги
Идеальный мир для Лекаря 21