Чтение онлайн

на главную - закладки

Жанры

Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим
Шрифт:

Принимая во внимание гораздо больший объем данных, мы можем снизить свои претензии к точности — и это второй шаг, который будет рассмотрен в третьей главе. Когда возможность измерения ограничена, подсчитываются только самые важные показатели, и стремление получить точное число вполне целесообразно. Вряд ли вы сумеете продать скот покупателю, если он не уверен, сколько голов в стаде — 100 или только 80. До недавнего времени все наши цифровые инструменты были основаны на точности: мы считали, что системы баз данных должны извлекать записи, идеально соответствующие нашим запросам, равно как числа вносятся в столбцы электронных таблиц.

Этот способ мышления свойствен среде «малых данных». Измерялось так мало показателей, что следовало как можно точнее подсчитывать все записанное. В некотором смысле мы

уже ощутили разницу: небольшой магазин в состоянии подбить кассу к концу дня вплоть до копейки, но мы не стали бы (да и не смогли бы) проделать то же самое с валовым внутренним продуктом страны. Чем больше масштаб, тем меньше мы гонимся за точностью.

Точность требует тщательной проверки данных. Она подходит для небольших объемов данных и в некоторых случаях, безусловно, необходима (например, чтобы проверить, достаточно ли средств на банковском счету, и выписать чек). Но в мире больших данных строгая точность невозможна, а порой и нежелательна. Если мы оперируем данными, большинство которых постоянно меняется, абсолютная точность уходит на второй план.

Большие данные неупорядочены, далеко не все одинакового качества и разбросаны по бесчисленным серверам по всему миру. Имея дело с большими данными, как правило, приходится довольствоваться общим представлением, а не пониманием явления вплоть до дюйма, копейки или молекулы. Мы не отказываемся от точности как таковой, а лишь снижаем свою приверженность к ней. То, что мы теряем из-за неточности на микроуровне, позволяет нам делать открытия на макроуровне.

Эти два шага приводят к третьему — отходу от вековых традиций поиска причинности, который мы рассмотрим в четвертой главе. Люди привыкли во всем искать причины, даже если установить их не так просто или малополезно. С другой стороны, в мире больших данных мы больше не обязаны цепляться за причинность. Вместо этого мы можем находить корреляции между данными, которые открывают перед нами новые неоценимые знания. Корреляции не могут сказать нам точно, почему происходит то или иное событие, зато предупреждают о том, какого оно рода. И в большинстве случаев этого вполне достаточно.

Например, если электронные медицинские записи показывают, что в определенном сочетании апельсиновый сок и аспирин способны излечить от рака, то точная причина менее важна, чем сам факт: лечение эффективно. Если мы можем сэкономить деньги, зная, когда лучше купить авиабилет, но при этом не имеем представления о том, что стоит за их ценообразованием, этого вполне достаточно. Вопрос не в том почему, а в том что. В мире больших данных нам не всегда нужно знать причины, которые стоят за теми или иными явлениями. Лучше позволить данным говорить самим за себя.

Нам больше не нужно ограничиваться проверкой небольшого количества гипотез, тщательно сформулированных задолго до сбора данных. Позволив данным «говорить», мы можем уловить корреляции, о существовании которых даже не подозревали. В связи с этим хедж-фонды анализируют записи в Twitter, чтобы прогнозировать работу фондового рынка. Amazon и Netflix рекомендуют продукты исходя из множества взаимодействий пользователей со своими сайтами. А Twitter, LinkedIn и Facebook выстраивают «социальные графы» отношений пользователей для изучения их предпочтений.

Разумеется, люди анализировали данные в течение тысячелетий. И письменность в древней Месопотамии появилась благодаря тому, что счетоводам нужен был эффективный инструмент для записи и отслеживания информации. С библейских времен правительства проводили переписи для сбора огромных наборов данных о своем населении, и в течение двухсот лет актуарии собирали ценнейшие данные о рисках, которые они надеялись понять или хотя бы избежать.

В «аналоговую эпоху» сбор и анализ таких данных был чрезвычайно дорогостоящим и трудоемким. Появление новых вопросов, как правило, означало необходимость в повторном сборе и анализе данных.

Большим шагом на пути к более эффективному управлению данными стало появление оцифровки — перевода аналоговой информации в доступную для чтения на компьютерах, что упрощало и удешевляло ее хранение и обработку. Это значительно повысило эффективность.

То, на что раньше уходили годы сбора и вычисления, теперь выполнялось за несколько дней, а то и быстрее. Но, кроме этого, мало что изменилось. Люди, занимающиеся анализом данных, были слишком погружены в аналоговую парадигму, предполагая, что наборы данных имели единственное предназначение, в котором и заключалась их ценность. Сама технология закрепила этот предрассудок. И хотя оцифровка важнейшим образом способствовала переходу на большие данные, сам факт существования компьютеров не обеспечил этот переход.

Трудно описать нынешнюю ситуацию существующими понятиями. Для того чтобы в целом очертить изменения, воспользуемся датификацией (data-ization) — концепцией, с которой познакомим вас в пятой главе. Речь идет о преобразовании в формат данных всего, что есть на планете, включая то, что мы никогда не рассматривали как информацию (например, местоположение человека, вибрации двигателя или нагрузку на мост), путем количественного анализа. Это открывает перед нами новые возможности, такие как прогнозный анализ. Он позволяет обнаружить, например, что двигатель вот-вот придет в неисправность, исходя из его перегрева или производимых им вибраций. В результате мы можем открыть неявное, скрытое значение информации.

Полным ходом ведется «поиск сокровищ» — извлечение ценных идей из данных и раскрытие их потенциала путем перехода от причинности к корреляции. Это стало возможным благодаря новым техническим средствам. Но сокровища заключаются не только в этом. Вполне вероятно, что каждый набор данных имеет внутреннюю, пока еще не раскрытую ценность, и весь мир стремится обнаружить и заполучить ее.

Большие данные вносят коррективы в характер бизнеса, рынков и общества, о которых подробнее мы поговорим в шестой и седьмой главах. В ХХ веке особое значение придавалось не физической инфраструктуре, а нематериальным активам, не земле и заводам, а интеллектуальной собственности. Сейчас общество идет к тому, что новым источником ценности станет не мощность компьютерного оборудования, а получаемые им данные и способ их анализа. Данные становятся важным корпоративным активом, жизненно важным экономическим вкладом и основой новых бизнес-моделей. И хотя данные еще не вносятся в корпоративные балансовые отчеты, вероятно, это вопрос времени.

Несмотря на то что технологии обработки данных появились некоторое время назад, они были доступны только агентствам по шпионажу, исследовательским лабораториям и крупнейшим мировым компаниям. Walmart [18] и CapitalOne [19] первыми использовали большие данные в розничной торговле и банковском деле, тем самым изменив их. Теперь многие из этих инструментов стали широкодоступными.

Эти изменения в большей мере коснутся отдельных лиц, ведь в мире, где вероятность и корреляции имеют первостепенное значение, специальные знания менее важны. Узкие специалисты останутся востребованными, но им придется считаться с большими данными. Помните, как в фильме «Человек, который изменил всё»: [20] на смену бейсбольным скаутам пришли специалисты по статистике, а интуиция уступила место сложной аналитике. Нам придется пересмотреть традиционные представления об управлении, принятии решений, человеческих ресурсах и образовании.

18

Walmart — американская компания-ретейлер, управляющая крупнейшей в мире розничной сетью.

19

CapitalOne — американская банковская холдинговая компания, специализирующаяся на кредитах.

20

«Человек, который изменил всё» (Moneyball) — биографическая спортивная драма режиссера Беннетта Миллера. На русском языке издана книга: Льюис М. Moneyball. Как математика изменила самую популярную спортивную лигу в мире. М. : Манн, Иванов и Фербер, 2014.

Поделиться:
Популярные книги

Сама себе хозяйка

Красовская Марианна
Любовные романы:
любовно-фантастические романы
5.00
рейтинг книги
Сама себе хозяйка

Ученичество. Книга 2

Понарошку Евгений
2. Государственный маг
Фантастика:
фэнтези
попаданцы
5.00
рейтинг книги
Ученичество. Книга 2

Надуй щеки!

Вишневский Сергей Викторович
1. Чеболь за партой
Фантастика:
попаданцы
дорама
5.00
рейтинг книги
Надуй щеки!

На границе империй. Том 9. Часть 4

INDIGO
17. Фортуна дама переменчивая
Фантастика:
космическая фантастика
попаданцы
5.00
рейтинг книги
На границе империй. Том 9. Часть 4

Эволюционер из трущоб. Том 6

Панарин Антон
6. Эволюционер из трущоб
Фантастика:
попаданцы
аниме
фэнтези
5.00
рейтинг книги
Эволюционер из трущоб. Том 6

Идеальный мир для Лекаря 19

Сапфир Олег
19. Лекарь
Фантастика:
юмористическое фэнтези
аниме
5.00
рейтинг книги
Идеальный мир для Лекаря 19

Гарем на шагоходе. Том 1

Гремлинов Гриша
1. Волк и его волчицы
Фантастика:
боевая фантастика
юмористическая фантастика
попаданцы
5.00
рейтинг книги
Гарем на шагоходе. Том 1

Академия проклятий. Книги 1 - 7

Звездная Елена
Академия Проклятий
Фантастика:
фэнтези
8.98
рейтинг книги
Академия проклятий. Книги 1 - 7

Беглец

Бубела Олег Николаевич
1. Совсем не герой
Фантастика:
фэнтези
попаданцы
8.94
рейтинг книги
Беглец

Сломанная кукла

Рам Янка
5. Серьёзные мальчики в форме
Любовные романы:
современные любовные романы
5.00
рейтинг книги
Сломанная кукла

Офицер-разведки

Поселягин Владимир Геннадьевич
2. Красноармеец
Фантастика:
боевая фантастика
попаданцы
5.00
рейтинг книги
Офицер-разведки

Имя нам Легион. Том 9

Дорничев Дмитрий
9. Меж двух миров
Фантастика:
боевая фантастика
рпг
аниме
5.00
рейтинг книги
Имя нам Легион. Том 9

(Не)нужная жена дракона

Углицкая Алина
5. Хроники Драконьей империи
Любовные романы:
любовно-фантастические романы
6.89
рейтинг книги
(Не)нужная жена дракона

Этот мир не выдержит меня. Том 2

Майнер Максим
2. Первый простолюдин в Академии
Фантастика:
фэнтези
попаданцы
5.00
рейтинг книги
Этот мир не выдержит меня. Том 2