Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим
Шрифт:
Мы можем собирать и анализировать больше информации, чем когда-либо. Нехватка данных отныне не определяет наши усилия для познания мира. Мы можем использовать значительно больше данных, а в некоторых случаях даже все. Но для этого придется взять на вооружение нестандартные способы обработки и, в частности, изменить свое представление об идеале полезной информации.
Вместо того чтобы ставить во главу угла точность, чистоту и строгость данных, мы можем — и это даже необходимо — несколько ослабить свои требования. Данные не должны быть заведомо ошибочными или ложными, но их беспорядочность не представляет особых проблем при многократном увеличении масштаба. Она может быть даже выгодной, так как, используя лишь небольшую
Поскольку корреляции можно найти гораздо быстрее и с меньшими затратами, чем причинность, им нередко отдается предпочтение. В некоторых случаях (например, при тестировании побочных эффектов препарата или проектировании важнейших частей самолета) по-прежнему понадобятся исследования причинно-следственных связей и эксперименты в контролируемых условиях с тщательным контролем данных. Но для многих бытовых нужд вполне достаточно знать ответ на вопрос что, а не почему. Кроме того, корреляции больших данных способны указать перспективные направления для поиска причинности.
Быстрые корреляции позволяют экономить на покупке авиабилетов, прогнозировать вспышки гриппа и определять люки и перенаселенные здания, которые следует осмотреть, в условиях ограниченных ресурсов. Они же позволяют медицинским страховым компаниям принимать решения по страховой защите без медицинского осмотра и снижают стоимость напоминаний больным о приеме лекарств. На основании прогнозов, сделанных с помощью корреляций среди больших данных, выполняются переводы и создаются системы автоматического управления автомобилем. Walmart может узнать, какой сорт печенья Pop-Tarts положить сразу у входа в магазин, когда надвигается ураган (ответ: со вкусом клубники). Конечно, причинно-следственные связи не лишние, когда их удается уловить. Проблема в том, что зачастую их выявить непросто, и мы нередко обманываем себя, считая, что нам это удалось.
Все эти новые возможности в какой-то мере обеспечиваются новыми инструментами — от более быстрых процессоров и увеличенного объема памяти до более эффективного программного обеспечения и алгоритмов. Они, безусловно, играют важную роль, но больше данных у нас появляется благодаря постепенной датификации всего и вся. Надо отметить, что стремление измерить мир количественно появилось задолго до компьютерной революции. Но цифровые инструменты подняли датификацию на новый уровень. Мало того что мобильные телефоны могут отслеживать, кому мы звоним и куда идем, — те же данные дают возможность определить, что мы заболели. Вскоре они смогут дать понять, что мы влюблены.
Способность создавать что-то новое, успевать больше и делать все лучше и быстрее раскрывает огромную ценность данных, разделяя мир на победителей и проигравших. Основную (альтернативную) ценность информации обеспечит ее вторичное использование, а не только первичное, как принято считать. Таким образом, целесообразно собирать как можно больше самых разных данных и удерживать до тех пор, пока это содержит добавочную ценность, а также давать возможность анализировать данные тем, кто имеет больше возможностей раскрытия их ценности (при условии разделения полученной выгоды).
Успеха добьются компании, которые сумеют попасть в центр информационных потоков и научатся собирать данные. Для эффективного использования больших данных требуются технические навыки и хорошее воображение — мышление категориями больших данных. Основная ценность достанется тем, кто владеет данными. При этом важным активом может оказаться не только та информация, которая на виду, но и выбросы данных, полученные от взаимодействия людей с информацией. Используя такие выбросы с умом, компания улучшит существующую службу или запустит совершенно новую.
Большие данные таят
Независимо от того, насколько большие данные угрожают конфиденциальности, существует другая уникальная и тревожная проблема. Ввиду того что прогнозы больших данных становятся все более точными, их можно использовать для наказания людей за прогнозируемое поведение, то есть действия, которые им предстоит совершить. Такие прогнозы невозможно опровергнуть в очевидной форме, поэтому никто не в силах себя оправдать. Наказание на этой основе отрицает понятие свободы воли и вероятность, пусть и небольшую, что подозреваемый выберет другой путь. Поскольку мы назначаем индивидуальную ответственность (и применяем наказание), человеческая воля должна быть неприкосновенна. Если будущее не оставит нам свободного поля деятельности, большие данные извратят саму суть человеческой природы: рациональное мышление и свободу выбора.
У нас пока нет надежных способов подстроить нормы и законы под специфику грядущего мира больших данных. Однако по мере постижения обществом их особенностей и недостатков его процветанию будут способствовать некоторые реформы. Мы в состоянии обеспечить свободный обмен информацией, учредив права исключения для данных, контролируя расстановку сил на рынке и поощряя государственные инициативы в поддержке идеи открытых данных. Мы можем расширить доступ к личной информации, установив способы ее приемлемого вторичного использования (для чего не понадобятся дополнительные разрешения), но в то же время ограничив сроки хранения и применения такой информации. Мы можем найти новые технические решения, например способы «размывания» признаков для установления личности. Прогнозы больших данных не должны служить назначению индивидуальной ответственности. Человеческая воля неприкосновенна. Наконец, людям нужно дать возможность исследовать алгоритмы и исходные данные, применявшиеся в ходе принятия решений, влияющих на их интересы (особенно если это влияние негативное). Для преодоления этой задачи необходимо новое поколение специалистов (алгоритмистов), призванных помочь анализировать и интерпретировать эффективность и законность инструментов и процессов обработки больших данных.
Большие данные станут неотъемлемой частью понимания и решения многих насущных глобальных проблем. Борьба с изменением климата требует анализа данных о загрязнении, чтобы понять, куда лучше всего направить усилия, и найти пути смягчения последствий проблем. Немыслимое количество датчиков, размещенных по всему миру (в том числе встроенных в смартфоны), позволяет моделировать ситуацию на более высоком уровне детализации. Улучшение структуры здравоохранения и снижение затрат на него, особенно в беднейших странах мира, станет значительной частью программы автоматизации процессов, которые в настоящее время нуждаются в человеческих суждениях, но могли бы выполняться компьютерами (например, изучение биопсии раковых клеток или обнаружение признаков инфекции до ее полного развития).