Чтение онлайн

на главную - закладки

Жанры

Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим
Шрифт:

Расчет корреляций, как правило, проводится быстрее и с меньшими затратами. В отличие от причинно-следственных связей, существуют математические и статистические методы для анализа корреляций, а также необходимые цифровые инструменты для уверенной демонстрации силы взаимосвязей.

Корреляции не только ценны сами по себе, но и указывают способ исследования причинно-следственных связей. Демонстрируя потенциальную взаимосвязь между явлениями, они могут стать предметом дальнейшего исследования с целью убедиться в наличии причинно-следственной связи и выяснения ее причин. Этот недорогой и быстрый механизм фильтрации снижает затраты на причинно-следственный анализ за счет специально контролируемых экспериментов. Благодаря корреляциям мы имеем возможность уловить важные переменные и с их помощью провести эксперименты для

исследования причинности.

Однако необходимо проявить осторожность. Корреляции — мощный инструмент не только потому, что они показывают полную аналитическую картину, но и потому, что делают ее понятной. Но, как правило, эта картина омрачается, как только мы снова начинаем искать причинность. Kaggle — компания, которая организует открытые конкурсы по интеллектуальному анализу данных среди компаний, — провела конкурс по анализу качества подержанных автомобилей. Агент по продаже подержанных автомобилей предоставил данные, на основе которых конкурсанты-статистики должны были создать алгоритм, прогнозирующий, какие из автомобилей, представленных на аукционе перекупщиков, вероятнее всего, имеют неисправности. Корреляционный анализ показал, что вероятность неисправностей автомобилей, окрашенных в оранжевый цвет, гораздо ниже (примерно наполовину), чем среди остальных автомобилей.

Даже сейчас, читая об этом, мы тут же задумываемся, в чем причина. Может быть, владельцы оранжевых автомобилей — настоящие автолюбители и лучше заботятся о своих автомобилях? Может, индивидуальная покраска означает, что автомобиль обслуживался более внимательно? Или оранжевые автомобили более заметны на дороге, а значит, ниже вероятность их участия в ДТП и потому они в лучшем состоянии на момент перепродажи?

Быстро же мы попали в сети альтернативных причинных гипотез! Наши попытки пролить свет на положение вещей делают эти гипотезы еще более размытыми. Корреляции есть, и мы можем показать их математически, чего не скажешь о причинно-следственных связях. Так что было бы неплохо удержаться от попыток объяснить причину корреляций в поиске ответа на вопрос почему вместо что. Иначе мы могли бы смело советовать владельцам автомобилей красить свои развалюхи в оранжевый цвет, чтобы сделать их запчасти менее дефектными (что само по себе полный вздор).

Становится понятно, что корреляции на основе достоверных данных превосходят большинство интуитивно понятных причинно-следственных связей, то есть результат «быстрого мышления». Растет и количество случаев, когда быстрый и понятный корреляционный анализ оказывается более полезным и, очевидно, более эффективным, чем медленное причинное мышление, воплощенное в виде тщательно контролируемых (а значит, дорогостоящих и трудоемких) экспериментов.

В последние годы ученые пытались снизить затраты на такие эксперименты, например, искусно сочетая соответствующие опросы для создания «псевдоэкспериментов». Благодаря этому можно было повысить рентабельность некоторых исследований причинности. Однако эффективность корреляций трудно превзойти. Кроме того, как мы говорили, корреляционный анализ сам по себе служит помощником в таких исследованиях, подсказывая экспертам наиболее вероятные причины.

Таким образом, наличие данных и статистических инструментов преобразует роль не только быстрых, интуитивно улавливаемых причинно-следственных связей, но и взвешенного причинного мышления. Когда нам нужно исследовать не само явление, а именно его причину, как правило, лучше начать с корреляционного анализа больших данных и уже на его основе проводить углубленный поиск причинно-следственных связей.

На протяжении тысячелетий люди пытались понять принципы мироздания, стараясь найти причинно-следственные связи. Какую-то сотню лет назад, в эпоху малых данных, когда не было статистики, оперировали категориями причинности. Но все меняется с приходом больших данных.

Причинно-следственные связи не утратят своей актуальности, но перестанут быть главным источником знаний о том или ином предмете. В эпоху больших данных то, что мы считаем причинностью, на самом деле не более чем частный случай корреляционной связи. Хотя порой мы по-прежнему хотим выяснить, объясняют ли причинно-следственные связи обнаруженную корреляцию. Большие данные, напротив, ускоряют корреляционный

анализ. И если корреляции не заменяют исследование причинности, то направляют его и предоставляют нужную информацию. Наглядным примером служат загадочные взрывы канализационных люков на Манхэттене.

Задача с канализационными люками

Ежегодно несколько сотен люков в Нью-Йорке начинают тлеть из-за возгорания частей канализационной инфраструктуры. От взрыва чугунные крышки люков весом до 300 фунтов взмывают на высоту в несколько этажей, а затем с грохотом падают, подвергая опасности окружающих.

Con Edison, коммунальная компания, которая занимается электроснабжением Нью-Йорка, из года в год проводит регулярные проверки и техобслуживание люков. Раньше специалисты в основном полагались на волю случая, надеясь, что взрывоопасными окажутся именно те люки, которые планируется проверить. Такой подход был едва ли полезнее, чем блуждание по Уолл-стрит. В 2007 году компания Con Edison обратилась к статистикам Колумбийского университета, расположенного на окраине города, в надежде, что статистические данные о сети (например, сведения о предыдущих неполадках и инфраструктурных соединениях) помогут спрогнозировать, какие люки вероятнее всего небезопасны, и это позволит компании целенаправленно использовать свои ресурсы.

Это сложная проблема, связанная с большими данными. Общая протяженность подземных кабелей в Нью-Йорке — 94 000 миль (достаточно, чтобы обхватить Землю 3,5 раза). В одном только Манхэттене около 51 000 люков и распределительных коробок. Часть этой инфраструктуры построена еще во времена Томаса Эдисона (тезки компании), а один из 20 кабелей заложен до 1930 года. Сохранились записи, которые велись с 1880 года, но не систематизированные, поскольку их не собирались анализировать. Данные предоставили бухгалтерия и диспетчеры аварийной службы, которые вручную писали «заявки на устранение неисправностей». Назвать их беспорядочными — ничего не сказать. К примеру, один лишь термин «распределительная коробка» (англ. service box), обозначающий обычную часть инфраструктуры, был записан в 38 вариантах, в том числе: SB, S, S/B, S.B, S?B, S.B., SBX, S/BX, SB/X, S/XB, /SBX, S.BX, S &BX, S?BX, S BX, S/B/X, S BOX, SVBX, SERV BX, SERV-BOX, SERV/BOX и SERVICE BOX. Распознать все это предстояло компьютерному алгоритму.

«Взглянув на это, мы подумали, что нам не удастся проанализировать данные, поскольку они были невероятно сырыми, — вспоминает Синтия Рудин, статистик и руководитель проекта. — У меня имелись распечатки таблиц для всех видов кабелей. Вытаскивая какие-то из них, мы не могли удержать их в руках — все тут же летело на пол. И в этом всем нужно было разобраться. Без какой-либо документации. Мне оставалось только думать, как из всего этого извлечь пользу».

Для работы Синтии Рудин и ее команде следовало использовать все данные, а не только выборку, поскольку любой из десятков тысяч люков грозил оказаться бомбой замедленного действия. Таким образом, только подход «N = всё» мог прийти на помощь. Совсем не мешало бы продумать причинно-следственные связи, но на это ушла бы сотня лет, притом что правильность и полнота результатов оставались бы сомнительными. Лучшим решением этой задачи было найти корреляции. Синтию интересовал не столько вопрос почему, сколько что, хоть она и осознавала, что, когда команде феноменальных специалистов по статистике придется отвечать перед руководством Con Edison, им придется обосновать свой рейтинг. Прогнозы выполнялись компьютерами, но их потребителем выступал человек. А людям, как правило, нужны причины, чтобы понять.

Интеллектуальный анализ данных обнаружил те самые «золотые самородки», которые Синтия Рудин надеялась найти. Очистив беспорядочные данные для обработки с помощью компьютера, команда определила 106 прогностических факторов основной аварии, связанной с канализационными люками. Затем из них отобрали несколько самых сильных сигналов. Проверяя электросеть Бронкса, специалисты проанализировали все имеющиеся данные вплоть до середины 2008 года. Затем на основе этих данных спрогнозировали проблемные участки с расчетом на 2009 год и получили блестящий результат: из 10% первых по списку люков 44% были связаны с серьезными происшествиями.

Поделиться:
Популярные книги

Моя на одну ночь

Тоцка Тала
Любовные романы:
современные любовные романы
короткие любовные романы
5.50
рейтинг книги
Моя на одну ночь

Черный Маг Императора 8

Герда Александр
8. Черный маг императора
Фантастика:
юмористическое фэнтези
попаданцы
аниме
5.00
рейтинг книги
Черный Маг Императора 8

Измена. Отбор для предателя

Лаврова Алиса
1. Отбор для предателя
Фантастика:
фэнтези
5.00
рейтинг книги
Измена. Отбор для предателя

Кодекс Крови. Книга II

Борзых М.
2. РОС: Кодекс Крови
Фантастика:
фэнтези
попаданцы
аниме
5.00
рейтинг книги
Кодекс Крови. Книга II

Шаг в бездну

Муравьёв Константин Николаевич
3. Перешагнуть пропасть
Фантастика:
фэнтези
космическая фантастика
7.89
рейтинг книги
Шаг в бездну

Часовая битва

Щерба Наталья Васильевна
6. Часодеи
Детские:
детская фантастика
9.38
рейтинг книги
Часовая битва

Вечная Война. Книга II

Винокуров Юрий
2. Вечная война.
Фантастика:
юмористическая фантастика
космическая фантастика
8.37
рейтинг книги
Вечная Война. Книга II

Хроники странного королевства. Вторжение. (Дилогия)

Панкеева Оксана Петровна
110. В одном томе
Фантастика:
фэнтези
9.38
рейтинг книги
Хроники странного королевства. Вторжение. (Дилогия)

Часовой ключ

Щерба Наталья Васильевна
1. Часодеи
Фантастика:
фэнтези
9.36
рейтинг книги
Часовой ключ

Инвестиго, из медика в маги

Рэд Илья
1. Инвестиго
Фантастика:
фэнтези
городское фэнтези
попаданцы
5.00
рейтинг книги
Инвестиго, из медика в маги

Кротовский, может, хватит?

Парсиев Дмитрий
3. РОС: Изнанка Империи
Фантастика:
попаданцы
альтернативная история
аниме
7.50
рейтинг книги
Кротовский, может, хватит?

Драконий подарок

Суббота Светлана
1. Королевская академия Драко
Любовные романы:
любовно-фантастические романы
7.30
рейтинг книги
Драконий подарок

Очешуеть! Я - жена дракона?!

Амеличева Елена
Фантастика:
юмористическая фантастика
5.43
рейтинг книги
Очешуеть! Я - жена дракона?!

Идеальный мир для Лекаря 9

Сапфир Олег
9. Лекарь
Фантастика:
боевая фантастика
юмористическое фэнтези
6.00
рейтинг книги
Идеальный мир для Лекаря 9