Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим
Шрифт:
Профессор Косимицу обратился к материалу, который никогда не рассматривался как данные (вряд ли кому вообще пришло бы в голову, что он обладает информационными качествами), и преобразовал его в цифровой, количественный формат. Таким же образом коммодор Мори взял материал, который казался практически бесполезным, и получил из него информацию, превратив его в поистине полезные данные. Это позволило использовать информацию по-новому и придало ей уникальную ценность.
Слово data (англ. данные) в переводе с латинского означает «данность», то есть «факт». Это понятие стало краеугольным камнем классического труда Евклида, в котором геометрия объясняется с точки зрения известных данных и таких, которые можно показать, чтобы сделать известными. Сегодня данные относят к некоторому процессу, который позволяет их записывать, анализировать и переупорядочивать. Пока не придуман подходящий термин для обозначения такого
Датификация — далеко не то же самое, что оцифровка, при которой аналоговая информация преобразуется в двоичный код (или последовательность единиц и нулей), считываемый компьютером. Оцифровка не являлась первичной функцией компьютеров. Эпоха компьютерной революции изначально была связана с вычислениями, как и предполагает этимология слова compute (англ. «вычислять»). Мы выполняли вычисления, которые занимали много времени (такие, как вычисления в таблицах траекторий ракет, расчеты для переписей и сведений о погоде). И лишь затем появилась оцифровка аналогового контента. Поэтому, когда Николас Негропонте из MIT Media Lab опубликовал свою эпохальную книгу Being Digital в 1995 году, одной из поднятых им тем был переход от атомов к битам. К началу 1990-х годов этот переход в значительной степени коснулся текстовых данных. По мере увеличения емкости хранилищ, процессоров и пропускной способности за последнее десятилетие это удалось сделать и с другими формами контента (изображениями, видео, музыкой и пр.).
Сегодня среди технологов негласно принято считать, что большие данные ведут свое начало с момента «кремниевой» революции. Но это не так. Безусловно, большие данные стали возможны благодаря современным ИТ-системам, но основная идея лишь продолжила древнейшие поиски человечества в области измерения, записи и анализа мира. [73] ИТ-революция, произошедшая в мире, очевидна. Основной акцент в ней приходился на «Т» — технологии. Пришло время переключиться на «И» — информацию.
73
Континуум. Множество людей содействовали истории развития больших данных, начиная с машины Холлерита, первого электронного компьютера, транзистора или редких упоминаний самого термина примерно с 1970-х годов. К его чести, Стефан Вольфрам повел историю развития с количественных измерений и записи слов. Рэй Курцвейл примерно в 2000 году изобразил графически способность человека взаимодействовать с информацией, начиная с первобытных обществ.
Для того чтобы записывать информацию в количественной форме (датифицировать ее), нам нужно знать, как проводить измерения и записывать полученный результат. А для этого необходим правильный набор инструментов, а также желание количественно измерять и записывать. И то и другое — предпосылки датификации, и человечество разработало ее «строительные элементы» задолго до начала цифровой эпохи.
Мир, выраженный в количественных категориях
Возможность записи информации — одно из главных различий между примитивными и передовыми обществами. Основы счета, а также измерение длины и веса были древнейшими инструментами ранних цивилизаций. К началу III тысячелетия до н. э. идея записи информации значительно продвинулась вперед. Это произошло в долине Инда, Египте и Месопотамии. Повысилась точность измерений, да и сами они прочно вошли в повседневную жизнь. Эволюция письменности в Месопотамии обеспечила точный метод отслеживания производства и деловых операций. Это позволило ранним цивилизациям измерять окружающие объекты и явления, делать записи о них и извлекать их позднее. Измерение и запись способствовали созданию данных. Они же являются древнейшими основами датификации.
Так стало возможным воспроизводить продукты человеческой деятельности, например здания, записывая их размеры и строительные материалы. При этом можно было экспериментировать, изменяя отдельные размеры, чтобы создать нечто новое, что затем тоже подлежало бы записи. Можно было записывать коммерческие сделки, чтобы знать, сколько урожая удалось собрать с поля (и сколько из него уйдет государству в виде налога). Появилась возможность прогнозирования и планирования, даже если они заключались в простом предположении, что следующий год будет таким же урожайным, как и текущий. Благодаря этому деловые партнеры могли отслеживать, сколько они должны друг другу. Без измерения и записей не появились бы деньги, поскольку не было бы данных для их обоснования.
Спустя столетия область применения измерений расширилась от длины и
74
Альфред В. Кросби: Crosby, Alfred V. The Measure of Reality: Quantification and Western Society, 1250–1600. — Cambridge University Press, 1997. — Р. 113.
В Индии альтернативная система счисления появилась примерно в I веке. Она перекочевала в Персию, где была усовершенствована, а затем принята арабами, которые тоже значительно ее улучшили. Эта система стала основой арабских цифр, которыми мы пользуемся до сих пор. Крестовые походы, может, и несли абсолютное разрушение землям, на которые вторгались европейцы, но при этом знания мигрировали с востока на запад, и, пожалуй, самым значительным иноземным нововведением стали арабские цифры. Папа Сильвестр II, который занимался их изучением, выступил за их использование в конце первого тысячелетия. К началу ХІІ века арабские тексты, описывающие данную систему, были переведены на латынь и распространились по всей Европе, дав начало математике.
Еще до того, как в Европе появились арабские цифры, вычислительный процесс улучшило использование счетных досок. На этих досках делались гладкие желобки, в которых размещались счетные метки для обозначения сумм. Складывали и вычитали, перемещая метки в определенных областях. Такой способ имел значительные ограничения: было трудно одновременно рассчитывать очень большие и очень маленькие количества. А самое главное — недолговечность цифр на этих досках. Неверный шаг, небрежный удар — и цифра могла измениться, что приводило к неправильным результатам. Счетные доски годились для расчетов, но не для записи. Поэтому всякий раз, когда числа с доски необходимо было записать, их переводили обратно в неудобные римские цифры. [75] (Европейцы так и не переняли восточный способ подсчета с помощью абака, [76] но это оказалось к лучшему, так как не дало увековечить на Западе использование римских цифр. [77] )
75
Там же. С. 111–113.
76
Абак — счетная доска, применявшаяся для арифметических вычислений в Древней Греции и Древнем Риме.
77
О счетных досках и абаке. Как указывает Кросби (с. 112), европейцы так и не переняли арабский абак, иначе, вероятно, они бы значительно дольше придерживались римских цифр. Подсчеты с помощью арабских цифр производятся в шесть раз быстрее, чем с помощью счетных досок: Murray, Alexander. Reason and Society in the Middle Ages. — Oxford University Press, 1978. — P. 166/454.
Математика придала данным новый смысл: теперь их можно было анализировать, а не только записывать и при необходимости извлекать. Прошли сотни лет с момента введения арабских цифр (ХІІ век) до их широкого распространения (конец ХVІ века). К началу ХVІ века математики уже гордились тем, что с помощью арабских цифр проводили расчеты в шесть раз быстрее, чем с помощью счетных досок. Окончательный успех арабским цифрам принесла эволюция еще одного инструмента датификации — двойной бухгалтерии.
Счетоводы изобрели письменность в III тысячелетии до н. э. Несмотря на развитие счетоводства в последующих столетиях, оно, по сути, оставалось централизованной системой учета конкретных сделок. Но так и не удалось реализовать механизм, благодаря которому счетоводы и их торговцы-работодатели могли бы в любой момент времени увидеть то, что интересовало их больше всего: является конкретный счет или целая компания прибыльной или нет. Ситуация изменилась в XIV веке, когда счетоводы Италии начали записывать операции одновременно в двух книгах. Изящество этой системы заключалось в том, что прибыль и убытки можно было легко свести в таблицы по каждому счету, просто добавив кредиты и дебеты. И «скучные» данные вдруг «заговорили», пусть даже сбивчиво и только в пределах выявления прибыли и убытков.