Чтение онлайн

на главную - закладки

Жанры

Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим
Шрифт:

Сегодня двойная бухгалтерия, как правило, рассматривается только с точки зрения ее последствий для бухгалтерского учета и финансов. Однако она стала вехой в эволюции использования данных, так как позволила записывать информацию в виде «категорий», связывающих счета между собой. Она работала по принятым правилам записи данных, став одним из самых ранних примеров стандартизированной системы записи информации. Бухгалтеры могли с легкостью разобраться в записях друг друга. Бухгалтерия была организована таким образом, чтобы сделать определенный тип запроса данных (расчет прибыли или убытков по каждому счету) быстрым и простым. Наконец, она предусматривала аудиторский след операций для более удобного прослеживания данных. Двойная бухгалтерия разрабатывалась

с учетом встроенной «системы исправления ошибок», которая и сегодня не оставила бы равнодушными любителей технологий. Если запись в одной части бухгалтерской книги вызывала сомнения, можно было проверить соответствующую ей запись в другой.

Как и арабские цифры, двойная бухгалтерия не сразу стала успешной. Лишь спустя двести лет с момента изобретения этого метода вмешательство математика и купеческой семьи, наконец, изменило историю датификации.

Математик — это францисканский монах Лука Пачоли. В 1494 году он опубликовал учебник по коммерческой математике, рассчитанный на непрофессионалов в этой области. Благодаря своей популярности книга, по сути, являлась в то время учебником по математике. Кроме того, она стала первой книгой, полностью построенной на арабских цифрах, тем самым способствуя их укоренению в Европе. Наиболее долгосрочным вкладом была часть книги, посвященная бухгалтерии, где Пачоли четко объяснял систему двойного бухгалтерского учета. В течение последующих десятилетий часть, посвященную бухгалтерскому учету, отдельно издали на шести языках, и веками она оставалась настольной книгой по этому предмету.

Что касается купеческой семьи, это были знаменитые венецианские торговцы и меценаты — Медичи. В XVI веке они стали самыми влиятельными банкирами в Европе, в значительной степени благодаря тому, что использовали улучшенный способ записи данных — систему двойной записи. Учебник Пачоли и успех Медичи в его применении утвердили победу двойной бухгалтерии в качестве стандартной записи данных и с того момента закрепили использование арабских цифр.

Параллельно с достижениями в области записи данных развивалась идея измерения окружающего мира, которая подразумевала обозначения времени, расстояния, площади, объема и веса. Стремление познать природу через количественные категории определило развитие науки в XIX веке: ученые изобрели новые инструменты и агрегаты для измерения и регистрации электрических токов, атмосферного давления, температуры, частоты звука и т. п. Это была эпоха всеобщего определения, разграничения и обозначения. Увлечение этими процессами дошло до измерения черепа человека и его умственных способностей для выявления закономерностей между ними. К счастью, эта лженаука («френология») уже практически исчезла. Но желание все количественно измерить только усилилось.

Измерение объектов и явлений реального мира, а также запись получаемых данных процветали благодаря сочетанию подходящих инструментов и восприимчивого мышления. На этой благодатной почве и выросла датификация в ее современном понимании. Все составляющие датификации были готовы к использованию, однако в аналоговом мире этот процесс все еще оставался трудоемким и дорогостоящим. В большинстве случаев требовалось обладать бесконечным терпением или же посвятить этому делу всю жизнь. Примером тому служат тщательные ночные наблюдения за небесными телами, которые проводил астроном Тихо Браге [78] в 1500-х годах. В аналоговую эпоху случаи удачной датификации были редкостью. Как правило, им способствовало счастливое стечение обстоятельств (как в истории коммодора Мори, который был вынужден заниматься офисной работой, но имел в своем распоряжении целый склад журналов). Всякий раз результатом датификации исходной информации оказывались огромная ценность и потрясающие открытия.

78

Тихо Браге — датский астроном эпохи Возрождения.

Первым в Европе начал проводить систематические и высокоточные астрономические наблюдения, на основании которых Кеплер вывел законы движения планет.

Появление компьютеров повлекло за собой внедрение цифровых устройств для измерения и хранения данных, которые значительно повысили эффективность датификации, а также сделали возможным математический анализ данных для раскрытия их скрытой ценности. Проще говоря, оцифровка стала катализатором датификации, но никак не ее заменой. Процесс оцифровки (преобразование аналоговой информации в формат, считываемый компьютером) сам по себе не является датификацией.

Когда слова становятся данными

Разница между оцифровкой и датификацией данных станет очевидной, если посмотреть на домен, где происходит и то и другое, и сравнить последствия. Рассмотрим такой пример. В 2004 году компания Google объявила невероятно смелый план — полностью оцифровать все книги, которые находятся в ее распоряжении (насколько это возможно с учетом законов об авторском праве), и дать возможность людям по всему миру искать и бесплатно просматривать книги через интернет. Чтобы совершить этот подвиг, компания объединилась с несколькими крупнейшими и наиболее престижными научными библиотеками мира и разработала машины для сканирования, которые могли бы автоматически перелистывать страницы, делая сканирование миллионов книг не только реализуемым, но и финансово жизнеспособным.

Первый текст, оцифрованный компанией Google, выглядел так. Каждую страницу отсканировали и записали в виде файла цифрового изображения в высоком разрешении, сохраненного на серверах Google. Страницы были преобразованы в цифровые копии, которые любой мог легко получить через интернет из любой точки мира. Однако при этом требовалось точно знать, какая книга содержит нужную информацию, иначе приходилось много читать, чтобы найти правильный отрывок. Текст невозможно было найти по словам или анализировать, поскольку его не датифицировали. Все, чем располагала Google, — это изображения, которые только люди могли превратить в полезную информацию.

И хотя это все равно было отличным инструментом — современной цифровой Александрийской библиотекой, более полезной, чем любая другая библиотека за всю историю, — Google этого показалось мало. Компания понимала, что эта информация хранила в себе ценнейший ресурс, который можно получить только в результате датификации. Поэтому специалисты Google пустили в ход программу оптического распознавания символов, которая могла распознать буквы, слова, предложения и абзацы в цифровом изображении. В итоге получался датифицированный текст, а не оцифрованная картинка страницы.

Теперь информация со страниц была доступна не только для чтения, но и для обработки на компьютерах и для анализа с помощью алгоритмов. Благодаря этому текст становился индексируемым, а значит, доступным для поиска. Стал возможным бесконечный поток текстового анализа. Так, например, можно узнать дату первого упоминания определенных слов и фраз или выяснить, когда они стали популярными. Это позволяет нам по-новому взглянуть на распространение идей и развитие человеческого мышления на протяжении столетий и на многих языках.

Попробуйте сами. Служба Google NgramViewer создает график использования слов или фраз с течением времени, применяя в качестве источника данных весь перечень книг Google. Всего за несколько секунд мы можем обнаружить, что до 1900 года термин «причинность» (англ. causality) использовался чаще, чем «корреляция» (англ. correlation), но затем соотношение изменилось. Мы можем сравнить стили письма и понять, кто прав в спорах об авторстве. Кроме того, благодаря датификации стало гораздо легче обнаруживать плагиат в научных трудах, вследствие чего некоторые европейские политики, в том числе министр обороны Германии, были вынуждены уйти в отставку.

Поделиться:
Популярные книги

Белые погоны

Лисина Александра
3. Гибрид
Фантастика:
фэнтези
попаданцы
технофэнтези
аниме
5.00
рейтинг книги
Белые погоны

Черный дембель. Часть 1

Федин Андрей Анатольевич
1. Черный дембель
Фантастика:
попаданцы
альтернативная история
5.00
рейтинг книги
Черный дембель. Часть 1

Лишняя дочь

Nata Zzika
Любовные романы:
любовно-фантастические романы
8.22
рейтинг книги
Лишняя дочь

Темный Лекарь 5

Токсик Саша
5. Темный Лекарь
Фантастика:
фэнтези
аниме
5.00
рейтинг книги
Темный Лекарь 5

Последний из рода Демидовых

Ветров Борис
Фантастика:
детективная фантастика
попаданцы
аниме
5.00
рейтинг книги
Последний из рода Демидовых

Чиновникъ Особых поручений

Кулаков Алексей Иванович
6. Александр Агренев
Фантастика:
попаданцы
альтернативная история
5.00
рейтинг книги
Чиновникъ Особых поручений

Попаданка в академии драконов 4

Свадьбина Любовь
4. Попаданка в академии драконов
Любовные романы:
любовно-фантастические романы
7.47
рейтинг книги
Попаданка в академии драконов 4

Боги, пиво и дурак. Том 6

Горина Юлия Николаевна
6. Боги, пиво и дурак
Фантастика:
фэнтези
попаданцы
5.00
рейтинг книги
Боги, пиво и дурак. Том 6

Курсант: Назад в СССР 10

Дамиров Рафаэль
10. Курсант
Фантастика:
попаданцы
альтернативная история
5.00
рейтинг книги
Курсант: Назад в СССР 10

Сделай это со мной снова

Рам Янка
Любовные романы:
современные любовные романы
5.00
рейтинг книги
Сделай это со мной снова

Болотник 2

Панченко Андрей Алексеевич
2. Болотник
Фантастика:
попаданцы
альтернативная история
6.25
рейтинг книги
Болотник 2

Камень Книга двенадцатая

Минин Станислав
12. Камень
Фантастика:
боевая фантастика
городское фэнтези
аниме
фэнтези
5.00
рейтинг книги
Камень Книга двенадцатая

Небо для Беса

Рам Янка
3. Самбисты
Любовные романы:
современные любовные романы
5.25
рейтинг книги
Небо для Беса

Надуй щеки! Том 4

Вишневский Сергей Викторович
4. Чеболь за партой
Фантастика:
попаданцы
уся
дорама
5.00
рейтинг книги
Надуй щеки! Том 4