Охота на электроовец. Большая книга искусственного интеллекта
Шрифт:
В переписи 1880 г. использовалось шесть видов листов учёта, по одному для каждой крупной статистической классификации. В первом листе население было разбито на группы по полу, расе и месту рождения; в других листах эти данные сопоставлялись с грамотностью, профессией и другими характеристиками. Для каждого из типов подсчёта сотрудникам приходилось заново перебирать миллионы переписных листов — процесс чрезвычайно медленный и дорогостоящий, не говоря уже о вероятности ошибок. Более того, он не позволял осуществлять сложный анализ данных.
Практически вся подготовительная работа и работа после переписи осуществлялась вручную. Единственным используемым механическим устройством было простое приспособление, так называемое устройство Ситона, изобретённое Чарльзом Ситоном, главным клерком переписи. Оно состояло из сплошного рулона листов учёта, намотанного на набор катушек в деревянной коробке. Рулон зигзагообразно огибал катушки устройства, собирая, таким образом, несколько столбцов листов рядом, что позволяло ускорить простановку отметок. Заполненные рулоны изымались из коробки, разрезались на отдельные листы, значения из которых затем суммировались [255] .
255
Dalakov G. Tabulating machine of Herman Hollerith / History of Computers: hardware, software, internet… // https://history-computer.com/ModernComputer/Basis/TabulatingMachine_Hollerith.html
В своё время руководитель предыдущей переписи Фрэнсис Уокер сравнил результаты использования устройства Ситона с обычным способом обработки данных и обнаружил, что машина повысила производительность каждого клерка с 29 до 124 листов в день, то есть прирост производительности труда составил почти 428%. Хотя более поздний анализ показал, что эта оценка была сильно преувеличена, специальным актом Конгресса Ситону за его изобретение выплатили премию в размере 15 000 долларов (расчёт размера вознаграждения основывался на ожидаемой экономии, возникающей при использовании устройства; эта сумма равна годовому окладу 29 клерков) [256] , [257] . В целом устройство Ситона не могло решить возникшую проблему. В 1880 г. число вопросов переписи в очередной раз возросло — с восемнадцати до двадцати четырёх, к тому же вырос спрос на получение более детальной статистики. Рос аппетит Конгресса к получению новых данных, и конгрессмены были готовы выделить дополнительные фонды на их сбор и обработку, а Уокер с энтузиазмом относился к возможности расширения штата. В итоге объём опубликованных результатов переписей увеличился с пяти томов разного размера в 1870 г. до двадцати двух толстых ин-кварто [258] томов в 1880 г. (да ещё и с приложением). Эта амбициозная программа потребовала значительного увеличения числа клерков, и их численность выросла с 438 человек в переписи 1870 г. до 1495 человек при подведении итогов переписи 1880 г. [259]
256
Truesdell L. E. (1965). The development of punch card tabulation in the Bureau of the Census, 1890–1940: with outlines of actual tabulation programs. U. S. G.P.O // https://books.google.ru/books?id=MGZqAAAAMAAJ
257
Wright C. D. (1966). The history and growth of the United States census[1790–1890] prepared for the Senate Committee on the Census. U. S. Govt. Print. Off, Johnson Reprint Corp // http://hdl.handle.net/2027/mdp.39015007025003
258
* Ин-кварто (лат. in quarto «в четвёртую часть листа», «в четвёртку» от лат. quartus «четвёртый») — полиграфический термин, обозначающий размер страницы в одну четверть типографского листа. На одном листе при этом помещается 4 листа (8 страниц) книги. Размеры страницы составляют 241,5 x 305 мм.
259
Ruggles S., Magnuson D. L. (2018). Capturing the American People: Census Technology and Institutional Change, 1790–2020 / MPC Working Papers Series. №2 // https://pop.umn.edu/sites/pop.umn.edu/files/ruggles_magnuson_capturing-2.pdf
В 1882 г. Холлерит становится инструктором по машиностроению в Массачусетском технологическом институте, где начинает строить свой первый аппарат для суммирования и классифицирования данных. Спустя год он возвращается в Вашингтон, чтобы стать экспертом патентного ведомства. Правда, в отличие от Альберта Эйнштейна, проработавшего на аналогичной позиции семь лет, Холлерит увольняется, чтобы начать карьеру изобретателя и предпринимателя.
Первоначальный дизайн машины Холлерита предполагал использование перфорированной ленты. Не исключено, что это инженерное решение было навеяно конструкцией машины Ситона, но спустя более чем столетие трудно это достоверно установить. Сама по себе идея не нова, вспомним хотя бы Жака Вокансона, который использовал перфорированные полосы бумаги в своём станке. Принципиальной инновацией в случае Холлерита было использование электричества: перфолента проходила между металлическим барабаном и большими металлическими щётками; всякий раз, когда щётки сквозь отверстие соприкасались с поверхностью барабана, возникал электрический контакт, приводивший к увеличению значения счётчика, соответствующего определённой статистической категории. Несмотря на большой прогресс, достигнутый в сравнении с операциями, выполняемыми при помощи листов учёта, Холлерит вскоре понял, что совершил серьёзную ошибку: бумажная лента оказалась неудачным носителем информации, ограничивающим скорость и гибкость системы из-за необходимости только последовательной обработки данных. Таким образом, если нужна только часть данных с ленты, приходилось проматывать рулон целиком, а после нахождения данных не было возможности их как-либо извлечь для дальнейшего анализа (разве что вырезать их с ленты) [260] . Казалось, Холлерит зашёл в тупик, забыв об идее Биллингса о картах с насечками. Однако на помощь пришёл любопытный случай во время одного путешествия. Холлерит вспоминал позже: «…У
260
Dalakov G. Tabulating machine of Herman Hollerith / History of Computers: hardware, software, internet… // https://history-computer.com/ModernComputer/Basis/TabulatingMachine_Hollerith.html
261
Truesdell L. E. (1965). The development of punch card tabulation in the Bureau of the Census, 1890–1940: with outlines of actual tabulation programs. U. S. G.P.O // https://books.google.ru/books?id=MGZqAAAAMAAJ
262
Strickland J. (2014). Hollerith and the “Punched Photograph” / Computer History Museum: Volunteer Information Exchange, Vol. 4, Iss. 3, February 20 // https://s3.amazonaws.com/s3data.computerhistory.org/chmedu/VIE_04_003.pdf
Интересно, что Холлерит не был первым исследователем, осознавшим всю мощь перфокарт в деле обработки больших объёмов данных. Ещё в первой половине XIX в. русский изобретатель Семён Корсаков сконструировал несколько механических устройств, основанных на использовании перфорированных таблиц и предназначенных для задач информационного поиска и классификации. Первое устройство Корсакова получило название «гомеоскоп» (от др.-греч. ?????? — подобный и ?????? — смотреть). Самый простой вариант гомеоскопа представлял собой деревянный брусок с отверстиями, в которых находились штыри длиной немного больше толщины бруска. Один конец у каждого штыря был закруглён, и при надавливании на него противоположный конец штыря выдвигался с другой стороны бруска. Каждый штырь соответствовал какому-либо признаку некоторого объекта. Если конец штыря выступал из рабочей поверхности бруска, значит, у данного объекта соответствующий признак присутствовал, в противном случае — отсутствовал.
Гомеоскоп использовался для быстрого поиска объекта в перфорированной таблице. Каждая строка такой таблицы соответствовала объекту, а столбец — признаку. Например, в одном из экспериментов Корсакова объектом была болезнь, а признаками — наблюдаемые симптомы. Вначале надо было подготовить таблицу: при наличии у объекта некоторого признака проделывалось отверстие в соответствующей им ячейке таблицы. После этого можно было осуществлять поиск объекта: в гомеоскопе устанавливался соответствующий признакам набор штырей, и гомеоскоп, перемещаемый вдоль строк таблицы, останавливался, если для всех выдвинутых штырей в таблице находились соответствующие отверстия. Если же гомеоскоп доходил до конца таблицы, то это означало, что объект, обладающий всеми заданными при помощи штырей признаками, пока что не внесён в таблицу. Таким образом, используя гомеоскоп, можно было найти болезнь по набору наблюдаемых симптомов и узнать список рекомендуемых при ней лекарств, который записывался в дополнительном столбце таблицы.
Этот вариант гомеоскопа назван у Корсакова «прямолинейным гомеоскопом с неподвижными частями» (homeoscope rectiligne a pieces fixes). Более продвинутой версией гомеоскопа стал «прямолинейный гомеоскоп с подвижными частями» (homeoscope rectiligne a pieces mobiles). Он представлял собой стоящую раму, через центр которой вертикально была протянута толстая прямая проволочная ось. На неё были нанизаны рычажки, изготовленные из загнутых под прямым углом отрезков проволоки. У каждого рычажка один конец представлял собой крючок, который скользил по поверхности перфорированной таблицы, а на второй конец крепилась бирка с номером признака. Каждый из рычажков путём поворота мог быть перекинут на одну из сторон рамы. Если он опирался на левую сторону рамы, то крючок выступал из нижней плоскости устройства и при движении рамы по поверхности таблицы мог провалиться в соответствующее ему отверстие. Если же отверстие в соответствующей позиции отсутствовало, то крючок приподнимался, в результате чего поднималась и бирка, закреплённая на другом конце рычажка. Таким образом, эта версия гомеоскопа могла не только находить нужные записи, но и показывать при поиске отсутствующие у обрабатываемой записи признаки.
Следующим устройством Корсакова стал «плоский гомеоскоп» (homeoscope plane), состоящий из наложения друг на друга двух перфорированных таблиц. Одно измерение таблицы соответствовало локализации симптома (например, голова, нос, грудь, живот), а второе — типу симптома (боль, резь, покраснение и т. д.). Штыри, соответствующие искомым признакам (критериям), похожие на гвозди со шляпками, устанавливались в отверстие верхней таблицы. Затем верхняя таблица накладывалась на нижнюю, в результате чего штыри или проваливались в соответствующие отверстия второй таблицы, или приподнимались над поверхностью. Корсаков предлагал использовать размер или цвет шляпок штырей для обозначения степени важности соответствующих им поисковых признаков.
Корсаков создал также и более сложные устройства — «идеоскоп» (ideoscope) и «простой компаратор» (comparateur simple). Идеоскоп представлял собой усовершенствованную версию прямолинейного гомеоскопа с подвижными частями, способную обрабатывать таблицы, в которых существовало два типа отверстий — неглубокие и глубокие (соответствующие более важным признакам). Идеоскоп позволял увидеть признаки, совпадающие у двух объектов (с выделением наиболее важных); признаки искомого объекта, отсутствующие у сравниваемого объекта в таблице; признаки сравниваемого объекта, которых нет в искомом объекте (с выделением наиболее важных), а также признаки, отсутствующие у обоих объектов.
Никчёмная Наследница
Любовные романы:
любовно-фантастические романы
рейтинг книги
Скандальный развод, или Хозяйка владений "Драконье сердце"
Фантастика:
попаданцы
фэнтези
рейтинг книги
Адвокат Империи 2
2. Адвокат империи
Фантастика:
городское фэнтези
попаданцы
аниме
фэнтези
фантастика: прочее
рейтинг книги
Лучший из худших
1. Лучший из худших
Фантастика:
фэнтези
попаданцы
рейтинг книги
Москва – город проклятых
1. Неоновое солнце
Фантастика:
ужасы и мистика
постапокалипсис
рейтинг книги
Полковник Гуров. Компиляция (сборник)
Полковник Гуров
Детективы:
криминальные детективы
шпионские детективы
полицейские детективы
боевики
крутой детектив
рейтинг книги
Имперец. Том 1 и Том 2
1. Имперец
Фантастика:
попаданцы
альтернативная история
аниме
рейтинг книги
Начальник милиции. Книга 4
4. Начальник милиции
Фантастика:
попаданцы
альтернативная история
рейтинг книги
Графиня Де Шарни
Приключения:
исторические приключения
рейтинг книги
