Об ИИ без мифов. Путеводитель по истории Искусственного Интеллекта, Черняк Леонид

Об ИИ без мифов. Путеводитель по истории Искусственного Интеллекта

на обложку

Черняк Леонид

Шрифт:

В CV наряду с распознаванием изображений (Image recognition) используют термин распознавание образов (Pattern recognition). Эти термины близки, но не синонимичны, не случайно в названиях конференций они содержатся в разных сочетаниях. Из американских одна сейчас называется Conference on Computer Vision and Pattern Recognition, а несколько лет назад она же называлась Pattern Recognition and Image Processing, а другая International Conference on Pattern Recognition and Information Processing. Есть еще две конференции – американская и европейская вообще с одинаковыми названиями International Conference on Image Processing, Computer Vision, and Pattern Recognition.

Распознавание изображений предполагает оцифровку изображений и преобразование их теми или иными алгоритмами в изображения более

удобные для получения полезной информации. Распознавание образов, скорее всего, распространяется на более широкий круг данных, чем изображений, в него входит и распознавание голоса, и данных метеопрогноза, и обнаружение скрытых закономерностей геолого-геофизических данных, а также данных иной природы.

Особо следует сказать о машинном зрении, как о прикладной области компьютерного зрения, это инженерная область, связанная с созданием систем контроля производственным оборудованием и роботами-манипуляторами.

Ошибка Папперта

И здесь тоже начало было положено многолетними нейрофизиологическими исследованиями, они достигли высшей точки в конце 40-х годов, но далее возникла пауза, для дальнейшего продвижения не было необходимых технических средств. Однако пауза длилась недолго, после 1956 года, когда восторжествовал символьный AI (Symbolic AI), возникли смелые идеи альтернативного пути к CV на основе символьного подхода с использованием универсальных компьютеров. Тогда главной казалась проблема ввода изображения в компьютер, на нее были брошены большие силы, в результате Минский с коллегами сумели успешно решить ее, после чего казалось, что от оцифрованного изображения до CV остался всего один шаг.

Этот шаг предстояло сделать профессору Сеймуру Папперту (Seymour Papert, 1928–2016) из AI Lab МТИ, он поверил в скорое решение и организовал летний проект Summer Vision Project с той же готовностью к обещаниям, которую на десять лет ранее проявил его руководитель Марвин Минский. Участие самого Папперта свелось к написанию короткой шестистраничной программы действий для группы аспирантов и студентов на несколько каникулярных месяцев. Не правда ли похоже на поручение собрать робота за время летних каникул, данное Джоном Маккарти своим аспиратам. Однако недостаточно продуманный проект, как и следовало ожидать, с треском провалился. Трудно представить подобное легкомыслии, если даже сейчас, полвека спустя многие задачи CV еще не решены. Однако этот фальстарт не мешает многим авторам признавать Сеймура Папперта одним из основоположников компьютерного зрения.

Иронизируя по поводу ошибки Сеймура Папперта, нужно отдать должное, он был замечательным ученым, сочетал в себе качества математика и психолога-педагога, создал первый язык программирования для детей Logo, где реализованы образовательные идеи швейцарского психолога и философа Жана Пиаже (Jean Piaget,1896–1980). Logo жаль, этот интересный язык, способствующий самостоятельному развитию ребенка, сейчас почти забытый он не выдержал конкуренции со стороны богатого интерфейса и неограниченных возможностей подключенных к сети устройств. Кстати, и Папперт тоже, как и многие присные к AI, родом из семьи еврейских эмигрантов из Российской империи.

Нейрофизиологические предпосылки к CV

Фундаментальные предпосылки к решению задачи компьютерного зрения были сделаны не математиками, а нейрофизиологами, причем исследования природы зрения начались существенно раньше упомянутого выше летнего семинара. Предположение о роли зрительной части головного мозга, отвечающей за обработку визуальной информации, в 1810 году выдвинул австрийский врач и анатом Франц Галль (Franz Gall, 1758–1828), известный как создатель паранауки френологии. Позже сложилось несколько школ исследования работы мозга, успешнее других механизмы зрения изучал немец Герман Мунк (Hermann Munk, 1839–1912), один из крупнейших физиологов своего времени.

В XX веке первенствовали ставшие классиками американец Дэвид Хьюбел (David Hubel, 1926–2013) и Торстен Визель (Torsten Wiesel, 1924) со статьей «Рецептивные области одного нейрона в первичной зрительной коре мозга кошки» (Receptive fields of single neurons in the cat’s striate cortex, 1959).

В ней авторы показали наличие в мозге животного особого типа нейронов, способных реагировать на изображение, там же они представили общие принципы обработки визуальной информации в нейронных структурах. Хьюбел и Визель обнаружили наличие специализированных клеток, которые обрабатывают данные о фрагментах изображения и передают их в нейронную сеть более высокого уровня с тем, чтобы мозг собирал из них целостное изображение. Спустя годы за это открытие Хьюбел и Визель совместно с Роджером Сперри (Roger Sperry, 1913–1994) получили Нобелевскую премию, по физиологии и медицине «за открытия, касающиеся принципов переработки информации в нейронных структурах».

Дело Хьюбела и Визеля продолжил британец Дэвид Марр (David Marr, 1945–1980) в своей книге «Зрение: вычислительный подход к представлению и обработке визуальной информации человеком» (Vision: A computational investigation into the human representation and processing of visual information, 1982), она вышла после смерти Марра, прожившего всего 35 лет. Он стал открывателем подхода, где человеческий мозг ассоциируют с компьютером, Марр видел в нем систему, перерабатывающую входной поток сенсорной информации, он представил процесс переработки зрительной информации в виде иерархии из четырех стадий от первичной проекции внешнего объекта на сетчатку глаза до его опознания человеком. Результаты обработки зрительной информации на каждой предыдущей стадии, являются исходными данными для следующей стадии:

• Собственно видение, формирование изображения на сетчатке.

• Первичный анализ структуры изображения – выделение текстуры, контуров, формы, взаимного расположения объектов в пространстве.

• Составление эскиза – определение общей ориентации и глубины контуров, оценка глубины и расстояния от точки наблюдения до объекта.

• Построение трехмерной модели – создание общей сцены видения ситуации в виде отдельных объектов независимо от их расположения на сетчатке, формирование объемного изображения внешнего мира.

Первые практические шаги

За двадцать лет до Марра инженер Расселл Кирш (Russell Kirsch, 1929), сын выходцев из России, вместе со своими коллегами по Национальному бюро стандартов (NBS) разработал первую в мире систему оцифровки изображения. В отличие от других организаций, занимающихся стандартизацией, NBS имело сильную исследовательскую лабораторию, где в 1950 году был построен компьютер SEAC (Standards Electronic Automatic Computer), там же были созданы некоторые периферийные устройства, без которых трудно представить себе современный компьютер. Среди них дисковый накопитель, его разработал в 1951 году еще один уроженец России Яков Рабинов (Рабинович), его конструкция была доведена до коммерческого продукта в IBM. Расселл Кирш сделал в 1957 два смежных изобретения, первое – сканер, состоящий из вращающегося барабана, на который помешалось сканируемое изображение, и считывающей головки с сенсором-фотоэлементом, второе – цифровой способ записи изображения в виде матрицы, состоящей из пикселей. Возможности доступной компьютерной памяти ограничивали размер изображения несколькими килобайтами, поэтому максимальное разрешение этого сканера составило всего 179 на 179 пикселей. Собственно идея разбиения изображения на отдельные точки-пиксели была высказана еще в XIX веке, этимология этого термина неоднозначна, существует множество мнений по этому поводу. Но Кирш придумал разбивку изображения на прямоугольные пиксели и способ кодировки уровней серого. Занятно, работа эта была выполнена в инициативном порядке, что дало Киршу повод шутить относительно кражи машинного времени у более важных задач, в частности у расчетов термоядерной бомбы. Тем не менее в компьютерную историю компьютер SEAC вошел в первую очередь благодаря этой работе. Из-за ограничений по памяти пришлось ограничиться сканированием только лица младенца на той фотографии, где изобретатель держит на руках своего трехмесячного сына. Но и этого оказалось достаточно для вхождения полученного Киршем цифрового изображения в список 100 наиболее важных фотографий в истории человечества, опубликованный журналом Life в 2003 году.