Фотопейзаж и компьютер
Шрифт:
Потребуем теперь, чтобы количество кусочков было гораздо меньше, чем получились в этом наборе. Это можно было бы сделать, например, рассортировав этот набор на группы похожих кусочков, и каждую группу заменить на один «усредненный» кусочек.
Оказывается, что такая задача может быть решена не разрезанием изображений на части и сортировкой кусочков, а математически строго. То есть, для заданного множества изображений можно построить набор наилучших картинок, из которых может быть составлено каждое изображение из этого множества. «Наилучших» в том смысле, что
Основная цель решения этой задачи не в том, чтобы получить составные изображения, близкие к исходным, а в том, чтобы найти элементарные компоненты изображений данного класса, позволяющие экономным образом закодировать их структуру.
Когда такой алгоритм (sparse coding, разреженное кодирование) обработал около полумиллиона кусочков изображений пейзажей и других сцен окружающего нас мира, то полученные элементарные картинки оказались невероятно похожи на картинки, на которые настроены рецептивные поля некоторых из нейронов первичных зрительных зон головного мозга!
Если составление изображений из кусочков сравнить с составлением слов из букв, то получается, что полученный алфавит (набор элементарных картинок) содержит много букв, но каждое изображение представляет собой короткое слово. В этом и состоит «разреженность». Получается что-то вроде китайской азбуки, но вид иероглифов не придуман людьми, а вычислен оптимальным образом для заданного набора понятий, которые должны быть описаны этим языком.
Если это все действительно так, то вырисовывается следующая схема.
1. Каждый «пиксель» изображения на сетчатке представлен в высших разделах зрительной коры головного мозга в виде возбуждения только тех нейронов, для которых картинка в окрестности этого пикселя «совпала» с той, на которую настроены их рецептивные поля. Нейронов, в рецептивных полях которых находится окрестность данного пикселя – много, может быть, сотни тысяч и больше, но для конкретного изображения (одного из тех, которые могут встретиться в природе), всегда сработает только небольшое их количество, возможно, единицы или десятки (в этом и проявляется разреженность!).
2. Картинки в рецептивных полях, на которые реагируют нейроны зрительной коры, формируются в процессе самообучения в раннем возрасте, а может быть, и в течение всей жизни. Когда младенец с удивлением рассматривает яркую игрушку, может быть, в это время это и происходит. Получающиеся картинки различаются рисунком, ориентацией и полосой пространственных частот этого рисунка.
Если верно, что наружное коленчатое тело преобразует изображение на сетчатке в последовательность изображений с разными интервалами пространственных частот, то тем самым дается шанс нейронам, настроенным на разные частоты, «опознать» свой рисунок.
Полагают, что разреженное кодирование является общим принципом кодирования сенсорной информации в нервной системе и используется, в частности, для кодирования природных звуков или запахов.
Благодаря представлению информации, полученной от сенсоров, в виде разреженного кода:
• выявляется
• повышается емкость ассоциативной памяти, т. к. повышается различимость сходных состояний;
• экономится энергия (а подсчитано, что в коре головного мозга энергии хватает только для одновременной активации не более чем 2 % всех нейронов коры).
По мере перехода к последующим слоям нейронов их рецептивные поля все усложняются и для моделирования их структуры, если такое окажется возможным, уже нужно будет учитывать степень значимости для организма элементарного изображения (какое типичное поведение оно вызывает: опасность это, или добыча, или что-то другое жизненно важное).
На заключительных стадиях обработки зрительной информации, о которых на клеточном уровне мало что известно, осуществляется следующее:
• отсутствующие, например, из-за наличия на сетчатке слепого пятна, части изображения восстанавливаются, видимо, с помощью интерполяции и сведений, хранящихся в памяти;
• информация, которая была отсечена на этапе структуризации изображения, домысливается (если она требуется), снова с помощью интерполяции и памяти;
• мозг «улучшает» поступившую картинку с помощью ранее полученных знаний об изображенных предметах и, в частности, о законах перспективы;
• конечный результат мысленной реконструкции изображения мозгом помещается в долговременную память человека.
1.7. Механизмы константности зрительного восприятия
Деятельность мозга по улучшению картинки нужно описать подробнее. Еще Декарт заметил, что часто мы визуально воспринимаем вещи правильнее, чем это можно было бы сделать, основываясь только на том, как они видны в реальности. Это явление называется константностью зрительного восприятия.
Существует множество видов константности восприятия: константность восприятия размеров, формы, яркости, цвета и другие.
Так, в изображении на сетчатке размеры предметов подчиняются законам передачи перспективы. Но благодаря механизму константности размеров мы воспринимаем размер очень близких предметов уменьшенным по сравнению с тем размером, который получился на сетчатке. А размер удаленных предметов воспринимается немного увеличенным. То есть, мозг частично исправляет перспективные искажения размеров предметов. Коррекция восприятия осуществляется на основе сведений об условиях просмотра (в том числе, с учетом признаков глубины) и хранящихся в памяти знаний о свойствах предметов, которые мы видим.
Включив лампу накаливания, мы обнаруживаем, что белая бумага стала восприниматься немного желтоватой. Однако через небольшой промежуток времени бумага снова станет восприниматься белой. Произошла адаптация к цвету источника освещения. Влияние цвета источника освещения на воспринимаемый цвет ослабляется свойством зрительной системы человека, которое называется хроматическая адаптация.
Видя нарисованный на картинке эллипс, мы часто можем легко определить по остальным деталям картинки, что на самом деле это – круг, видимый сбоку. Сработала константность формы.