Охота на электроовец. Большая книга искусственного интеллекта, Марков Сергей Николаевич

Охота на электроовец. Большая книга искусственного интеллекта

на обложку

Марков Сергей Николаевич

Шрифт:

В целом сети Тьюринга напоминают сети Мак-Каллока и Питтса: даже использование цикла в качестве механизма памяти для хранения состояния модификатора отсылает нас к рассуждениям Питтса. Однако Тьюринг делает два важных шага вперёд. Во-первых, он рассматривает возможность моделирования работы сети на программном уровне при помощи электронной вычислительной машины общего назначения. А во-вторых, в его статье содержится целый раздел, посвящённый машинному обучению или, как называет его сам Тьюринг, «образованию машин» [Education of Machinery]! Для этого он анализирует возможные способы «организации неорганизованных машин». Тьюринг вносит изменение в архитектуру модификатора соединения, снабжая его двумя внешними входами.

Рис. 90. Предложенное Тьюрингом изменение архитектуры модификатора соединения

Таким образом, работа соединения становится управляемой: подавая на входы A и B разные сигналы, можно добиться переключения поведения модификатора.

По

словам Тьюринга, благодаря применению «соответствующих вмешательств, имитирующих обучение [education]», машина может быть обучена «выполнять любую требуемую работу при наличии достаточного времени и при условии достаточного количества элементов».

Тьюринг рассуждает о том, что настройка машины для выполнения конкретной операции может производиться как вручную, так и на основе системы подкреплений и штрафов, соответствующих удовольствию и боли у живых организмов. При этом сами принципы функционирования сети достаточно просты — в живой природе они могут быть описаны сравнительно небольшим набором генов, благодаря чему такие принципы могут быть выработаны в процессе эволюции. Некоторые исследователи считают, что в этих рассуждениях Тьюринг предвосхитил появление генетических алгоритмов, то есть алгоритмов, имитирующих процессы естественной изменчивости, скрещивания и отбора для решения различных задач оптимизации. Сегодня машины типа A и машины типа B часто называют нейронными сетями Тьюринга или просто сетями Тьюринга.

Тьюринг не приводит конкретных алгоритмов обучения машин типа B, замечая, что обучение таких машин слишком сложный процесс для того, чтобы его можно было смоделировать при помощи бумаги и карандаша, однако приводит пример более простой машины (машина типа P), которая первоначально обладает случайным поведением, выдавая случайные ответы на все запросы. Если ответ окажется правильным, машина запомнит, что в такой ситуации следует дать именно этот ответ (положительное подкрепление). Если же ответ окажется неправильным, машина, напротив, запомнит, что в этой ситуации именно этот ответ давать не следует. Тьюринг ограничивается описанием принципа работы машины, опуская детальное описание её архитектуры [1178] , [1179] .

1178

Gabbay D., Woods J., Thagard P. (2006). Philosophy of Psychology and Cognitive Science. Handbook of the Philosophy of Science. Elsevier Science // https://books.google.ru/books?id=Lp93PtrvM0MC

1179

Turing A. (1948). Intelligent Machinery // http://www.alanturing.net/intelligent_machinery/

Причина, по которой работа Тьюринга не была опубликована, довольно забавна. Можно сказать, что она пала жертвой отбора. Начальник Тьюринга по имени Чарльз Дарвин, внук знаменитого основоположника теории эволюции, отозвался о статье Тьюринга в критическом ключе, заявив, что по своему качеству она ничем не лучше школьного сочинения.

Между тем исследования в области искусственных нейронных сетей продолжались. В 1948 г. Альфонсо Шимбел и Анатоль Рапопорт из Чикагского университета описали семейство статистически организованных сетей. Отталкиваясь от модели Мак-Каллока и Питтса, Шимбел и Рапопорт рассмотрели различные параметры нейрона и его компонентов в качестве случайных величин, имеющих некоторые вероятностные распределения. Из них они вывели общее уравнение для расчёта вероятности того, что нейрон в указанном месте сработает в указанное время [1180] .

1180

Shimbel A., Rapoport A. (1948). A statistical approach to the theory of the central nervous system. The Bulletin of Mathematical Biophysics, 10(1), 41–55 // https://doi.org/10.1007/bf02478329

4.4.3 Исследования нейробиологов

Работа Шимбела и Рапопорта, как и исследования Тьюринга, не получила дальнейшего развития, и инициатива перешла в стан нейропсихологов, а именно к Дональду Хеббу. В книге «Организация поведения: нейропсихологическая теория» (The Organization of Behavior: A Neuropsychological Theory) он сформулировал принцип, который сегодня известен под названием «хеббовское обучение» (Hebbian learning): «Когда аксон клетки A находится достаточно близко, чтобы возбудить клетку B, и многократно или постоянно принимает участие в её срабатывании, в одной или обеих клетках происходит некоторый процесс роста или метаболические изменения таким образом, что эффективность A как одной из клеток, возбуждающих B, растёт». Часто этот принцип афористично формулируют так: «нейроны, которые возбуждаются вместе, связываются вместе» [neurons that fire together, wire together].

После установления таких связей нейроны образуют клеточный ансамбль таким образом, что любое возбуждение хотя бы одного относящегося к нему нейрона приводит в возбуждение весь ансамбль. Сочетание их связей формирует постоянно меняющийся алгоритм, определяющий реакцию мозга на раздражители [1181] .

Хебб не был первым, кто высказал эту идею. Ещё в 1932 г. американский психолог Эдвард Торндайк предположил, что обучение заключается в постепенном усилении проводящих путей между нейронами. В начале века Торндайк изучал поведение кошек при помощи так называемого проблемного ящика [puzzle box]. Помещённое в ящик животное могло освободиться в результате некоторого действия (например, потянув за рычаг или нажав на педаль). Когда кошка выбиралась из ящика, то получала вознаграждение, обычно еду. Поначалу кошки, помещённые в ящик, беспокойно бродили по нему и мяукали, но не знали, как выбраться. В конце концов они случайно наступали на педаль на полу — и дверь открывалась. Чтобы выяснить, могут ли кошки обучаться «вприглядку», Торндайк заставлял

их наблюдать за выбиравшимися из ящика сородичами. Однако эта серия экспериментов завершилась неудачей: кошки упорно не желали учиться. Тогда Торндайк вернулся к методике обучения методом проб и ошибок. Он обнаружил, что после случайного нажатия на педаль кошки начинали в каждом последующем испытании нажимать на неё быстрее. Наблюдая за животными, Торндайк замерял время, потраченное ими на побег из ящика, а затем построил график времени в зависимости от номера эксперимента — он назвал его «кривая обучения» (у психологов принято говорить «кривая научения» [learning curve]). Этот же термин используется сегодня при обучении искусственных нейронных сетей. Оказавшись в ящике, кошки поначалу испытывали трудности, но в итоге схватывали закономерность и выбирались всё быстрее и быстрее в каждом последующем опыте. В результате время сокращалось до некоторой минимальной величины и стабилизировалось на ней. В итоге Торндайк получил S– образные кривые. Позже он повторил те же опыты с другими видами животных и обнаружил, что все они обучаются примерно одинаково, различия наблюдаются только в скорости этого процесса [1182] .

1181

Hebb D. (1949). The Organization of Behavior: A Neuropsychological Theory. A Wiley book in clinical psychology. Wiley // https://books.google.ru/books?id=dZ0eDiLTwuEC

1182

Thorndike E. L., Bruce D. (1970). Animal Intelligence: Experimental Studies. Transaction Publishers // https://books.google.ru/books?id=Go8XozILUJYC

В книге «Основы обучения» (The Fundamentals of Learning, 1930) Торндайк высказывает догадку, развитую позже Хеббом: «…должен быть некоторый физиологический отбор в результате повторения. Это может быть изменение в синапсах, в результате которого многократное прохождение стимула по одному и тому же пути активно увеличивает проводимость за счёт снижения проводимости в других местах. Или это может быть своего рода избирательная интеграция, посредством которой повторяющееся действие более или менее ассоциативной системы в целом по определённому шаблону подавляет тенденцию к действию по другим шаблонам. Или это может быть что-нибудь ещё» [1183] . Это высказывание Торндайка развивает предложенную им ещё в 1911 г. концепцию «закона эффекта»: «Из нескольких реакций на одну и ту же ситуацию те, которые сопровождаются удовлетворением воли животного или за которыми удовлетворение вскоре следует, при прочих равных условиях будут более прочно связаны с ситуацией, так что, когда она [ситуация] повторяется, они [реакции] с большей вероятностью будут повторяться; те же, которые сопровождаются дискомфортом для воли животного или за которыми дискомфорт вскоре следует, при прочих равных обстоятельствах ослабляют свои связи с этой ситуацией, поэтому, когда она повторяется, вероятность их возникновения будет меньше. Чем больше удовлетворение или дискомфорт, тем больше укрепление или ослабление связи» [1184] .

1183

Thorndike E. L. (1932). The Fundamentals Of Learning. Teachers College, Columbia University // https://archive.org/details/in.ernet.dli.2015.157080/page/n29

1184

Thorndike E. L. (1911). Animal intelligence: experimental studies. Animal behavior series. New York, The Macmillan Company // https://doi.org/10.5962/bhl.title.55072

Параллельно с Торндайком исследованием процессов обучения у животных занимался знаменитый российский, а затем советский учёный Иван Павлов, создатель теории условных рефлексов. Среди прочего Павлов и его коллеги исследовали влияние соотношения силы условного и безусловного подкрепления на интенсивность и продолжительность условного рефлекса. Соответствующая закономерность, сформулированная Павловым и его учеником Борисом Бабкиным, получила название «закон относительной силы» [1185] . Исследования Павлова стали источником многих новаторских идей в области физиологии нервной деятельности, однако они были по большей мере сосредоточены в области крупномасштабной структуры и функций — на страницах его работ почти не встречаются рассуждения о процессах, происходящих на клеточном уровне.

1185

Майоров Ф. П. (1948). История учения об условных рефлексах. — М.: Академия Медицинских наук СССР // http://anfiz.ru/books/item/f00/s00/z0000021/index.shtml

Однако там, где Павлов всё-таки спускается на клеточный уровень, его суждения весьма точны и одновременно осторожны: «…связывание импульсов в разных областях мозга путём образования новых нервных связей является первым нервным механизмом, с которым мы столкнулись при изучении физиологии полушарий. Вопрос о месте, где возникает эта новая нервная связь, ещё не получил чёткого ответа. Это происходит исключительно в коре или между корой и подкорковыми областями? <…> В любом случае клетки, преимущественно возбуждённые в данный момент времени, становятся очагами, притягивающими к себе нервные импульсы, возбуждённые импульсами новых стимулов, которые при повторении имеют тенденцию следовать по тому же пути и, таким образом, устанавливать условные рефлексы» [1186] .

1186

Pavlov I. P., Anrep G. V. (1927). Conditioned reflexes: an investigation of the physiological activity of the cerebral cortex. Oxford university press: Humphrey milford // https://books.google.ru/books?id=aGMSyQEACAAJ