Охота на электроовец. Большая книга искусственного интеллекта
Шрифт:
Хотя нейросетевые модели наших дней, лежащие в основе новой коннекционистской весны, лишь отдалённо похожи на сети, построенные при помощи МГУА, но именно данный метод в некоторой степени стал поворотным пунктом в коннекционистских исследованиях. Исследователи в полной мере осознали, что обучение глубоких нейронных сетей в принципе возможно и что именно их использование может обеспечить прорывные результаты в решении тех или иных задач машинного обучения.
5.2.2 Исследования Румельхарта
Рост интереса к многослойным нейронным сетям в 1980-е гг. был во многом связан с работами Дэвида Румельхарта. Что примечательно, Румельхарт был психологом, так же как Хебб и Розенблатт, а если точнее, то математическим психологом. Он изучал математическую психологию в Стэнфордском университете и получил степень доктора философии в 1967 г.
Румельхарт разработал множество моделей, объясняющих различные аспекты человеческого познания, начиная от двигательного контроля и понимания текста и заканчивая зрительным распознаванием букв, пониманием метафор и аналогий [1352] . В 1975 г. он работал над исследованиями в области познания в составе исследовательской группы Калифорнийского университета в Сан-Диего (University of California, San Diego, далее UCSD), получившей название LNR —
1352
David E. Rumelhart: A Scientific Biography / The David E. Rumelhart Prize For Contributions to the Theoretical Foundations of Human Cognition // https://web.archive.org/web/20131030220027/http://rumelhartprize.org/?page_id=10
1353
Klahr D. (2014). Cognition and Instruction. Carnegie Mellon Symposia on Cognition Series. Psychology Press // https://books.google.ru/books?id=GmWYAgAAQBAJ
Обобщавшая результаты группы книга «Исследования в области познания» (Explorations in Cognition, 1975) содержала предложение о создании новой области — «когнитивной науки» (когнитивистики) [cognitive science] — за счёт совместных усилий специалистов из области искусственного интеллекта, лингвистики и психологии [1354] . Этот же термин появился в том же году и в заголовке книги [1355] , написанной информатиком Дэниелом Боброу и психологом Алланом Коллинзом. Идея довольно быстро завоевала популярность, и в ряде университетов при поддержке фонда Альфреда Слоуна были созданы соответствующие междисциплинарные центры.
1354
Frankish K., Ramsey W. (2012). The Cambridge Handbook of Cognitive Science. Cambridge University Press // https://books.google.ru/books?id=JjEzjrZ6ZG4C
1355
Bobrow D. G., Collins A. F. (1975). Representation and Understanding: Studies in Cognitive Science. Academic Press, Inc // https://dl.acm.org/doi/book/10.5555/1102011
Когнитивная наука — это междисциплинарное научное исследование психики и психических процессов. Она изучает природу, задачи и функции познания (в широком смысле этого слова). Когнитивисты изучают интеллект и поведение, уделяя особое внимание тому, каким образом нервная система представляет, обрабатывает и изменяет информацию. Психические явления (феномены), находящиеся в центре внимания когнитивистики, включают в себя язык, восприятие, память, внимание, рассуждение и эмоции [1356] , [1357] .
1356
Thagard P., Zalta E. N. (2008). Cognitive Science / The Stanford Encyclopedia of Philosophy // https://plato.stanford.edu/archives/fall2008/entries/cognitive-science/
1357
Willingham D. T. (2002). Ask the Cognitive Scientist. Allocating Student Study Time: “Massed” versus “Distributed” Practice / American Federation of Teachers // https://www.aft.org/periodical/american-educator/summer-2002/ask-cognitive-scientist
Хотя сам термин «когнитивная наука» появился только в 1970-е, многие исследователи придерживаются мнения, что эта дисциплина сформировалась значительно раньше. Например, Джордж Миллер считал днём рождения когнитивистики 11 сентября 1956 г. — второй день симпозиума Специальной группы по теории информации (Special Interest Group in Information Theory). В начале 2000-х Миллер вспоминал: «Я покинул симпозиум с убеждением, скорее интуитивным, чем рациональным, что экспериментальная психология, теоретическая лингвистика и компьютерное моделирование когнитивных процессов являются частями единого целого и что будущее покажет постепенную координацию и развитие их общих целей» [1358] .
1358
Miller G. A. (2003). The cognitive revolution: a historical perspective / TRENDS in Cognitive Sciences, Vol. 7, No.3, March 2003 // https://www.cs.princeton.edu/~rit/geo/Miller.pdf
Одним из поворотных моментов в процессе возвращения интереса к нейронным сетям стала небольшая конференция, организованная Румельхартом и Норманом в 1979 г. По их приглашению в UCSD собрались нейробиологи, когнитивные психологи, исследователи искусственного интеллекта, математики и инженеры-электронщики [1359] . Двое из приглашённых соорганизаторов конференции — информатик Джеффри Хинтон и психолог Джеймс Андерсон — выпустили по итогам конференции книгу «Параллельные модели ассоциативной памяти» (Parallel Models of Associative Memory, 1981) [1360] , заметно повлиявшую на отношение к нейронным сетям в научном сообществе.
1359
Frankish K., Ramsey W. (2012). The Cambridge Handbook of Cognitive Science. Cambridge University Press // https://books.google.ru/books?id=JjEzjrZ6ZG4C
1360
Hinton G. E., Anderson J. A. (1981). Parallel Models of Associative Memory. Erlbaum // https://books.google.ru/books/about/Parallel_Models_of_Associative_Memory.html?id=rZ99AAAAMAAJ
В своей книге Хинтон и Андерсон показывают, как такой психологический феномен, как человеческая память, основанная на ассоциациях, может быть результатом работы нейросетевых моделей. В предисловии, написанном Румельхартом и Норманом, указываются три причины, по которым приведённые в книге модели человеческой памяти отличаются от описанных ранее.
Первая состоит в том, что новые модели построены на основе данных нейрофизиологии.
Вторая заключается в том, что предложенные Хинтоном и Андерсоном модели представляют собой альтернативу теориям, использующим для объяснения механизмов хранения и поиска в памяти «пространственные метафоры». Дело в том, что под влиянием
1361
Fernandino L., Tong J.-Q., Conant L. L., Humphries C. J., Binder J. R. (2022). Decoding the information structure underlying the neural representation of concepts / PNAS, Vol. 119, Iss. 6 // https://doi.org/10.1073/pnas.2108091119
И наконец, третья причина заключается в том, что предлагаемые модели работают без необходимости назначать центрального исполнителя или координатора обработки [1362] , то есть в мозге отсутствует аналог центрального процессора компьютера и каждый нейрон выполняет обработку сигналов параллельно с другими нейронами. В некотором смысле работа Хинтона и Андерсона стала бунтом против подходов, составлявших главное направление в когнитивной психологии.
В 1982 г. была создана наследница группы LNR — группа PDP (Parallel distributed processing, Параллельная распределённая обработка). Помимо Румельхарта, в неё вошли доцент UCSD Джеймс Макклелланд, вышеупомянутый Хинтон, биолог Терренс Сейновски, когнитивист Пол Смоленский и психолингвист Джеффри Элман. В работе группы также принимал участие молодой аспирант Румельхарта и Нормана Майкл Джордан, будущий научный руководитель Эндрю Ына. Спустя четверть века, в 2016 г., журнал Science признает Джордана самым влиятельным в мире исследователем в области информатики, а, намекая в своём каламбуре на знаменитого баскетбольного тёзку и однофамильца Джордана, колумнист Science назовёт последнего «Майклом Джорданом от информатики» [1363] .
1362
Quinlan P. T. (1987) Theoretical notes on “Parallel models of associative memory” / Cognitive Neuropsychology, Vol. 4, Iss. 3, pp. 333—364 // https://doi.org/10.1080/02643298708252043
1363
Bohannon J. (2016). Who’s the Michael Jordan of computer science? New tool ranks researchers' influence / Science, Apr. 20, 2016 // https://www.sciencemag.org/news/2016/04/who-s-michael-jordan-computer-science-new-tool-ranks-researchers-influence
Отправной точкой исследований группы стал тот факт, что в основе работы мозга лежат массовые параллельные вычисления, производимые сетями взаимосвязанных нейронов, что радикальным образом отличается от последовательных вычислений, лежащих в основе большинства методов, предложенных в рамках символьного подхода. Как позже отмечал Румельхарт: «Общей темой всех этих усилий был интерес к изучению мозга как модели параллельного вычислительного устройства, сильно отличающегося от традиционного последовательного компьютера» [1364] .
1364
Rumelhart D. E. (1990). Brain Style Computation: Learning and Generalization / Zornetzer S. E., Davis J. L., Lau C. (1990). An Introduction to Neural and Electronic Networks. San Diego: Academic Press // https://books.google.ru/books?id=6ZNQAAAAMAAJ
Ранние исследования группы PDP заложили будущий фундамент дисциплины, известной сегодня под названием «глубокое обучение». Далее по тексту книги мы будем не раз возвращаться к различным исследованиям учёных, входивших в эту группу, результатами которых стало формирование современной науки в области искусственных нейронных сетей.
Забавно, что Румельхарт, по всей видимости, обладал в начале своей работы над перцептронами довольно поверхностными сведениями об исследованиях Розенблатта. В первой половине 1980-х гг. в учебной литературе, скорее всего во многом под влиянием работ Минского и Пейперта, утвердилось мнение о перцептроне как о тупиковой ветви развития, модели, представляющей разве что исторический интерес. Идеи Розенблатта тиражировались в крайне упрощённом виде, что создавало у учёных нового поколения впечатление о примитивности и ограниченности его модели. Строго говоря, практически все разновидности перцептрона, рассматривавшиеся Розенблаттом с 1958 г., являются по современной классификации многослойными. Однако в практических работах Розенблатт использовал в основном перцептрон, состоящий из трёх слоёв нейронов (и двух слоёв синаптических связей), причём веса первого слоя, как мы уже упоминали ранее, были равны 1 или –1 и устанавливались вручную. Выставление этих весов могло осуществляться по определённой, заданной исследователем закономерности или же случайным образом. Обычно (за исключением отдельных случаев) набор весов первого слоя определяет такое гиперпространство, в котором задача становится линейно разделимой, в результате чего гарантируется сходимость процесса обучения [1365] . Однако многие исследователи упустили из вида наличие такого настраиваемого слоя в перцептроне Розенблатта, поэтому считали, что Розенблатт изучал только однослойные перцептроны. К их числу относился, по всей видимости, и Румельхарт.
1365
Сергей (tac). (2012). Какова роль первого «случайного» слоя в перцептроне Розенблатта / Хабр, 21 марта // https://habr.com/ru/post/140387/