Эволюция разума, Курцвейл Рэймонд

Эволюция разума

на обложку

Курцвейл Рэймонд

Шрифт:

Прежде всего, такое же замечание можно сделать и в отношении людей. Я также замечу, что «специфические области знаний» Ватсона включают в себя всю информацию, содержащуюся в «Википедии», а также много других баз данных, что составляет весьма широкий спектр. Ватсон владеет большим объемом человеческих знаний и способен воспринимать различные формы речи, включая каламбуры, шутки и метафоры, относящиеся практически к любой области человеческой деятельности. Он не идеален, но и люди не идеальны, однако он достаточно хорош, чтобы обыгрывать лучших игроков в «Джеопарди!»

Аллен пишет, что Ватсон был собран учеными, объединившими свои специфические знания в узких областях. Но это неправда. Хотя некоторые знания Ватсона были запрограммированы напрямую, значительную часть информации он раздобыл сам, изучая документы на человеческом языке, например «Википедию». В этом заключается его главная сила, а также в его способности понимать сложно сформулированные вопросы викторины «Джеопарди!», но знания свои он получил сам, читая литературу.

Как я уже упоминал выше, многие критики Ватсона сходятся на том, что его функция основана на определении статистической вероятности, а не на «истинном» понимании. Многие понимают это так, что Ватсон просто статистическим образом перебирает последовательности слов. На самом деле

в случае Ватсона под «статистической информацией» подразумеваются коэффициенты распределения и символические связи в таких самоорганизующихся моделях, как иерархические скрытые модели Маркова. Точно так же «статистической информацией» можно назвать распределение концентрации нейромедиаторов и избыточность образов в человеческой новой коре. На самом деле неясные вопросы мы разрешаем во многом тем же способом, что и Ватсон, — путем рассмотрения вероятности различных интерпретаций той или иной фразы.

Аллен продолжает: «Любая структура [мозга] тщательно оттачивалась на протяжении миллионов лет эволюции для выполнения конкретной функции. Он не похож на компьютер, в котором содержатся миллиарды идентичных транзисторных ячеек памяти, контролируемых центральным процессором и некоторыми другими элементами. В мозге каждая отдельная структура и каждая нервная цепочка вырабатывалась под действием эволюции и внешних факторов в индивидуальном порядке».

Идея о том, что каждая структура и каждая нервная цепочка мозга уникальна и создана по отдельному проекту, просто несостоятельна, поскольку означает, что для проектирования мозга понадобились бы сотни триллионов байт информации. Структурный план мозга (а также всех других отделов тела) содержится в геноме, и в самом мозге нет никакой дополнительной структурной информации. Замечу, что эпигенетическая информация (например, пептиды, контролирующие экспрессию генов) лишь немного дополняет объем генетической информации. Объем содержащейся в мозге информации значительно увеличивается в процессе обучения и приобретения опыта, однако то же самое можно сказать и о системах ИИ, таких как Ватсон. В книге «Сингулярность уже близка» я показал, что после обратимого сжатия (за счет массивной избыточности генома) объем структурной информации генома составляет около 50 млн байт, и примерно половина этой информации (то есть около 25 млн байт) относится к мозгу [175] . Это нелегко, но это такой уровень сложности, с которым мы можем работать, и он проще, чем многие современные компьютерные системы. Кроме того, значительная часть из этих 25 млн байт генетической информации касается биологических потребностей нейронов, а не алгоритмов обработки информации.

175

Хотя из-за повторов пар оснований нельзя точно оценить информационное содержимое генома, оно очевидно намного меньше всего объема данных до компрессии. Ниже представлены два способа оценки информационного содержания генома после компрессии. В обоих случаях верхним пределом является значение от 30 до 100 млн байт.

1. Без сжатия генетический код человека содержит 3 млрд оснований ДНК, каждое кодируется двумя битами информации (поскольку в каждой позиции может находиться один из четырех нуклеотидов). Таким образом, до компрессии в геноме человека содержится около 800 млн байт информации. Некодирующую ДНК иногда называют «мусорной» ДНК, однако сейчас уже ясно, что она играет важную роль в экспрессии генов. Но закодирована она очень неэффективно. В частности, имеет место чрезвычайная избыточность информации (например, последовательность «ALU» повторяется сотни тысяч раз), что можно использовать при компрессии.

Ввиду активного расширения объема информации в генетических базах данных существует повышенный интерес к разработке способов сжатия генетических данных. С помощью стандартных алгоритмов компрессии генетические данные удается сжать примерно на 90 % по объему: Hisahiko Sato et al., DNA Data Compression in the Post Genome Era, Genome Informaties 12 (2001): 512–514.

Таким образом, удается сжать геном до объема около 80 млн байт без потери информации (это означает, что на основании этих данных мы прекрасно можем воссоздать исходные 800 млн байт генетической информации).

Теперь учтем, что свыше 98 % генома не кодирует белки. Даже после применения стандартного алгоритма компрессии (в результате чего устраняется избыточность и используется стандартный поиск известных последовательностей) алгоритмическое содержание некодирующих областей оказывается достаточно низким, что означает, что мы можем дополнительно сократить объем текста без потери информации. Однако, поскольку мы все еще находимся в начале пути обратного проектирования генома, мы не можем достаточно надежно оценить последствия дальнейшего сокращения объема на основе функционально эквивалентного алгоритма. Таким образом, мне кажется разумным остановиться на компрессии до 30–100 млн байт. Верхний предел этого диапазона соответствует только компрессии данных, без алгоритмического упрощения.

Только часть (хотя и значительная) этой информации относится к строению головного мозга.

2. Второй способ рассуждений следующий. Поскольку в геноме человека содержится около 3 млрд оснований, лишь небольшая часть отвечает за кодирование белков. По современным оценкам, в геноме человека существует около 26 тыс. генов белков. Если принять, что эти гены в среднем содержат около 3000 оснований полезной информации, получим около 78 млн оснований. Информационное содержание одного основания ДНК составляет только два бита, так что в сумме все эти основания составляют около 20 млн байт информации (78 млн оснований поделить на четыре). В кодирующей белок последовательности гена каждое слово (кодон), состоящее из трех оснований ДНК, транслируется в одну аминокислоту. Таким образом, существует 43 = 64 кодона, состоящих из трех оснований ДНК. Однако в белках присутствует лишь 20 аминокислот плюс стоп-кодон (не кодирующий никакой аминокислоты). Оставшиеся 43 кодона — это синонимы первых 21. Для кодирования 64 возможных комбинаций нуклеотидов нужно 6 бит, а для кодирования 21 комбинации — только 4,4 бита (log221), что позволяет сохранить 1,6 бит из 6 (около 27 %) и приводит нас к общему значению 15 млн байт. Кроме того, возможно произвести стандартную компрессию повторяющихся последовательностей, хотя в кодирующих последовательностях возможностей для сжатия значительно меньше, чем в участках «мусорной» ДНК, отличающейся высокой степенью избыточности. Так мы можем спуститься до значения около 12 млн байт. Однако теперь

мы должны добавить информацию относительно некодирующих участков ДНК, которые контролируют экспрессию генов. Хотя эти последовательности ДНК составляют преобладающую часть генома, их информационное содержание достаточно низкое, а уровень избыточности высокий. Учитывая наличие примерно 12 млн байт информации в кодирующих областях ДНК, вновь возвращаемся к значению около 24 млн байт. Это значительно ниже, чем полученная выше оценка от 30 до 100 млн байт.

Как же на основании лишь десятков миллионов байт структурной информации возникают 100 или 1000 трлн контактов нейронов в мозге? Понятно, что ответ кроется в значительной избыточности мозга. Руководитель исследовательской группы в компании IBM Дхармендра Модха пишет: «Нейроанатомы нашли не безнадежно спутанную, случайную сеть, полностью уникальную для мозга каждого человека, а повторяющиеся структуры внутри каждого мозга и большое сходство между разными видами… Потрясающее природное свойство реконфигурации дает надежду на то, что ключевые алгоритмы процессов в нейронах не зависят от специфической сенсорной или моторной модальности и что многие наблюдаемые вариации структуры коры отражают более тонкую настройку канонических цепей; на самом деле именно эти канонические цепи мы и хотим создать с помощью обратного проектирования» [176] .

176

S. Modha, et al., Communications of the ACM, 2011, Vol. 54 (8): 62–71; http://cacm.acm.org/magazines/2011/8/114944-cognitive-computing/fulltext.

Аллен указывает на неизбежность существования «тормоза, ограничивающего прогресс в понимании человеческого мозга и воспроизведении его возможностей», на основании представлений о том, что каждый из 100 или 1000 трлн контактов в человеческом мозге создан по индивидуальному плану. Тут спутаны представления о том, что есть лес, а что деревья. Если вы хотите изучить, смоделировать, симулировать и воссоздать поджелудочную железу, вам не нужно воссоздавать или симулировать каждую органеллу в каждой клетке островков поджелудочной железы. Вам нужно понять механизм функционирования одной такой клетки и ее участие в контроле уровня инсулина, а затем распространить эти знания на группу аналогичных клеток. Для островковых клеток этот алгоритм абсолютно ясен. Сейчас проходят тестирование искусственные ткани поджелудочной железы, созданные на основе этой функциональной модели. Безусловно, в мозге значительно больше сложности и вариаций, чем в более или менее однородных клетках островков поджелудочной железы, но и здесь имеет место значительная повторяемость функций, как я уже неоднократно подчеркивал.

Критикам, придерживающимся той же точки зрения, что и Аллен, присуще свойство, которое я называю «научным пессимизмом». Исследователи, занимающиеся созданием нового поколения технологии или моделированием нового научного направления, неизбежно сталкиваются с таким огромным набором проблем, что если кто-нибудь скажет им, как будет выглядеть эта технология примерно через десять поколений, у них глаза вылезут на лоб. Один из пионеров в области создания интегральных схем недавно напомнил мне происходившую 30 лет назад борьбу за сокращение размера микросхемы от 10 до 5 микрон (от 10 000 до 5000 нм). Ученые понимали, что смогут решить эту задачу, но если бы кто-то предсказал, что однажды мы будем иметь микросхемы толщиной меньше одного микрона (1000 нм), большинство из ученых, сконцентрированных на своих сиюминутных задачах, подумали бы, что это абсолютно невозможно. Аргументами были хрупкость схем такого размера, тепловые эффекты и т. д. А сегодня Intel использует 22-нм чипы.

Примерно такие же пессимистические комментарии сопровождали и реализацию проекта «Геном человека». Проект длился около 15 лет, за первую половину этого срока был проанализирован лишь 1 % генома, и критики указывали на невозможность повышения скорости секвенирования генома без нарушения тонких генетических структур. Однако благодаря экспоненциальному росту памяти, а также показателя цены — производительности через семь лет проект был завершен. Проект по обратному проектированию человеческого мозга продвигается аналогичным образом. Например, еще совсем недавно мы получили возможность с помощью неинвазивных методов сканирования в реальном времени наблюдать за тем, как образуются и возбуждаются отдельные контакты между нейронами. Многое из того, о чем я рассказывал выше, стало возможно совсем недавно благодаря подобным достижениям.

Аллен описывает мою идею об обратном проектировании человеческого мозга просто как сканирование мозга для понимания его тонкой структуры с последующей симуляцией всего мозга «вверх дном» без детального понимания его методов обработки информации. Но я предлагаю совсем другое. Нам действительно нужно подробно изучить, как работают отдельные типы нейронов, а затем собрать информацию о соединении функциональных модулей. А дальше функциональные методы, выведенные на основе этих данных, будут направлять развитие разумных систем. Грубо говоря, мы ищем биологические методы, способные ускорить исследования в сфере ИИ, которые пока во многом продвигаются без серьезного прорыва в понимании того, как аналогичную функцию выполняет мозг. На основе собственного опыта по распознаванию речи могу сказать, что работа сильно продвинулась, когда мы поняли, как мозг подготавливает и трансформирует звуковую информацию.

Дифференцировка повторяющихся структур мозга реализуется в процессе обучения и приобретения опыта. При сегодняшнем положении дел в сфере ИИ компьютерные системы тоже могут учиться на собственном опыте. Самодвижущиеся машины Google обучаются на своем водительском опыте, а также на данных машин Google, управляемых людьми. Ватсон получил большую часть информации за счет самостоятельного чтения. Интересно отметить, что математические принципы методов, заложенных в основу функционирования систем ИИ, очень близки соответствующим принципам функционирования новой коры.

Еще одно часто высказываемое возражение против возможности создания «сильного» ИИ (искусственного интеллекта на уровне человеческого разума и выше) заключается в том, что человеческий мозг активно использует аналоговые методы, а цифровые методы не могут воспроизводить плавные изменения параметров, доступные для воспроизведения аналоговыми методами. Это верно, что с помощью одного бита информации нельзя описать сложную зависимость, однако многобитные слова легко отражают множество значений, причем с любой степенью точности. Это постоянно происходит в цифровых компьютерах. А вот точность аналоговой информации в мозге (например, синаптический потенциал) составляет лишь один уровень из 256 возможных, которые могут быть представлены 8 битами информации.