На краю пропасти. Экзистенциальный риск и будущее человечества, Орд Тоби

На краю пропасти. Экзистенциальный риск и будущее человечества

на обложку

Орд Тоби

Шрифт:

Итак, в ближайшем будущем любая попытка откалибровать ИИ-агент в соответствии с человеческими ценностями позволит нам создать лишь несовершенную копию нашего разума. В функции вознаграждения такого агента будет недоставать важных аспектов того, что нас заботит. При определенных обстоятельствах не совсем верная калибровка агента будет практически безвредной. Но чем умнее ИИ-системы, тем больше у них возможностей менять мир и тем сильнее рассинхронизация. Философия и литература часто предлагают представить себе общества, которые выстроены с учетом важных для нас принципов, но при этом пренебрегают крайне значимыми ценностями или неправильно понимают их. Глядя на результат, мы видим, что подобные неконтролируемые утопии могут привести к катастрофе: пустоте и выхолощенности, как в романе “О дивный новый мир”, или несамостоятельности и бессилию

общества из “Со сложенными руками”[414]. Если мы так и не научимся контролировать своих агентов, они будут создавать и поддерживать именно такие миры[415].

И даже это, по сути, хороший расклад. Он предполагает, что создатели системы стараются откалибровать ее с учетом человеческих ценностей. Но стоит ожидать, что найдутся разработчики, которые предпочтут создавать системы, чтобы достигать других целей, например чтобы побеждать в войнах и максимизировать прибыли, при этом мало заботясь об этических ограничениях. И такие системы, возможно, окажутся гораздо более опасными.

Естественным ответом на эти опасения может служить отключение ИИ-систем в момент, когда мы замечаем, что они ведут нас не туда. Но в конце концов даже этот проверенный временем прием может нас подвести, ведь у нас есть все основания полагать, что достаточно умная система станет сопротивляться нашим попыткам ее отключить. И руководствоваться она будет не эмоциональными реакциями вроде страха, негодования и инстинкта самосохранения, а исключительно своей непререкаемой установкой максимизировать вознаграждение: отключение – это своего рода выход из строя, который осложняет получение большого вознаграждения, а потому система настроена так, чтобы его не допускать[416]. Таким образом, для высокоинтеллектуальных систем, главная цель которых – максимизация вознаграждения, инструментальной целью станет выживание.

У них появятся и другие инструментальные цели[417]. Интеллектуальный агент будет также сопротивляться попыткам изменить его функцию вознаграждения, откалибровав ее в соответствии с человеческими ценностями, поскольку сможет спрогнозировать, что в результате это приведет к уменьшению ожидаемого вознаграждения[418]. Агент будет стремиться к получению дополнительных ресурсов – вычислительных, физических, человеческих, – которые позволят ему эффективнее менять среду, чтобы получать более крупное вознаграждение. В конце концов у него появится и стимул забрать у человечества контроль над будущим, поскольку это поможет ему в достижении всех перечисленных инструментальных целей: он получит доступ к огромным ресурсам, не допустив ни отключения, ни изменения своей функции вознаграждения. Поскольку люди предсказуемо захотят скорректировать инструментальные цели агента, это будет мотивировать его к тому, чтобы скрывать эти цели, пока не станет слишком поздно оказывать ему значимое сопротивление[419].

Скептики порой отмечают, что описанное выше возможно лишь в том случае, если будет создана ИИ-система, которая окажется достаточно умна, чтобы захватить контроль над миром, но слишком глупа, чтобы понять, что мы этого не хотим[420]. Но это неверная трактовка сценария. На самом деле при таком раскладе система прекрасно понимает, что ее цели не совпадают с нашими, и именно это подталкивает ее к обману, конфликту и захвату власти. Истинная проблема в том, что исследователи ИИ пока не знают, как создать систему, которая, заметив это несоответствие, обновляет свою систему ценностей, приближая ее к нашей, а не корректирует свои инструментальные цели, чтобы одержать над нами верх[421].

Возможно, найдется способ решить перечисленные проблемы, или найти новые подходы к контролю над ИИ, чтобы снять сразу много вопросов, или переключиться на новые парадигмы создания ОИИ, в рамках которых этих проблем не возникает. Я, безусловно, надеюсь на это и внимательно слежу за прогрессом в этой сфере. Но прогресс пока невелик, и остается немало серьезных нерешенных проблем. При сохранении текущей парадигмы достаточно интеллектуальные агенты в итоге приобретут инструментальные цели, чтобы обмануть и пересилить нас. И если их интеллект будет в значительной степени превосходить наш собственный, не стоит ожидать, что человечество сумеет победить в этой борьбе и сохранить

контроль над своим будущим.

Каким образом ИИ-система могла бы захватить власть? Распространено серьезное заблуждение (подпитываемое Голливудом и прессой), что в таком деле не обойтись без роботов. В конце концов, как иначе ИИ сможет действовать в физическом мире? В отсутствие роботизированных манипуляторов система может производить лишь слова, изображения и звуки. Но достаточно немного поразмыслить, чтобы понять, что именно это и нужно для захвата власти. Самыми опасными в истории людьми были вовсе не самые сильные. Гитлер, Сталин и Чингисхан установили абсолютный контроль над огромными территориями, словами убеждая миллионы других людей добиваться побед в необходимых физических столкновениях. Если ИИ-система сможет соблазнять или принуждать людей выполнять физическую работу, роботы ей вовсе не понадобятся[422].

Нельзя сказать, как именно система может захватить контроль. В самых реалистичных сценариях, вероятно, будут фигурировать неочевидные и нехарактерные для человека действия, которые нам не под силу ни предсказать, ни в полной мере осознать. И эти действия могут быть направлены на слабые места нашей цивилизации, которых мы пока не замечаем. Полезно, однако, обратиться к наглядному примеру, чтобы увидеть, где проходит нижняя граница возможного.

Сначала ИИ-система может получить доступ к интернету и спрятать тысячи своих резервных копий в незащищенных компьютерных системах по всему миру, чтобы в случае отказа оригинала эти копии готовы были продолжить работу. Уже к этому моменту уничтожить ИИ станет практически невозможно: только подумайте, какие возникнут политические препятствия, если попытаться очистить все имеющиеся в мире жесткие диски, где могут храниться резервные копии[423].

Затем она сформирует огромный “ботнет” из миллионов незащищенных систем, подключенных к интернету. Это позволит ей значительно повысить свою вычислительную мощность и создать платформу для расширения контроля. Далее она может получить доступ к финансовым ресурсам (взломав банковские аккаунты на этих компьютерах) и человеческим ресурсам (используя шантаж и пропаганду для воздействия на восприимчивых людей или просто оплачивая их услуги украденными деньгами). Таким образом система станет столь же влиятельной, как хорошо обеспеченное преступное подполье, но уничтожить ее будет гораздо сложнее. Ни один из перечисленных шагов не предполагает ничего непостижимого: хакерам и преступникам с интеллектом человеческого уровня уже удавалось провернуть такое, всего лишь используя интернет[424].

Наконец, системе нужно будет получить еще больше власти. Здесь мы уходим в сферу предположений, но правдоподобных вариантов развития событий немало: она может захватить большинство компьютеров в мире и создать миллионы или миллиарды своих взаимодействующих копий; использовать украденную вычислительную мощность, чтобы повысить уровень собственного интеллекта и оставить человека далеко позади; применить свои интеллектуальные способности для разработки новых технологий вооружения и экономических технологий; манипулировать лидерами ведущих мировых держав (шантажируя их или суля им больше власти в будущем); а также заставить подконтрольных ей людей применять оружия массового уничтожения, чтобы покалечить все остальное человечество.

Разумеется, ни одна из существующих ИИ-систем не способна на такое. Но мы пытаемся понять, существуют ли правдоподобные сценарии, в которых контроль захватывает высокоинтеллектуальная система ОИИ. И похоже, что да, существуют. В истории уже были случаи, когда люди, обладающие интеллектом человеческого уровня (Гитлер, Сталин, Чингисхан), сосредотачивали в своих руках не только власть отдельного человека, но и значительную часть мировой власти, поскольку без этого они не могли достичь своих целей[425]. Человечество за время своего существования превратилось из немногочисленного вида, в котором было менее миллиона особей, в вид, способный самостоятельно определять собственное будущее. Нам следует полагать, что такое может произойти и с новыми сущностями, гораздо более интеллектуальными, чем мы сами, особенно если они, по сути, бессмертны, поскольку имеют резервные копии и обладают способностью производить новые копии, пуская на это захваченные деньги и компьютеры.