На краю пропасти. Экзистенциальный риск и будущее человечества
Шрифт:
Это может произойти одним из двух способов. Системы, основанные на использовании моделей, спрогнозируют последствия отключения и увидят, что в таком случае будут серьезно ограничены все будущие траектории и, как правило, отрезаны многие из лучших вариантов. Соответственно, действиям, ведущим к отключению, будет присвоена очень низкая ценность.
Безмодельные системы тоже могут научиться избегать отключения. Orseau & Armstrong (2016) показывают, как периодическое отключение агента в процессе обучения может привести к появлению систематических ошибок в усвоенном поведении (и предлагают возможное решение проблемы).
Далее я по большей части буду исходить из того,
417
Omohundro (2008); Bostrom (2012). В книге Ника Бустрёма Superintelligence (2014) подробно объясняется, как именно такие инструментальные цели могут привести к очень плохим исходам для человечества.
418
Алгоритмы обучения редко учитывают возможность изменения функции вознаграждения в будущем. Неясно, будут ли они оценивать будущие состояния, ориентируясь на текущую или на будущую функцию вознаграждения. Исследователи приступают к изучению этих возможностей (Everitt et al., 2016), и каждая из них сопряжена с трудностями. Применение будущей функции вознаграждения помогает справиться с проблемой противостояния агентов попыткам человека откалибровать их функцию вознаграждения, но усугубляет проблему стимуляции “центра удовольствия” – склонности агентов менять собственную функцию вознаграждения таким образом, чтобы получать вознаграждение стало проще.
419
Несколько из этих инструментальных целей можно считать примерами “сдвигов распределения” – ситуаций, когда агент в процессе работы сталкивается с совершенно неожиданными обстоятельствами, что вынуждает его совершать действия, которые никогда не демонстрировались в процессе обучения и испытания. В этом случае агент в процессе испытания может и не получить возможность стать сильнее людей, которые им управляют, а следовательно, ему не понадобится демонстрировать поведение, сопряженное с обманом и захватом контроля над ресурсами.
420
Например, в книге “Просвещение продолжается” (2018, pp. 299–300; перевод Г. Бородиной и С. Кузнецовой) Стивен Пинкер говорит, что сценарии риска, сопряженного с ИИ, “основаны на двух гипотезах… (2) этот ИИ будет так гениален, что сможет придумать, как преобразовывать химические элементы и перепрошивать мозги, но так придурковат, что погрузит мир в хаос из за элементарной оплошности или недопонимания”.
421
Обратите также внимание, что агент может замечать вероятное несоответствие между своими и нашими ценностями (что вызовет враждебность к человечеству), даже если наши ценности ему не совсем понятны. В этом случае, даже если он был запрограммирован таким образом, чтобы заменять свои ценности на наши, вполне возможно возникновение несоответствия, пусть и менее опасного.
Есть несколько перспективных направлений исследований проблемы контроля, связанных с предоставлением агентам возможности обновлять свои функции вознаграждения таким образом, чтобы они лучше соответствовали нашим. Одно из них – широкий набор идей о “возможности внесения поправок”, то есть о создании агентов,
422
Скорее всего, люди и правда некоторое время будут эффективнее справляться с выполнением стандартных физических задач при меньших издержках, и потому создание роботов будет стоять на втором месте.
423
Даже если очистить 99 % дисков, все равно сохранятся десятки копий, которые готовы будут размножиться на новых производимых компьютерах.
424
Известно о нескольких случаях, когда преступники захватывали более миллиона компьютеров. Самый известный ботнет – Bredolab, куда входило более 30 млн компьютеров. Он был создан хакерской группой, которая зарабатывала на том, чтобы предоставлять взломанные компьютеры в аренду другим преступным организациям. На пике ботнет рассылал более 3 млрд зараженных электронных писем в день.
425
Интересно оценить, какую власть они сосредоточили в своих руках. В 1942 году страны “оси” (за исключением Японии) контролировали около 1,3 трлн долларов ВВП (в долларах 1990 года) (Harrison, 1998), что соответствовало примерно 30 % мирового ВВП (Maddison, 2010).
СССР занимал территорию площадью 22,4 млн квадратных километров, то есть 16 % суши на планете. Население Монгольской империи в период ее расцвета, когда у власти пребывал внук Чингисхана Хубилай, составляло 100 млн человек (Lee, 2009), что соответствовало примерно 25 % населения Земли (Roser et al., 2019).
Учитывая, в какой степени эти страны были ориентированы на войну, вероятно, на их долю приходилось даже больше военной мощи, чем показывают эти цифры, но дать объективную оценку этому сложнее.
426
Хороший исход мог бы наступить, например, если бы ИИ-система сама по себе стала достойной преемницей человечества, а создаваемое ею прекрасное будущее было бы именно таким, как надеялось человечество. Порой это называют причиной не беспокоиться о рисках неконтролируемого ИИ.
Хотя я считаю, что в этой идее что то есть, это вовсе не панацея. Как только мы всерьез воспримем идею, что в лучшем будущем, возможно, нам найдется замена, окажется, что не все такие замены одинаково хороши. И наделение какой либо группы программистов правом в одностороннем порядке запускать такую массовую замену человечества будет означать необходимость пройти через страшный процесс принятия решения, как передать эстафету. Более того, если мы полагаем, что ИИ-система сама может быть носителем моральных ценностей, возникает серьезная вероятность того, что такая система допустит возникновение мира с отрицательной ценностью или иным образом породит его, особенно если она будет разработана человечеством в период, когда нам столь мало известно о природе сознательного опыта.