Чтение онлайн

на главную - закладки

Жанры

На краю пропасти. Экзистенциальный риск и будущее человечества
Шрифт:

Это может произойти одним из двух способов. Системы, основанные на использовании моделей, спрогнозируют последствия отключения и увидят, что в таком случае будут серьезно ограничены все будущие траектории и, как правило, отрезаны многие из лучших вариантов. Соответственно, действиям, ведущим к отключению, будет присвоена очень низкая ценность.

Безмодельные системы тоже могут научиться избегать отключения. Orseau & Armstrong (2016) показывают, как периодическое отключение агента в процессе обучения может привести к появлению систематических ошибок в усвоенном поведении (и предлагают возможное решение проблемы).

Далее я по большей части буду исходить из того,

что продвинутый ИИ основан на использовании моделей. Или хотя бы способен применять свои фоновые знания о мире, чтобы с первой попытки успешно справляться со сложными и комплексными задачами, вместо того чтобы всегда сначала делать многие тысячи неудачных попыток, нащупывая путь к успеху. Хотя на момент написания этой книги такие системы еще не созданы, это совместимо с текущей парадигмой и является условием для того, чтобы признать систему общим ИИ. Нет необходимости считать, что такая система справляется с задачами с первого раза лучше, чем человек.

417

Omohundro (2008); Bostrom (2012). В книге Ника Бустрёма Superintelligence (2014) подробно объясняется, как именно такие инструментальные цели могут привести к очень плохим исходам для человечества.

418

Алгоритмы обучения редко учитывают возможность изменения функции вознаграждения в будущем. Неясно, будут ли они оценивать будущие состояния, ориентируясь на текущую или на будущую функцию вознаграждения. Исследователи приступают к изучению этих возможностей (Everitt et al., 2016), и каждая из них сопряжена с трудностями. Применение будущей функции вознаграждения помогает справиться с проблемой противостояния агентов попыткам человека откалибровать их функцию вознаграждения, но усугубляет проблему стимуляции “центра удовольствия” – склонности агентов менять собственную функцию вознаграждения таким образом, чтобы получать вознаграждение стало проще.

419

Несколько из этих инструментальных целей можно считать примерами “сдвигов распределения” – ситуаций, когда агент в процессе работы сталкивается с совершенно неожиданными обстоятельствами, что вынуждает его совершать действия, которые никогда не демонстрировались в процессе обучения и испытания. В этом случае агент в процессе испытания может и не получить возможность стать сильнее людей, которые им управляют, а следовательно, ему не понадобится демонстрировать поведение, сопряженное с обманом и захватом контроля над ресурсами.

420

Например, в книге “Просвещение продолжается” (2018, pp. 299–300; перевод Г. Бородиной и С. Кузнецовой) Стивен Пинкер говорит, что сценарии риска, сопряженного с ИИ, “основаны на двух гипотезах… (2) этот ИИ будет так гениален, что сможет придумать, как преобразовывать химические элементы и перепрошивать мозги, но так придурковат, что погрузит мир в хаос из за элементарной оплошности или недопонимания”.

421

Обратите также внимание, что агент может замечать вероятное несоответствие между своими и нашими ценностями (что вызовет враждебность к человечеству), даже если наши ценности ему не совсем понятны. В этом случае, даже если он был запрограммирован таким образом, чтобы заменять свои ценности на наши, вполне возможно возникновение несоответствия, пусть и менее опасного.

Есть несколько перспективных направлений исследований проблемы контроля, связанных с предоставлением агентам возможности обновлять свои функции вознаграждения таким образом, чтобы они лучше соответствовали нашим. Одно из них – широкий набор идей о “возможности внесения поправок”, то есть о создании агентов,

которые не противятся изменению их целей. Другое – основанный на неопределенности подход к обучению с вознаграждением, в рамках которого агент действует не так, словно уверен в своей трактовке человеческих ценностей, а так, словно пребывает в состоянии моральной неопределенности, а степень его уверенности в различных человеческих ценностях зависит от данных, полученных к настоящему моменту (Russell, 2019). Это подталкивает агента считаться с людьми (которые лучше понимают собственные ценности) и просить совета при необходимости. Поскольку я сам занимаюсь философскими вопросами, связанными с моральной неопределенностью, я нахожу этот подход особенно перспективным (MacAskill & Ord, 2018; MacAskill, Bykvist & Ord, готовится к публикации). Чтобы все сделать правильно, потребуется и дальше изучать этот раздел философии.

422

Скорее всего, люди и правда некоторое время будут эффективнее справляться с выполнением стандартных физических задач при меньших издержках, и потому создание роботов будет стоять на втором месте.

423

Даже если очистить 99 % дисков, все равно сохранятся десятки копий, которые готовы будут размножиться на новых производимых компьютерах.

424

Известно о нескольких случаях, когда преступники захватывали более миллиона компьютеров. Самый известный ботнет – Bredolab, куда входило более 30 млн компьютеров. Он был создан хакерской группой, которая зарабатывала на том, чтобы предоставлять взломанные компьютеры в аренду другим преступным организациям. На пике ботнет рассылал более 3 млрд зараженных электронных писем в день.

425

Интересно оценить, какую власть они сосредоточили в своих руках. В 1942 году страны “оси” (за исключением Японии) контролировали около 1,3 трлн долларов ВВП (в долларах 1990 года) (Harrison, 1998), что соответствовало примерно 30 % мирового ВВП (Maddison, 2010).

СССР занимал территорию площадью 22,4 млн квадратных километров, то есть 16 % суши на планете. Население Монгольской империи в период ее расцвета, когда у власти пребывал внук Чингисхана Хубилай, составляло 100 млн человек (Lee, 2009), что соответствовало примерно 25 % населения Земли (Roser et al., 2019).

Учитывая, в какой степени эти страны были ориентированы на войну, вероятно, на их долю приходилось даже больше военной мощи, чем показывают эти цифры, но дать объективную оценку этому сложнее.

426

Хороший исход мог бы наступить, например, если бы ИИ-система сама по себе стала достойной преемницей человечества, а создаваемое ею прекрасное будущее было бы именно таким, как надеялось человечество. Порой это называют причиной не беспокоиться о рисках неконтролируемого ИИ.

Хотя я считаю, что в этой идее что то есть, это вовсе не панацея. Как только мы всерьез воспримем идею, что в лучшем будущем, возможно, нам найдется замена, окажется, что не все такие замены одинаково хороши. И наделение какой либо группы программистов правом в одностороннем порядке запускать такую массовую замену человечества будет означать необходимость пройти через страшный процесс принятия решения, как передать эстафету. Более того, если мы полагаем, что ИИ-система сама может быть носителем моральных ценностей, возникает серьезная вероятность того, что такая система допустит возникновение мира с отрицательной ценностью или иным образом породит его, особенно если она будет разработана человечеством в период, когда нам столь мало известно о природе сознательного опыта.

Поделиться:
Популярные книги

Кодекс Крови. Книга ХIII

Борзых М.
13. РОС: Кодекс Крови
Фантастика:
попаданцы
аниме
фэнтези
5.00
рейтинг книги
Кодекс Крови. Книга ХIII

Игра престолов

Мартин Джордж Р.Р.
Фантастика:
фэнтези
5.00
рейтинг книги
Игра престолов

История "не"мощной графини

Зимина Юлия
1. Истории неунывающих попаданок
Фантастика:
попаданцы
фэнтези
5.00
рейтинг книги
История немощной графини

Вперед в прошлое 3

Ратманов Денис
3. Вперёд в прошлое
Фантастика:
попаданцы
альтернативная история
5.00
рейтинг книги
Вперед в прошлое 3

На Ларэде

Кронос Александр
3. Лэрн
Фантастика:
фэнтези
героическая фантастика
стимпанк
5.00
рейтинг книги
На Ларэде

Неудержимый. Книга XV

Боярский Андрей
15. Неудержимый
Фантастика:
фэнтези
попаданцы
аниме
5.00
рейтинг книги
Неудержимый. Книга XV

Кротовский, не начинайте

Парсиев Дмитрий
2. РОС: Изнанка Империи
Фантастика:
городское фэнтези
попаданцы
альтернативная история
5.00
рейтинг книги
Кротовский, не начинайте

Двойник Короля 5

Скабер Артемий
5. Двойник Короля
Фантастика:
фэнтези
попаданцы
аниме
5.00
рейтинг книги
Двойник Короля 5

Развод с генералом драконов

Солт Елена
Фантастика:
фэнтези
5.00
рейтинг книги
Развод с генералом драконов

Звездная Кровь. Изгой

Елисеев Алексей Станиславович
1. Звездная Кровь. Изгой
Фантастика:
боевая фантастика
попаданцы
рпг
5.00
рейтинг книги
Звездная Кровь. Изгой

Шайтан Иван

Тен Эдуард
1. Шайтан Иван
Фантастика:
боевая фантастика
попаданцы
альтернативная история
5.00
рейтинг книги
Шайтан Иван

Найдёныш. Книга 2

Гуминский Валерий Михайлович
Найденыш
Фантастика:
альтернативная история
4.25
рейтинг книги
Найдёныш. Книга 2

Инкарнатор

Прокофьев Роман Юрьевич
1. Стеллар
Фантастика:
боевая фантастика
рпг
7.30
рейтинг книги
Инкарнатор

Кодекс Охотника. Книга VII

Винокуров Юрий
7. Кодекс Охотника
Фантастика:
фэнтези
попаданцы
аниме
4.75
рейтинг книги
Кодекс Охотника. Книга VII