Охота на электроовец. Большая книга искусственного интеллекта, Марков Сергей Николаевич

Охота на электроовец. Большая книга искусственного интеллекта

на обложку

Марков Сергей Николаевич

Шрифт:

Например, изображения, приведённые ниже, демонстрируют, что перестановка глаза и рта на фотографии Ким Кардашьян приводит к повышению уверенности сети в том, что на фотографии изображён человек, в то время как переворот фотографии на 180 градусов, напротив, снижает степень уверенности модели [3315] .

Рис. 183. Пример классификации сетью обычных и искажённых фотографий Ким Кардашьян

3315

Bourdakos N. (2017). Capsule Networks Are Shaking up AI — Here’s How to Use Them / Hackernoon, November 9th 2017 // https://hackernoon.com/capsule-networks-are-shaking-up-ai-heres-how-to-use-them-c233a0971952

По мнению Джеффри Хинтона и его коллег [3316] , проблема заключается в том, что в данной свёрточной сети используются слои пулинга, которые теряют информацию о пространственном расположении признаков относительно друг друга. Пример же с переворотом изображения свидетельствует о недостаточной устойчивости свёрточных сетей к аффинным преобразованиям (т. е. к таким, которые являются взаимно однозначными и любую прямую переводят в прямую) входных данных. Последнюю проблему традиционно решают при помощи аугментации обучающих выборок (в них добавляют исходные изображения, подвергнутые различным аффинным трансформациям — сдвигам, поворотам и масштабированию и т. д.), однако Хинтон предлагает собственное решение проблемы — новый класс нейросетевых архитектур под названием «капсульные

сети» [capsule networks]. Капсульные сети, по мнению Хинтона, куда более соответствуют своим биологическим прототипам — колонкам коры полушарий головного мозга. Пока что капсульные сети ещё не завоевали себе достойного места в мире нейросетевых моделей (главным образом в силу их большей вычислительной стоимости), однако, повторимся, никто не исключает, что на смену популярным в наши дни нейросетевым архитектурам придут новые, возможно радикально отличающиеся от популярных в наши дни.

3316

Sabour S., Frosst N., Hinton G. E. (2017). Dynamic Routing Between Capsules // https://arxiv.org/abs/1710.09829

В последние годы в области компьютерного зрения свёрточные сети испытывают сильную конкуренцию со стороны трансформеров и даже таких причудливых, на первый взгляд, моделей, как MLP-Mixer [3317] , её более «зелёной» версии HyperMixer, позволяющей снизить вычислительные затраты при достижении сопоставимых результатов, и gMLP [3318] , построенных из специальным образом соединённых полносвязных блоков.

Ещё одна возможная альтернатива свёрточным сетям — так называемые инволюционные нейронные сети (Involutional Neural Networks). В их основе лежит модифицированная операция свёртки, в которой ядро больше не является неизменным в пределах слоя. Вместо этого коэффициенты ядра являются функцией от входного значения из предыдущего слоя, приходящегося на центр области свёртки. Фактически инволюционная сеть в процессе обучения сама определяет, насколько важна взаимная локализация более «низкоуровневых» признаков для того, чтобы сделать вывод о наличии более «высокоуровневого» признака. В некоторой степени это объединяет идеи, лежащие в основе свёрточной сети и механизма внимания. Первые эксперименты с инволюционными сетями показывают весьма обнадёживающие результаты [3319] .

3317

Tolstikhin I., Houlsby N., Kolesnikov A., Beyer L., Zhai X., Unterthiner T., Yung J., Steiner A., Keysers D., Uszkoreit J., Lucic M., Dosovitskiy A. (2021). MLP-Mixer: An all-MLP Architecture for Vision // https://arxiv.org/abs/2105.01601

3318

Liu H., Dai Z., So D. R., Le Q. V. (2021). Pay Attention to MLPs // https://arxiv.org/abs/2105.08050

3319

Li D., Hu J., Wang C., Li X., She Q., Zhu L., Zhang T., Chen Q. (2021). Involution: Inverting the Inherence of Convolution for Visual Recognition // https://arxiv.org/abs/2103.06255

В общем, задача поиска эффективных архитектур нейронных сетей для самых разных классов задач не теряет актуальности.

8.4 Интерпретация работы моделей ИИ

Нет таких трав, чтобы узнать чужой нрав.

Русская народная пословица

Ещё одной часто обсуждаемой проблемой в области машинного обучения является так называемая «проблема чёрного ящика» [black box problem], или «объяснимого ИИ» [explainable AI]. Читатели жёлтой околотехнологической прессы обычно получают напоминания о существовании этой проблемы в виде двух типов статей. В одних рассказывается, что мы не понимаем, «как работает ИИ» (вариант — нейросети), что эти модели являются «неинтерпретируемыми» и что это очень плохо и опасно, а в других сообщается, что кому-то из исследователей наконец-то удалось решить «проблему чёрного ящика» и объяснить, как именно «работает ИИ». Реально, как водится, куда сложнее. Для начала нужно понять, что означает выражение «мы понимаем» (иными словами — какой смысл мы вкладываем в понятие интерпретируемости). Что значит «понимать» то, как работает та или иная модель машинного обучения? Что касается нейронной сети, то все вычисления, которые она выполняет, можно представить в виде последовательности арифметических операций. В этом смысле работа нейронной сети вполне понятна. Взяв достаточное количество бумаги и карандашей и обладая достаточным количеством свободного времени, любой человек, знакомый со школьной арифметикой, вполне может вычислить ответ нейронной сети на тот или иной входной стимул. Постичь принципы, лежащие в основе нейросетевых моделей и их обучения, довольно нетрудно, и в этом смысле мы хорошо понимаем, как работают нейронные сети. Однако это, очевидно, не тот тип понимания, который имеют в виду, называя нейронную сеть чёрным ящиком. В действительности люди имеют в виду скорее возможность представить обученную сеть в виде компактного набора правил, который мог бы быть усвоен человеком и применён им на практике. Таким образом, под объяснимостью модели обычно понимают возможность уместить её «в человеческую голову», в некоторый ограниченный информационный объём, который американский учёный чилийского происхождения Сезар Идальго остроумно назвал «челобайтом» [personbyte] [3320] .

3320

Hidalgo C. (2015). Why Information Grows: The Evolution of Order, from Atoms to Economies. Hachette UK // https://books.google.ru/books?id=0984DgAAQBAJ

В машинном обучении существует отдельная область, которая занимается передачей знаний от больших (по числу параметров) моделей к меньшим, она называется «дистилляция знаний» [knowledge distillation]. Частным случаем дистилляции является «сжатие моделей» [model compression] — активно развивающееся в последние годы направление, в рамках которого исследуется возможность выполнения современных глубоких сетей на устройствах с ограниченными ресурсами без значительного снижения точности. В рамках этого направления выработано множество интересных методов, например различных видов малоранговой аппроксимации (таких как разреженная малоранговая факторизация, которая позволяет эффективно заменить многие синаптические веса нулевыми значениями) [3321] , квантизации весов (например, замены 32-битных вещественных значений весов 8-битными целочисленными) и так далее. В рамках этой парадигмы при обучении модели можно использовать специальные виды регуляризации параметров, например «регуляризацию в целях увеличения интерпретируемости» [regularization for interpretability] [3322] , чтобы позволить искусственной нейронной сети «выполниться» на таком устройстве, как мозг человека.

3321

Swaminathan S., Garg D., Kannan R., Andres F. (2020). Sparse low rank factorization for deep neural network compression / Neurocomputing, Vol. 398, pp. 185—196 // https://doi.org/10.1016/j.neucom.2020.02.035

3322

Wu M., Parbhoo S., Hughes M. C., Roth V., Doshi-Velez F. (2019). Optimizing for Interpretability in Deep Neural Networks with Tree Regularization // https://arxiv.org/abs/1908.05254

Аналогия со сжатием подталкивает к ещё одному интересному соображению. В сжатии данных часто используются алгоритмы, ищущие аналогии в потоках данных, например повторяющиеся фрагменты. Модель, «понятная человеку», могла бы опираться на понятия и концепции, уже понятые и усвоенные человеком. Тут речь идёт о «переиспользовании» признаков, выученных биологической сетью, в интерпретируемой искусственной нейронной сети. Предположим, некий человек не знает, кто такой тигр, но знает понятия «животное», «кошка», «оранжевый», «чёрный», «полоска». Если мы скажем ему, что тигр — это животное, напоминающее крупную оранжевую кошку с чёрными полосками, то тем самым мы дадим ему интерпретируемую модель для определения тигра. Нетрудно заметить, что наша модель получилась чрезвычайно компактной за счёт того, что мы выполнили сжатие путём замены алгоритмов определения признаков на отсылки к уже существующим в голове человека понятиям. Однако у этого подхода есть очевидный недостаток — мы не знаем заранее, какие именно признаки содержатся в уме конкретного человека, и не можем быть уверены в том, что, например, под «оранжевым» или «полоской» он понимает то же самое, что и наша модель. В процессе передачи знаний от одних людей другим часто возникает аналогичная проблема, поэтому на деле сжатие знаний при их передаче через «узкое горлышко» естественного языка неизбежно сопряжено с определёнными потерями. Употребляя аналогии из мира глубокого обучения, можно сказать, что человеческий разум оборудован своеобразным кодировщиком, который позволяет преобразовать паттерны активности мозга, связанные с теми или иными мысленными образами, в более компактное представление в семиотическом

пространстве (т. е. в пространстве той или иной символьной системы, например естественного языка). К этому «кодировщику» прилагается «декодер», способный, напротив, перевести такое компактное представление в паттерны активности мозга.

Помочь с проблемой потерь знаний при их передаче может составление своеобразного каталога общепринятых понятий и их значений, что, в свою очередь, подводит нас к ещё одной интересной аналогии: задача создания интерпретируемой модели в действительности очень похожа на задачу машинного перевода. Поэтому методы из этой области используют для создания своих моделей некоторые исследователи «объяснимого ИИ».

На сегодняшний день учёными создано множество инструментов, предназначенных для интерпретации работы нейросетевых моделей. Это и системы по визуализации активаций в свёрточных нейронных сетях, позволяющие своими глазами увидеть признаки, на которые реагирует нейронная сеть, и системы для визуализации полей внимания (в том числе в задачах по обработке естественного языка). Помогают понять структуру знаний моделей компьютерного зрения и состязательные атаки [3323] , и мультимодальные архитектуры, способные работать одновременно с изображениями и их текстовым описанием, подобно уже упомянутым нами в главе о творчестве нейронных сетей моделям CLIP и DALL·E. Исследователи из Google создали специальную генеративно-состязательную архитектуру под названием StyleEx, призванную объяснять причины принятия зрительными нейросетевыми классификаторами тех или иных решений [3324] . Значительные успехи достигнуты и в развитии методов, позволяющих объяснять работу моделей, основанных на трансформерных архитектурах. Это направление получило полушуточное название «бертология» [bertology] в честь модели BERT [3325] . Одно из удивительных достижений современных бертологов — открытие того, что полносвязные слои в блоках трансформера могут играть роль механизма «ключ — значение», где ключи коррелируют с текстовыми структурами в обучающих примерах, а значения влияют на распределение вероятностей токенов на выходах сети, причём выучиваемые связи понятны людям. Также авторы исследования показали, что слои сети, расположенные ближе к её входу, отвечают за более конкретные, «низкоуровневые» закономерности в тексте, а слои, расположенные ближе к выходу сети, кодируют более абстрактные, семантические зависимости [3326] . Более того, в наши дни уже разработаны методы, позволяющие выявлять веса трансформерной модели, отвечающие за хранение конкретных фактов, и затем вмешиваться в «память» модели, производя «подмену» фактологической информации [3327] , [3328] . Однако в этом направлении многое ещё предстоит сделать, чтобы работа нейросетевых моделей стала ещё более понятной экспертам-людям.

3323

Akhtar N., Jalwana M., Bennamoun M., Mian A. S. (2021). Attack to Fool and Explain Deep Networks / IEEE Transactions on Pattern Analysis and Machine Intelligence, 26 May 2021 // https://doi.org/10.1109/TPAMI.2021.3083769

3324

Lang O., Gandelsman Y., Yarom M., Wald Y., Elidan G., Hassidim A., Freeman W. T., Isola P., Globerson A., Irani M., Mosseri I. (2021). Explaining in Style: Training a GAN to explain a classifier in StyleSpace // https://arxiv.org/abs/2104.13369

3325

Rogers A., Kovaleva O., Rumshisky A. (2020). A Primer in BERTology: What we know about how BERT works // https://arxiv.org/abs/2002.12327

3326

Geva M., Schuster R., Berant J., Levy O. (2020). Transformer Feed-Forward Layers Are Key-Value Memories // https://arxiv.org/abs/2012.14913

3327

Meng K., Bau D., Andonian A., Belinkov Y. (2022). Locating and Editing Factual Associations in GPT // https://arxiv.org/abs/2202.05262

3328

Eldan R., Russinovich M. (2023). Who's Harry Potter? Approximate Unlearning in LLMs // https://arxiv.org/abs/2310.02238

Успехи бертологии вылились в возникновение новой отрасли машинного обучения, получившей название «инженерия представлений» (Representation engineering, RepE). Инженерию представлений можно считать частью ещё более общей дисциплины — нейрофизиологии искусственных нейронных сетей. Изучая внутренние представления [hidden states] нейросетевых моделей путём анализа активаций их нейронов в ответ на определённые стимулы, мы можем затем успешно влиять на поведение сети, «сдвигая» его в нужном нам направлении за счёт коррекции некоторых весов. Например, как выяснилось, можно выявить градиент изменения весов, соответствующий повышению «честности» ответов модели, и если немного «подвинуть» веса в этом направлении, модель будет в среднем меньше врать. Модифицированная таким образом модель Llama 2 смогла прибавить целых 10 процентных пунктов на тесте TruthfulQA. Теперь исследователи заняты анализом других «направлений», таких как эмоциональность, этичность и так далее. [3329] , [3330]

3329

Li K., Patel O., Viegas F., Pfister H., Wattenberg M. (2023). Inference-Time Intervention: Eliciting Truthful Answers from a Language Model // https://arxiv.org/abs/2306.03341

3330

Zou A., Phan L., Chen S., Campbell J., Guo P., Ren R., Pan A., Yin X., Mazeika M., Dombrowski A.-K., Goel S., Li N., Byun M. J., Wang Z., Mallen A., Basart S., Koyejo S., Song D., Fredrikson M., Kolter J. Z., Hendrycks D. (2023). Representation Engineering: A Top-Down Approach to AI Transparency // https://arxiv.org/abs/2310.01405

Основным инструментом исследователей стал метод, получивший название «низкоранговая адаптация представлений» (Low-Rank Representation Adaptation, LoRRA), выявляющий нужные градиенты изменения весов на основе маленьких наборов, содержащих порядка сотни размеченных примеров.

Другое достижение нейрофизиологии искусственных нейронных сетей — обнаружение во внутренних представлениях Llama 2 ни много ни мало карты мира! Учёных давно интересовали вопросы о том, есть ли «внутри» языковых моделей модель мира или, например, чувство времени? Новое исследование Уэса Гёрни и Макса Тегмарка доказывает, что есть. «Нет, LLM — не просто стохастические попугаи: Llama 2 содержит в буквальном смысле подробную модель мира. Мы даже обнаружили „нейрон географической долготы“» — пишут исследователи [3331] .

3331

Gurnee W., Tegmark M. (2023). Language Models Represent Space and Time // https://arxiv.org/abs/2310.02207

Впрочем, часто люди не в полной мере осознают, что означает неинтерпретируемость модели с практической точки зрения. В повседневной жизни человек буквально окружён объектами, принципы поведения которых он не понимает в полной мере. Обычный человек легко может жить, не понимая, как устроен телевизор или автомобиль, как функционирует живая клетка или система государственного управления. Наконец, мы не можем «залезть в голову» других людей, чтобы получить исчерпывающее объяснение их поступков. Конечно, люди нередко рассказывают, на чём они основывались, принимая то или иное решение, однако проблема заключается в том, что эти рассказы часто имеют мало общего с действительным процессом принятия решений. Для таких объяснений post factum существует даже специальный термин — [ретроспективная] рационализация. Согласно поговорке задним умом мы всегда крепки. Однако на деле цена подобных «объяснений» нередко оказывается небольшой — вспомним хотя бы попытки Ботвинника создать шахматную программу, воплощающую в себе алгоритм игры человека-гроссмейстера, — оказалось, что профессиональный шахматист не может объяснять свой способ принятия решения с точностью, достаточной для реализации в виде эффективного алгоритма. В ряде случаев поведение «неинтерпретируемых» нейросетевых моделей является куда более предсказуемым и контролируемым, чем поведение людей. В конце концов, эти модели обычно интенсивно тестируются на огромных тестовых выборках, а затем — если, например, речь о беспилотных автомобилях — в ходе испытаний на дорогах, километраж которых многократно превышает опыт большинства водителей. Некоторые люди заявляют, что их страхи перед автономными автомобилями связаны с «неинтерпретируемостью» действий последних, но аналогичным образом можно бояться и поездок на такси с незнакомыми водителями, чьё поведение тоже можно считать «неинтерпретируемым». Хотя вы можете спросить у попавшего в аварию водителя, почему он принял то или иное решение, но не факт, что он сможет объяснить свои действия. С практической точки зрения моделям обычно нужны масштабные и правильно выстроенные испытания (в том числе и в критических ситуациях), а вовсе не интерпретируемость, а «проблема чёрного ящика» на деле вряд ли может считаться вызовом, всерьёз угрожающим развитию ИИ.