Охота на электроовец. Большая книга искусственного интеллекта
Шрифт:
Поскольку подобные модели широко используются в весьма важных областях, то по силе влияния на жизнь человека решение такой модели может быть вполне сопоставимо с вердиктом суда. В исследовании профессора Бруклинской школы права (Brooklyn Law School) Фрэнка Паскуале эта проблема названа проблемой «цифрового тайного суда» [Digital star chamber] [3175] , [3176] . Паскуале детально анализирует её в своей книге «Общество чёрного ящика: секретные алгоритмы, которые контролируют деньги и информацию» (The Black Box Society: The Secret Algorithms That Control Money and Information») [3177] , приводя показательные примеры.
3175
Паскуале Ф. (2016). Цифровой тайный суд (пер. с англ. Райдера Д.) / XX2 век, 27 мая // https://22century.ru/popular-science-publications/digital-star-chamber
3176
Pasquale F., Haselby S. (2015). Digital star chamber / aeon, 18 August 2015 // https://aeon.co/essays/judge-jury-and-executioner-the-unaccountable-algorithm
3177
Pasquale F. (2015). The Black Box Society. Harvard University Press // https://books.google.ru/books?id=TumaBQAAQBAJ
Например,
История Мансура по сути лишь иллюстрирует давние тенденции в области кредита и занятости, и она ни в коем случае не уникальна. Интернет-магазины живут в постоянном ужасе перед «смертной казнью Google» — внезапным, загадочным падением в рейтинге поисковых систем, в случае если они сделали нечто, что алгоритмы Google расценили как мошенничество. В США соискатели работы в Walmart’е и других крупных компаниях проходят некие «личностные тесты», которые затем обрабатываются неизвестными им алгоритмами с неведомым результатом. «Белые воротнички» также сталкиваются с программами для сортировки резюме, способными занизить или полностью проигнорировать квалификацию кандидата. Например, один алгоритмический анализатор резюме решил, что все 29 000 людей, претендовавших на «более-менее стандартную инженерную должность», недостаточно квалифицированны.
Практика показала, что «цифровой тайный суд» вполне может привести к реальным судебным приговорам и даже смертям людей. Например, на протяжении почти двух десятилетий сотрудники британской почтовой компании Post Office использовали для учёта продаж систему под названием Horizon. Из-за допущенных при её разработке ошибок некоторые расчёты осуществлялись неправильно, вследствие чего возникали мнимые недостачи на десятки тысяч фунтов. В итоге за несуществующие растраты были осуждены десятки сотрудников компании! Когда истинное положение вещей всё же выплыло на поверхность, было отменено 39 судебных приговоров, а компания Post Office выплатила компенсации 555 заявителям. Случай Horizon стал самой большой судебной ошибкой в истории Великобритании. Невинно осуждённым сотрудникам был нанесён огромный ущерб. Многие из них утратили сбережения, лишились возможности трудоустройства на престижную работу, оказались за решёткой, пережили распад семьи, а один из сотрудников, узнав, что за ним числится недостача в 100 000 фунтов, покончил с собой [3178] , [3179] , [3180] .
3178
Clark M. (2021). Bad software sent postal workers to jail, because no one wanted to admit it could be wrong / The Verge, Apr 23, 2021 // https://www.theverge.com/2021/4/23/22399721/uk-post-office-software-bug-criminal-convictions-overturned
3179
Peachey K. (2021). Convicted Post Office workers have names cleared / BBC News // https://www.bbc.com/news/business-56859357
3180
Brooks R., Wallis N. (2020). Justice lost in the post / Private Eye Special Report // https://www.private-eye.co.uk/pictures/special_reports/justice-lost-in-the-post.pdf
Как видно, проблема «цифрового тайного суда» весьма актуальна, и никто не защищён от того, что в отношении него цифровой моделью будет принято какое-либо серьёзное решение. Однако если в случае обычного суда у человека есть право на состязательный процесс, на получение квалифицированной юридической помощи, на доступ к доказательствам, то в описанных выше случаях ничего подобного невозможно. Модель является собственностью компании, и человек не имеет права ни узнать причину отказа, ни проверить принятое решение на наличие ошибок, ни даже выяснить, какие именно данные о нём были приняты в расчёт. Всё, что связано с работой алгоритма, полностью закрыто от того, в отношении кого этот алгоритм принимает решение. Нередко параметры таких алгоритмов относятся к числу самых охраняемых тайн коммерческих организаций.
2. С проблемой закрытости связана вторая важная проблема — отсутствие обратной связи. Получив отказ на свою заявку, вы не знаете, что именно необходимо сделать, чтобы избежать повторного отказа. Одну женщину частный брокер данных ложно обвинил в том, что она продаёт метамфетамин, и той потребовались годы, чтобы исправить запись, — годы, в течение которых домовладельцы и банки отказывали ей в жилье и кредитах. Ситуация с государственными базами данных может быть ещё хуже: в США, например, репутация невинных людей может пострадать из-за попадания в отчёты о подозрительной деятельности или неточных записей об арестах. Этой проблеме много лет, и она пока так и не решена. Аппетит к данным как государственных, так и рыночных структур означает, что недостоверные записи могут распространяться довольно быстро. Из-за того что причины отказов не анализируются, разработчики моделей также лишены обратной связи. В результате ошибки в моделях и данных могут существовать годами, нанося ущерб как людям, так и самим владельцам моделей. Разумеется, проблема отсутствия обратной связи существовала в бюрократических системах задолго до появления вычислительной техники
3. Модели способны вбирать в себя предрассудки. В то время как большинство сторонников конфиденциальности сосредоточились на вопросе сбора данных, угроза, исходящая от бездумного, плохого или дискриминационного анализа вполне может быть сильнее. Представьте себе готовящий проекты судебных решений искусственный интеллект, обученный на решениях судьи-расиста. Или модель, предназначенную для сортировки анкет кандидатов, натренированную на их оценке кадровиком, считающим женщин существами второго сорта. Опасность таких моделей не только в том, что они, подобно людям, будут обладать предрассудками, но ещё и в том, что при отсутствии должного контроля они способны тиражировать эти предрассудки в огромных масштабах.
Причины, по которым модели могут приобретать те или иные предрассудки, могут быть и не столь очевидными, как в случае приведённых выше примеров. В 2017 г. внимание общественности привлекла диссертация Джой Буоламвини, аспирантки из MIT Media Lab, под названием «Оттенки гендера: интерсекциональная фенотипическая и демографическая оценка датасетов лиц и гендерных классификаторов» (Gender Shades: Intersectional Phenotypic and Demographic Evaluation of Face Datasets and Gender Classifiers) [3181] . В своём исследовании Буоламвини использовала внушительный набор фотографий для анализа способности коммерческих библиотек (от IBM, Microsoft и Face++) распознавать лица людей в зависимости от их пола и цвета кожи. Выяснилось, что точность распознавания для женских лиц ниже, чем для мужских, а для лиц людей с более тёмными оттенками кожи ниже, чем для лиц людей с более светлой кожей. Причём проблема наблюдалась со всеми тремя библиотеками, а разрыв в точности распознавания между когортами «светлокожие мужчины» и «темнокожие женщины» составлял от 20,8 до 34,4 процентного пункта. Написанная годом позже статья Буоламвини и её коллеги Тимнит Гебру под названием «Оттенки гендера: различия в точности коммерческой гендерной классификации» (Gender Shades: Intersectional Accuracy Disparities in Commercial Gender Classification) [3182] вызвала отклик у IBM и Microsoft, которые произвели доработки своего программного обеспечения.
3181
Buolamwini J. (2017). Gender Shades: Intersectional Phenotypic and Demographic Evaluation of Face Datasets and Gender Classifiers. MIT Master's Thesis // https://www.media.mit.edu/publications/full-gender-shades-thesis-17/
3182
Buolamwini J., Gebru T. (2018). Gender shades: Intersectional accuracy disparities in commercial gender classification / Proceedings of the 1st Conference on Fairness, Accountability and Transparency, PMLR, Vol. 81, pp. 77—91 // http://proceedings.mlr.press/v81/buolamwini18a.html
Дефекты, подобные выявленным в исследовании Буоламвини, могут легко возникать в результате несбалансированности обучающих датасетов. Если в датасете лиц содержится недостаточное количество фотографий людей с некоторым оттенком кожи, то свёрточная нейронная сеть, обученная на этих данных, будет чаще ошибаться, встречаясь с такими же типами лиц в процессе использования. Поскольку в настоящее время активно внедряются различные сервисы на основе систем распознавания лиц (например, системы биометрической аутентификации на пользовательских устройствах, кредитоматы или системы автоматической регистрации в аэропортах), такие перекосы в работе моделей могут приводить к негативным последствиям. Более поздние исследования Буоламвини выявили наличие сходных проблем и в системах распознавания речи.
Буоламвини основала программу «Лига алгоритмической справедливости» (Algorithmic Justice League), направленную на выявление предвзятости в коде, которая может привести к дискриминации в отношении недопредставленных групп.
4. Проблема чрезмерного доверия моделям. На заре компьютерной эры люди часто не доверяли прогнозам, построенным машинами на основе применения статистических моделей. Это нередко приводило к курьёзным последствиям. Наверное, самый известный случай — это события, произошедшие в ночь с 3 на 4 ноября 1952 г., когда компьютер UNIVAC был запрограммирован для предсказания результатов выборов президента США, на которых в борьбе сошлись Эдлай Стивенсон и Дуайт Эйзенхауэр. Телекомпания CBS должна была транслировать этот эксперимент, и её тележурналист Уолтер Кронкайт так описал подготовку к нему: «Машина должна предсказывать результаты выборов каждый час, базируясь на результатах за те же периоды времени в ночь выборов 1944 и 1948 годов. Учёные, которых мы привыкли называть длинноволосыми [long hairs], работали над сопоставлением фактов [с этими предсказаниями] последние два или три месяца». Но в конце речи он сделал оговорку: «На самом деле, мы не слишком зависим от этой машины. Это может оказаться и второстепенным шоу, мы не знаем, а потом опять же… для некоторых людей оно может оказаться очень уникальным и значимым» [3183] , [3184] .
3183
Augarten S. (1984). Bit by Bit: An Illustrated History of Computers. Ticknor and Fields // https://books.google.ru/books?id=kYJfQgAACAAJ
3184
Chinoy I. (2010). Battle of the brains: election-night forecasting at the dawn of the computer age // https://doi.org/10.13016/rj15-4718