Об ИИ без мифов. Путеводитель по истории Искусственного Интеллекта, Черняк Леонид

Об ИИ без мифов. Путеводитель по истории Искусственного Интеллекта

на обложку

Черняк Леонид

Шрифт:

Говоря о следующем персонаже – Ларри Робертсе, внесшем свой вклад с историю CV, автор вынужден сделать отступление и высказаться от первого лица. Дело в том, что мне повезло быть лично знакомым с Ларри, это случилось из-за увлечения историей интернета. Во время пребывания в Сан-Хосе, столице Кремниевой Долины, у меня выдался свободный день, в рассуждении как его использовать, я набрался смелости и позвонил ему. Ларри неожиданно пригласил меня посетить возглавляемую им тогда компанию Caspean. Позже мы с ним встречались в Москве, это было в 2002 году, вместе участвовали в передаче Матвея Ганапольского на радио «Эхо Москвы». Все это время я видел в Ларри лидера команды «отцов-основателей» интернета, куда кроме него входили Винтон Серф, Роберт Кан и Леонард Клейнрок. Хорошо известно, что Ларри Робертс взял на себя роль технического руководителя проекта ARPAnet и именно он нарисовал знаменитую схему объединения первых четырех узлов, ему же принадлежат многие предложения по части коммутационного оборудования. Вплоть до последних лет жизни он проектировал новые технологии для опорной

сети интернет (backbone).

Недавно я обнаружил, что в молодости, работая над диссертацией в Линкольновской лаборатории МТИ, он создал некоторые подходы к CV и это оказалось полной неожиданностью. Оказывается, еще в 1963 году Робертс опубликовал работу «Машинное восприятие сплошных трехмерных моделей (Machine perception of three-dimensional solids), которую и поныне рассматривают как один из краеугольных камней CV. В ней он описал методы, служащие для восстановления трехмерной машинной модели предмета по его двумерной фотографии. Однако после успешной защиты диссертации Робертс не продолжил начатого, увлекшись идеями Джозефа Ликлайдера, высказанными в знаменитой статье «Межгалактическая компьютерная сеть» (Intergalactic Computer Network). В ней автор, ставший к тому времени директором Управления методов обработки информации (Information Processing Techniques Office, IPTO), описал компьютерную сеть, ставшую прообразом интернета. Идея глобальной сети показалась Робертсу более привлекательной и перспективной, реализуя ее, он приобрел всемирную известность.

В противоположность Ларри Робертсу, японец Кухинико Фокушима (Kunihiko Fukushima) остался верен избранному в молодости пути. Роль, сыгранную им в истории CV, можно сравнить с той, которую сыграл Джон Хопфилд в истории ANN. Заслуга Фокушимы в том, что он как и Хопфилд проложил мостик между нейрофизиологическими моделями и ANN, но он это сделал в приложении к CV.

Начало современной истории CV

В 1989 году в ту пору молодой французский ученый Ян Лекун, работая в Bell Labs, применил алгоритм обратного распространения ошибки (backprop style) к обучению CNN, разработанному Фокушимой. Он, как и его предшественник, использовал обученные сети CNN для распознавания рукописных цифр в почтовых индексах (zip code). Цифры на американских конвертах пишутся не по трафарету, а в свободной форме, поэтому потребовалось распознавание с элементами AI. Усовершенствованный Лекуном тип CNN получил собственное имя LeNet, позже его стали называть lenet5. В первой версии система, в основу которой легла обученная сеть LeNet, смогла обрабатывать 91 % писем с точностью 1 %. Результат работы был изложен в статье «Применение метода обратного распространения ошибок к распознаванию рукописных почтовых кодов. Нейронные вычисления» (Backpropagation applied to handwritten zip code recognition. Neural Computation). Позже в период с 1989 по 1998 он вместе к коллегами опубликовал еще несколько важнейших статей. Среди соавторов Джошуа Бенджо, составивший вместе с ним и с Джеффри Хинтоном триумвират награжденных Тьюринговской премией за достижения в области ANN и машинного обучения.

Примерно в том же направлении до сих пор работает коллектив психологов из Калифорнийского университета в Беркли. Их объединяет уверенность в возможности целостного восприятия изображения, по-английски это называется perceptual grouping, а переводится как перцептивная группировка. Целостный подход к CV предполагает синтез изображения из его отдельных деталей, его концептуальный базис – гештальтпсихология, руководствующаяся принципом целостности. Несмотря на кажущуюся перспективность perceptual grouping, приверженцам этого подхода не удалось выйти за пределы академических исследований. Обзор работ этого направления можно найти в статье британского психолога Джозефа Брукса «Традиционные и новые методы перцептивной группировки (Traditional and new principles of perceptual grouping).

Компьютерное зрение в его современном понимании началось с отказа от идеи целостности и от восстановления трехмерных моделей по полученному тем или иным образом двумерному изображению в пользу более прагматических решений, нацеленных на выявленных заданных свойств наблюдаемого объекта. Этот путь можно назвать выделением скрытых метаданных. Первыми на него встали англичане Крис Харрис и Майк Стефенс, в 1988 году они опубликовали статью «Детектор, обнаруживающий углы и ребра» (A combined corner and edge detector). Позже его стали называть просто методом уголкового обнаружения (Corner detection). В 1999 году Дэвид Лоу пошел дальше, ему удалось справиться с проблемой распознавания вне зависимости от масштаба изображения, он описал свое решение в статье «Распознавание объектов по локальным независимым от масштаба признакам» (Object Recognition from Local Scale-Invariant Features). Лоу канадец, он закончил свою карьеру в 2018 году качестве старшего научного специалиста в Google. Его научные интересы сосредоточены на CV, за свои достижения в этой области он дважды удостоен Приза Гельмгольца на ICCV (International Conference on Computer Vision), главной отраслевой конференции.

В бытность профессором университета Британской Колумбии Лоу запатентовал метод масштабно-независимых результатов преобразования признаков SIFT (Scale-Invariant Feature Transform). Принятый перевод SIFT как масштабно-инвариантная трансформация признаков не совсем верен,

потому что transform это не transformation и масштабно-независимой является форма хранения признаков, а отнюдь не масштабно-инвариантный процесс трансформации. Все достаточно просто, алгоритмы, реализующие SIFT, в процессе обучения выявляют и сохраняют координаты локальных признаков в масштабно-независимой форме и фиксируют их в базе данных. А далее объект в новом изображении распознается посредством сравнения его признака с признаками из базы данных. Подход, предложенный Лоу, оказался чрезвычайно результативным, он используется в самых разнообразных современных приложениях. Он развивается и создано несколько новых подходов к распознаванию, унаследовавших его основы.

Особое место в истории CV занимает метод обнаружения объектов Виолы – Джонса (Viola—Jones object detection). Он был предложен в 2001 году Полом Виола в прошлом профессором МТИ, более всего известным работами в области распознавания лиц, удостоенным премий Марра и Гельмгольца, и Майклом Джонсом, сотрудником исследовательской лаборатории Mitsubishi Electric. Метод Виолы – Джонса универсален, он обычно используется для распознавания лиц. В его основе сильный бинарный детектор, состоящий из каскада более слабых детекторов, они разбивают изображение на прямоугольники, осуществляют поиск эталонов и сравнение с ними. Если обнаруживается совпадение, изображение передается дальше по каскаду, а случае несовпадения поиск продолжается. Математической основой метода является алгоритм машинного обучения AdaBoost (Adaptive Boosting, в данном случае можно перевести как адаптивное усиление). Алгоритм усиливает классификаторы, объединяя их в «комитеты».

CV в XXI веке

Наступление XXI века ознаменовалось бумом исследований в области CV, причем не столько академических, сколько прикладных с участием тысяч специалистов, их невозможно каким-то образом систематизировать, остается только представить наиболее известные достижения.

Информационный взрыв, привлекший к себе широкое внимание, связан с деятельностью Себастьяна Труна (Sebastian Thrun,1967) профессора Стэнфордского университета, бывшего в ту пору директором Стэнфордской лаборатории искусственного интеллекта (SAIL). Он вошел в историю как руководитель весьма успешной разработки роботизированного автомобиля Stanley, выигравшего соревнование DARPA Grand Challenge в 2005 году, и Junior, который занял второе место на DARPA Challenge в 2007 году. Эти соревнования спонсировало правительство США с наивной надеждой на скорое создание автономных автомобилей для военных нужд. Цель казалась так близка, что в который раз вызвав неумеренный восторг, в журнале Scientific American вышла статья «Триумф роботов». На основе SAIL в 2009 году Google построила свой автономный автомобиль, с обещанием выпустить в 2020 году полноценный автомобиль-робот. Сегодня мы отнесли бы его к уровню Level 5, где можно обойтись без рулевого колеса (steering wheel optional). Но и это, и другие подобные обещания остаются невыполненными, наиболее ответственные компании сегодня говорят о достижении ими Level 3, позволяющего водителю отвлечься (eyes off), то есть автомобиля с частично автоматизированными функциями управления.

Начиная с 2010 года стали поступать сообщения об успехах в области распознавания лиц, среди первых была компания Facebook. Когда эта технология в 2011 помогла идентифицировать в убитом американским спецназом в операции «Копье Нептуна» Усаму бен Ладена, она казалась благом. Но когда стало ясно, насколько эти технологии усиливают возможности «Большого брата», отношения к ним заметно изменилось. В странах с развитой демократией распознавание лиц ограничено и широко обсуждается, а в таких как Китай, и подобных по уровню авторитаризма внедряется по максимуму.

Спустя год мировую общественность совершенно потряс эксперимент, проведенный в лаборатории Google X, он показал способность обученной нейронной сети самостоятельно, или, точнее, почти самостоятельно распознавать изображения, в данном случае фотографии кошек. Выбор такого объекта для распознавания оказался удачен с маркетинговой точки зрения, учитывая популярность фотографий «котиков» в Сети. Эксперимент освещала вся мировая пресса, первой в этом ряду оказалась «Нью-Йорк Таймс», где была опубликована статья самого именитого компьютерного журналиста Джона Маркова. За этой сенсацией стоял совершенно строгий академический доклад, сделанный Эндрю Ыном и его коллегами на 29-й конференции по машинному обучению в Эдинбурге. В эксперименте использовалась 1000 сероверов, собранных в кластер, что позволило моделировать сеть, состоящую из 3 миллионов нейронов и 1,15 миллиарда синапсов. При этом точность распознавания не превысила 16 %. Для сравнения, человеческий мозг состоит из 100 миллиардов нейронов и 1000 триллионов синаптических соединений, это для справки тем, кто намеревается создавать сильный AI. Эксперимент детально описан в статье Building High-level Features Using Large Scale Unsupervised Learning, ее перевод названия нуждается в комментарии. В задачах CV распознаваемые характеристики можно разделить на простые (low-level features) и сложные (high-level features). Поэтому оно должно выглядеть так «Создание сложных характеристик с использованием крупномасштабного обучения без учителя». Использование термина «без учителя» может создать впечатление, что система, снабженная AI, может обучиться чему-то сама, разумеется это неверно, без руководства человека никакой AI не способен к самостоятельному получению знаний. Unsupervised в этом контексте означает, скорее, неконтролируемый, то есть процесс обучения осуществляется автоматически, но по заданию человека.