Об ИИ без мифов. Путеводитель по истории Искусственного Интеллекта
Шрифт:
Говоря о следующем персонаже – Ларри Робертсе, внесшем свой вклад с историю CV, автор вынужден сделать отступление и высказаться от первого лица. Дело в том, что мне повезло быть лично знакомым с Ларри, это случилось из-за увлечения историей интернета. Во время пребывания в Сан-Хосе, столице Кремниевой Долины, у меня выдался свободный день, в рассуждении как его использовать, я набрался смелости и позвонил ему. Ларри неожиданно пригласил меня посетить возглавляемую им тогда компанию Caspean. Позже мы с ним встречались в Москве, это было в 2002 году, вместе участвовали в передаче Матвея Ганапольского на радио «Эхо Москвы». Все это время я видел в Ларри лидера команды «отцов-основателей» интернета, куда кроме него входили Винтон Серф, Роберт Кан и Леонард Клейнрок. Хорошо известно, что Ларри Робертс взял на себя роль технического руководителя проекта ARPAnet и именно он нарисовал знаменитую схему объединения первых четырех узлов, ему же принадлежат многие предложения по части коммутационного оборудования. Вплоть до последних лет жизни он проектировал новые технологии для опорной
Недавно я обнаружил, что в молодости, работая над диссертацией в Линкольновской лаборатории МТИ, он создал некоторые подходы к CV и это оказалось полной неожиданностью. Оказывается, еще в 1963 году Робертс опубликовал работу «Машинное восприятие сплошных трехмерных моделей (Machine perception of three-dimensional solids), которую и поныне рассматривают как один из краеугольных камней CV. В ней он описал методы, служащие для восстановления трехмерной машинной модели предмета по его двумерной фотографии. Однако после успешной защиты диссертации Робертс не продолжил начатого, увлекшись идеями Джозефа Ликлайдера, высказанными в знаменитой статье «Межгалактическая компьютерная сеть» (Intergalactic Computer Network). В ней автор, ставший к тому времени директором Управления методов обработки информации (Information Processing Techniques Office, IPTO), описал компьютерную сеть, ставшую прообразом интернета. Идея глобальной сети показалась Робертсу более привлекательной и перспективной, реализуя ее, он приобрел всемирную известность.
В противоположность Ларри Робертсу, японец Кухинико Фокушима (Kunihiko Fukushima) остался верен избранному в молодости пути. Роль, сыгранную им в истории CV, можно сравнить с той, которую сыграл Джон Хопфилд в истории ANN. Заслуга Фокушимы в том, что он как и Хопфилд проложил мостик между нейрофизиологическими моделями и ANN, но он это сделал в приложении к CV.
Начало современной истории CV
В 1989 году в ту пору молодой французский ученый Ян Лекун, работая в Bell Labs, применил алгоритм обратного распространения ошибки (backprop style) к обучению CNN, разработанному Фокушимой. Он, как и его предшественник, использовал обученные сети CNN для распознавания рукописных цифр в почтовых индексах (zip code). Цифры на американских конвертах пишутся не по трафарету, а в свободной форме, поэтому потребовалось распознавание с элементами AI. Усовершенствованный Лекуном тип CNN получил собственное имя LeNet, позже его стали называть lenet5. В первой версии система, в основу которой легла обученная сеть LeNet, смогла обрабатывать 91 % писем с точностью 1 %. Результат работы был изложен в статье «Применение метода обратного распространения ошибок к распознаванию рукописных почтовых кодов. Нейронные вычисления» (Backpropagation applied to handwritten zip code recognition. Neural Computation). Позже в период с 1989 по 1998 он вместе к коллегами опубликовал еще несколько важнейших статей. Среди соавторов Джошуа Бенджо, составивший вместе с ним и с Джеффри Хинтоном триумвират награжденных Тьюринговской премией за достижения в области ANN и машинного обучения.
Примерно в том же направлении до сих пор работает коллектив психологов из Калифорнийского университета в Беркли. Их объединяет уверенность в возможности целостного восприятия изображения, по-английски это называется perceptual grouping, а переводится как перцептивная группировка. Целостный подход к CV предполагает синтез изображения из его отдельных деталей, его концептуальный базис – гештальтпсихология, руководствующаяся принципом целостности. Несмотря на кажущуюся перспективность perceptual grouping, приверженцам этого подхода не удалось выйти за пределы академических исследований. Обзор работ этого направления можно найти в статье британского психолога Джозефа Брукса «Традиционные и новые методы перцептивной группировки (Traditional and new principles of perceptual grouping).
Компьютерное зрение в его современном понимании началось с отказа от идеи целостности и от восстановления трехмерных моделей по полученному тем или иным образом двумерному изображению в пользу более прагматических решений, нацеленных на выявленных заданных свойств наблюдаемого объекта. Этот путь можно назвать выделением скрытых метаданных. Первыми на него встали англичане Крис Харрис и Майк Стефенс, в 1988 году они опубликовали статью «Детектор, обнаруживающий углы и ребра» (A combined corner and edge detector). Позже его стали называть просто методом уголкового обнаружения (Corner detection). В 1999 году Дэвид Лоу пошел дальше, ему удалось справиться с проблемой распознавания вне зависимости от масштаба изображения, он описал свое решение в статье «Распознавание объектов по локальным независимым от масштаба признакам» (Object Recognition from Local Scale-Invariant Features). Лоу канадец, он закончил свою карьеру в 2018 году качестве старшего научного специалиста в Google. Его научные интересы сосредоточены на CV, за свои достижения в этой области он дважды удостоен Приза Гельмгольца на ICCV (International Conference on Computer Vision), главной отраслевой конференции.
В бытность профессором университета Британской Колумбии Лоу запатентовал метод масштабно-независимых результатов преобразования признаков SIFT (Scale-Invariant Feature Transform). Принятый перевод SIFT как масштабно-инвариантная трансформация признаков не совсем верен,
Особое место в истории CV занимает метод обнаружения объектов Виолы – Джонса (Viola—Jones object detection). Он был предложен в 2001 году Полом Виола в прошлом профессором МТИ, более всего известным работами в области распознавания лиц, удостоенным премий Марра и Гельмгольца, и Майклом Джонсом, сотрудником исследовательской лаборатории Mitsubishi Electric. Метод Виолы – Джонса универсален, он обычно используется для распознавания лиц. В его основе сильный бинарный детектор, состоящий из каскада более слабых детекторов, они разбивают изображение на прямоугольники, осуществляют поиск эталонов и сравнение с ними. Если обнаруживается совпадение, изображение передается дальше по каскаду, а случае несовпадения поиск продолжается. Математической основой метода является алгоритм машинного обучения AdaBoost (Adaptive Boosting, в данном случае можно перевести как адаптивное усиление). Алгоритм усиливает классификаторы, объединяя их в «комитеты».
CV в XXI веке
Наступление XXI века ознаменовалось бумом исследований в области CV, причем не столько академических, сколько прикладных с участием тысяч специалистов, их невозможно каким-то образом систематизировать, остается только представить наиболее известные достижения.
Информационный взрыв, привлекший к себе широкое внимание, связан с деятельностью Себастьяна Труна (Sebastian Thrun,1967) профессора Стэнфордского университета, бывшего в ту пору директором Стэнфордской лаборатории искусственного интеллекта (SAIL). Он вошел в историю как руководитель весьма успешной разработки роботизированного автомобиля Stanley, выигравшего соревнование DARPA Grand Challenge в 2005 году, и Junior, который занял второе место на DARPA Challenge в 2007 году. Эти соревнования спонсировало правительство США с наивной надеждой на скорое создание автономных автомобилей для военных нужд. Цель казалась так близка, что в который раз вызвав неумеренный восторг, в журнале Scientific American вышла статья «Триумф роботов». На основе SAIL в 2009 году Google построила свой автономный автомобиль, с обещанием выпустить в 2020 году полноценный автомобиль-робот. Сегодня мы отнесли бы его к уровню Level 5, где можно обойтись без рулевого колеса (steering wheel optional). Но и это, и другие подобные обещания остаются невыполненными, наиболее ответственные компании сегодня говорят о достижении ими Level 3, позволяющего водителю отвлечься (eyes off), то есть автомобиля с частично автоматизированными функциями управления.
Начиная с 2010 года стали поступать сообщения об успехах в области распознавания лиц, среди первых была компания Facebook. Когда эта технология в 2011 помогла идентифицировать в убитом американским спецназом в операции «Копье Нептуна» Усаму бен Ладена, она казалась благом. Но когда стало ясно, насколько эти технологии усиливают возможности «Большого брата», отношения к ним заметно изменилось. В странах с развитой демократией распознавание лиц ограничено и широко обсуждается, а в таких как Китай, и подобных по уровню авторитаризма внедряется по максимуму.
Спустя год мировую общественность совершенно потряс эксперимент, проведенный в лаборатории Google X, он показал способность обученной нейронной сети самостоятельно, или, точнее, почти самостоятельно распознавать изображения, в данном случае фотографии кошек. Выбор такого объекта для распознавания оказался удачен с маркетинговой точки зрения, учитывая популярность фотографий «котиков» в Сети. Эксперимент освещала вся мировая пресса, первой в этом ряду оказалась «Нью-Йорк Таймс», где была опубликована статья самого именитого компьютерного журналиста Джона Маркова. За этой сенсацией стоял совершенно строгий академический доклад, сделанный Эндрю Ыном и его коллегами на 29-й конференции по машинному обучению в Эдинбурге. В эксперименте использовалась 1000 сероверов, собранных в кластер, что позволило моделировать сеть, состоящую из 3 миллионов нейронов и 1,15 миллиарда синапсов. При этом точность распознавания не превысила 16 %. Для сравнения, человеческий мозг состоит из 100 миллиардов нейронов и 1000 триллионов синаптических соединений, это для справки тем, кто намеревается создавать сильный AI. Эксперимент детально описан в статье Building High-level Features Using Large Scale Unsupervised Learning, ее перевод названия нуждается в комментарии. В задачах CV распознаваемые характеристики можно разделить на простые (low-level features) и сложные (high-level features). Поэтому оно должно выглядеть так «Создание сложных характеристик с использованием крупномасштабного обучения без учителя». Использование термина «без учителя» может создать впечатление, что система, снабженная AI, может обучиться чему-то сама, разумеется это неверно, без руководства человека никакой AI не способен к самостоятельному получению знаний. Unsupervised в этом контексте означает, скорее, неконтролируемый, то есть процесс обучения осуществляется автоматически, но по заданию человека.
Истинная со скидкой для дракона
Любовные романы:
любовно-фантастические романы
рейтинг книги
Герцог и я
1. Бриджертоны
Любовные романы:
исторические любовные романы
рейтинг книги
На границе империй. Том 9. Часть 5
18. Фортуна дама переменчивая
Фантастика:
космическая фантастика
попаданцы
рейтинг книги
Росток
2. Хозяин дубравы
Фантастика:
попаданцы
альтернативная история
фэнтези
рейтинг книги
Демон
2. История одного эволюционера
Фантастика:
рпг
постапокалипсис
рейтинг книги
Огромный. Злой. Зеленый
1. Большой. Зеленый... ОРК
Любовные романы:
любовно-фантастические романы
рейтинг книги
Запечатанный во тьме. Том 1. Тысячи лет кача
1. Хроники Арнея
Фантастика:
уся
эпическая фантастика
фэнтези
рейтинг книги
Тайны ордена
6. Девятый
Фантастика:
боевая фантастика
попаданцы
рейтинг книги
Кодекс Охотника. Книга VI
6. Кодекс Охотника
Фантастика:
фэнтези
попаданцы
аниме
рейтинг книги
Неудержимый. Книга XXI
21. Неудержимый
Фантастика:
попаданцы
аниме
фэнтези
рейтинг книги
Возлюби болезнь свою
Научно-образовательная:
психология
рейтинг книги
