Чтение онлайн

на главную - закладки

Жанры

Охота на электроовец. Большая книга искусственного интеллекта
Шрифт:

Но наибольший успех до команды SuperVision показали Дэн Чирешан со своими коллегами из уже знакомой нам группы Юргена Шмидхубера в лаборатории искусственного интеллекта швейцарского института IDSIA, которые смогли к 2011 г. достичь 60-кратного выигрыша в скорости по сравнению с CPU. С мая по сентябрь 2012 г. их модель одержала победу как минимум в четырёх конкурсах по распознаванию изображений. Кроме того, Чирешану и его коллегам удалось значительно улучшить описанные на тот момент в научной прессе рекордные результаты в точности распознавания для нескольких датасетов изображений. Именно в 2011 г. на соревнованиях по распознаванию знаков дорожного движения, проводившихся в рамках ежегодной Международной объединённой конференции по нейронным сетям (International Joint Conference on Neural Networks), модель Чирешана и его коллег не только стала победителем, но и продемонстрировала сверхчеловеческую точность распознавания (ошибка в 0,56% против 1,16% в среднем для людей). Их модель представляла собой ансамбль из 25 свёрточных сетей, каждая из которых имела два свёрточных

слоя с максимизирующим пулингом, а также два полносвязных слоя [1865] .

1865

* Под ансамблем в машинном обучении понимают объединение нескольких моделей для решения одной задачи, позволяющее достичь лучшего результата, чем при использовании каждой модели по отдельности; для получения результирующего прогноза ансамбля результаты входящих в него моделей могут усредняться либо комбинироваться каким-то более сложным образом.

При обучении модели Чирешан и его коллеги осуществляли аугментацию обучающей выборки, используя небольшие изменения масштаба, повороты изображений и различные типы их нормализации (аналогично участникам команды SuperVision на ILSVRC-2012). Для обучения применялись четыре видеокарты Nvidia GTX 580.

Использованная на соревнованиях обучающая выборка содержала 39 209 изображений, тестовая — 12 630. Все изображения были поделены на 43 непересекающихся класса (соответствующие каждому из знаков дорожного движения). Размер картинок варьировался от 15 x 15 до 250 x 250 пикселей, причём картинки не всегда были квадратными и не всегда дорожный знак находился в центре изображения. Поэтому для подачи изображений на вход сети Чирешан и его коллеги привели все картинки к размеру 48 x 48 пикселей.

Использованная архитектура имела приблизительно 1,5 млн параметров, половина которых приходилась на два последних полносвязных слоя. Обучение всего ансамбля сетей на четырёх графических картах продолжалось 37 часов [1866] , [1867] .

6.2.1.4 Последователи AlexNet. GoogLeNet как новый уровень

Неудивительно, что победителем ILSVRC-2013 также стала свёрточная нейронная сеть. Обычно её называют ZFNet, но это не совсем точно.

1866

Ciresan D., Meier U., Masci J., Schmidhuber J. (2012). Multi-Column Deep Neural Network for Traffic Sign Classification // http://people.idsia.ch/~juergen/nn2012traffic.pdf

1867

Schmidhuber J. 2011: First Superhuman Visual Pattern Recognition. IJCNN 2011 competition in Silicon Valley: twice better than humans, three times better than the closest artificial competitor, six times better than the best non-neural method // http://people.idsia.ch/~juergen/superhumanpatternrecognition.html

Сеть была разработана доктором Робом Фергюсом из Нью-Йоркского университета и его тогдашним аспирантом Мэтью Зейлером. В своей статье авторы благодарят также Яна Лекуна, который, будучи профессором Нью-Йоркского университета, участвовал в обсуждениях при работе над моделью. Окончательная версия сети, показавшая наилучший результат на соревнованиях, называется Clarifai — по имени стартапа, основанного Зейлером. Но всё-таки чаще эту модель называют ZFNet (по первым буквам фамилий её создателей).

Итоговая величина ошибки Clarifai составила 11,74% (11,20% с привлечением дополнительных данных для обучения, не принадлежащих к обучающей выборке) [1868] . Модель представляла собой ансамбль из шести сетей, по архитектуре идентичных AlexNet [1869] .

В 2014 г. авторам сети GoogLeNet (другое её название — Inception V1; это название сеть получила в честь одноимённого научно-фантастического фильма) удалось уменьшить величину ошибки до дьявольски низкого значения в 6,66% [1870] .

1868

Tsang S.-H. (2018). Review: ZFNet — Winner of ILSVRC 2013 (Image Classification) // https://medium.com/coinmonks/paper-review-of-zfnet-the-winner-of-ilsvlc-2013-image-classification-d1a5a0c45103

1869

Tsang S. H. (2018). Review: ZFNet — Winner of ILSVRC 2013 (Image Classification) // https://medium.com/coinmonks/paper-review-of-zfnet-the-winner-of-ilsvlc-2013-image-classification-d1a5a0c45103

1870

* Во многих популярных статьях, посвящённых результатам ILSVRC-2014, результирующая ошибка указана равной 6,67%. На самом деле точное значение ошибки — 0,06656, то есть 6,66%. Интересно, кто так «округлил» результат? И сделано ли это было во славу Господа?

Так

или иначе, показатели сетей приблизились к человеческому уровню, который организаторы конкурса теперь были вынуждены оценить. Сделать это оказалось не так просто. Для того чтобы побить точность GoogLeNet, потребовалось потратить некоторое время на обучение персонала. После нескольких дней обучения человек-эксперт (им был Андрей Карпатый, ныне — директор по ИИ и зрению автопилота в Tesla) смог достичь уровня ошибки в 5,1%. Ансамбль экспертов продемонстрировал уровень ошибки в 3,6% [1871] . Трудно признать эти оценки достаточно надёжными, однако именно их принято в наши дни использовать для оценки точности людей при распознавании картинок ImageNet.

1871

Das S. (2017). CNN Architectures: LeNet, AlexNet, VGG, GoogLeNet, ResNet and more… // https://medium.com/analytics-vidhya/cnns-architectures-lenet-alexnet-vgg-googlenet-resnet-and-more-666091488df5

GoogLeNet — свёрточная сеть, в названии которой явно читается отсылка к LeNet. Основой сети стал новый элемент, получивший название «модуль основания» [inception module] (далее в тексте я буду писать «модуль inception», поскольку «модуль основания» по-русски никто не говорит). Изюминкой модуля inception является использование свёртки с ядром 1 x 1 — для снижения размерности выходов предшествующих слоёв. То есть к пространству признаков размерностью X x Y x Z применяется свёртка с ядром 1 x 1 с размером фильтра 1 x 1 x Z, дающая слой размерностью X x Y x 1. Совершив N таких свёрток (с разными фильтрами) и соединив полученные результаты, мы получим пространство признаков размерностью X x Y x N. Задавая N сильно меньше Z, мы получим сокращение пространства признаков.

Каждый модуль inception осуществляет четыре параллельные ветви свёртки (одиночная свёртка с ядром 1 x 1, две последовательные свёртки — 1 x 1 и 3 x 3, две последовательные свёртки 1 x 1 и 5 x 5 и в последней ветке — максимизирующий пулинг 3 x 3 с последующей свёрткой 1 x 1), после чего результаты всех веток объединяются. Вся сеть собрана из подобных блоков, однако это не единственное новшество. Например, вместо одного из полносвязных слоёв на выходе сети авторы GoogLeNet применили слой усредняющего пулинга. Сеть также содержит два дополнительных «досрочных» выхода, используемых при обучении для борьбы с исчезающими градиентами, и множество других гитик, на которых мы не будем здесь останавливаться. В общем, по сравнению с лучшими архитектурами 2013 г. GoogLeNet смотрелась как работа утончённого ювелира среди грубых булыжников мостовой. GoogLeNet состояла из 22 слоёв, однако количество параметров сети по сравнению с AlexNet сократилось на порядок [1872] .

1872

Tsang S. H. (2018). Review: GoogLeNet (Inception v1)— Winner of ILSVRC 2014 (Image Classification) // https://medium.com/coinmonks/paper-review-of-googlenet-inception-v1-winner-of-ilsvlc-2014-image-classification-c2b3565a64e7

Второе место на соревнованиях 2014 г. с небольшим отрывом заняла сеть VGGNet, созданная Кареном Симоняном и Эндрю Зиссерманом из оксфордской Группы визуальной геометрии (Visual Geometry Group). Так же как и AlexNet, VGGNet использовала свёртки с ядром 3 x 3, но с большим количеством фильтров. Авторы обучили несколько вариантов сети, число слоёв которых варьировало от 11 до 19. На обучение самого большого варианта сети системе, оснащённой четырьмя GPU Nvidia Titan Black, требовалось порядка 2–3 недель. Наибольшей точности удалось достичь с применением ансамбля двух сетей (с 16 и 19 свёрточными слоями), имевшими 138 и 144 млн параметров соответственно (что также на порядок больше, чем у GoogLeNet) [1873] .

1873

Simonyan K., Zisserman A. (2015). Very deep convolutional networks for large-scale image recognition // https://arxiv.org/abs/1409.1556

Как бы ни была удивительна архитектура GoogLeNet, победительница состязаний 2015 г. была ещё более странной. Ею стала модель ResNet (а точнее, ансамбль из нескольких таких моделей), представленная Каймином Хе и его коллегами из Miscrosoft. ResNet — это сокращение от residual network, то есть «нейронная сеть с остатками». Этим термином в наши дни принято называть нейронные сети, в которых имеются skip connections — связи, перепрыгивающие слои. Благодаря перепрыгивающим связям, а также применению слоёв пакетной нормализации Хе смог обучить сеть, в которой было целых 152 слоя! При этом число параметров сети (около 60 млн) было более чем вдвое меньше, чем у VGG. Вероятно, примерно в это время в сообществе специалистов по глубокому обучению и появился мем: Stack more layers! [Громозди больше слоёв!].

Поделиться:
Популярные книги

Недотрога для темного дракона

Панфилова Алина
Фантастика:
юмористическое фэнтези
фэнтези
сказочная фантастика
5.00
рейтинг книги
Недотрога для темного дракона

Мастер Разума III

Кронос Александр
3. Мастер Разума
Фантастика:
героическая фантастика
попаданцы
аниме
5.25
рейтинг книги
Мастер Разума III

Сын Тишайшего

Яманов Александр
1. Царь Федя
Фантастика:
попаданцы
альтернативная история
фэнтези
5.20
рейтинг книги
Сын Тишайшего

Стеллар. Заклинатель

Прокофьев Роман Юрьевич
3. Стеллар
Фантастика:
боевая фантастика
8.40
рейтинг книги
Стеллар. Заклинатель

Голодные игры

Коллинз Сьюзен
1. Голодные игры
Фантастика:
социально-философская фантастика
боевая фантастика
9.48
рейтинг книги
Голодные игры

Мифы Древней Греции

Грейвз Роберт Ранке
Большие книги
Старинная литература:
мифы. легенды. эпос
9.00
рейтинг книги
Мифы Древней Греции

Купчиха. Трилогия

Стриковская Анна Артуровна
Любовные романы:
любовно-фантастические романы
5.25
рейтинг книги
Купчиха. Трилогия

Правильный попаданец

Дашко Дмитрий Николаевич
1. Мент
Фантастика:
альтернативная история
5.75
рейтинг книги
Правильный попаданец

Законы Рода. Том 6

Андрей Мельник
6. Граф Берестьев
Фантастика:
юмористическое фэнтези
аниме
5.00
рейтинг книги
Законы Рода. Том 6

Идеальный мир для Лекаря 23

Сапфир Олег
23. Лекарь
Фантастика:
юмористическое фэнтези
аниме
фэнтези
5.00
рейтинг книги
Идеальный мир для Лекаря 23

Вечный. Книга V

Рокотов Алексей
5. Вечный
Фантастика:
боевая фантастика
попаданцы
рпг
5.00
рейтинг книги
Вечный. Книга V

Зауряд-врач

Дроздов Анатолий Федорович
1. Зауряд-врач
Фантастика:
альтернативная история
8.64
рейтинг книги
Зауряд-врач

Изгой Проклятого Клана

Пламенев Владимир
1. Изгой
Фантастика:
попаданцы
аниме
фэнтези
5.00
рейтинг книги
Изгой Проклятого Клана

Идеальный мир для Лекаря 11

Сапфир Олег
11. Лекарь
Фантастика:
фэнтези
аниме
5.00
рейтинг книги
Идеальный мир для Лекаря 11