Чтение онлайн

на главную - закладки

Жанры

Охота на электроовец. Большая книга искусственного интеллекта
Шрифт:

На соревновании ResNet-152 показала величину ошибки в 3,57%, тем самым достигнув сверхчеловеческого уровня точности распознавания и даже превзойдя уровень, продемонстрированный годом ранее ансамблем людей-экспертов.

В 2016 г. победу одержал ансамбль из пяти моделей, которыми были ResNet-200 (с двумя сотнями слоёв), третья и четвёртая версия сети Inception, плод «порочной любви» Inception и ResNet — InceptionResnet-v2, а также Wide residual network [Широкая сеть с остатками]. Ошибка такого ансамбля составила всего 2,99%.

Создатели ансамбля — команда TRIMPS (Third Research Institute of the Ministry of Public Security, Третий исследовательский институт Министерства общественной безопасности [Китая]) — в своём докладе, рассказывающем об их модели, обратили внимание на основные источники ошибок распознавания, среди которых главными были недостатки самого набора изображений и его разметки: неправильные метки, число объектов более пяти, неправильный «уровень» метки (например, картинка, на которой изображена тарелка с едой, имеет метку «ресторан» и т. д.). Подробный анализ «ошибок» современных моделей на базе ImageNet показывает, что ошиблась на самом деле не модель, а человек, выполнявший разметку [1874] .

1874

Shao J., Zhang X., Ding Z., Zhao Y., Chen Y., Zhou J., Wang W., Mei L., Hu C. (2016). Good Practices for Deep Feature Fusion // http://image-net.org/challenges/talks/2016/[email protected]

Впрочем,

в 2017 г. авторам лучшей модели удалось ещё немного превзойти результат прошлого года. Ошибка снизилась до 2,25% благодаря появлению новой архитектуры, получившей название «Сети сжатия и возбуждения» (Squeeze-and-Excitation Networks). «Строительный блок» таких сетей представляет собой модуль inception со встроенным перепрыгивающим соединением [1875] .

Рис. 120. Уменьшение ошибки при распознавании изображений на соревнованиях ILSVRC

1875

Hu J., Shen L, Sun G. (2018). Squeeze-and-Excitation Networks / IEEE Conference on Computer Vision and Pattern Recognition // https://github.com/hujie-frank/SENet

6.2.1.5 Конец начала и перспективы развития

2017-й стал последним годом в истории ILSVRC. Эстафета по проведению состязаний по распознаванию изображений перешла к Kaggle (платформе для организации соревнований в области машинного обучения) [1876] . Но эти семь лет успели изменить буквально всё.

Один из организаторов ILSVRC Алекс Берг охарактеризовал произошедшие изменения следующим образом: «Когда мы начинали проект, такие вещи индустрия ещё не делала. Теперь это продукты, которые используют миллионы людей» [1877] . Действительно, менее чем за десять лет системы распознавания изображений из лабораторных прототипов превратились в компоненты множества высокотехнологичных продуктов и сервисов, представленных на рынке.

1876

Fei-Fei L., Deng J. (2017). ImageNet: Where have we been? Where are we going? // http://image-net.org/challenges/talks_2017/imagenet_ilsvrc2017_v1.0.pdf

1877

Reynolds M. (2017). New computer vision challenge wants to teach robots to see in 3D / New Scientist, Iss. 3121 // https://www.newscientist.com/article/2127131-new-computer-vision-challenge-wants-to-teach-robots-to-see-in-3d/

Хотя ImageNet и не был первым стандартизованным датасетом изображений (к 2009 г. их насчитывалось уже более двух десятков), однако он многократно превзошёл предшественников как по объёму, так и по детальности разметки, которая впервые была выполнена с привязкой к базе данных естественного языка. ILSVRC не были первыми соревнованиями по распознаванию изображений, однако стали самыми популярными среди таковых в истории (в 2010 г. в ILSVRC приняло участие 35 команд, в 2016 г. — 172 команды) [1878] . ILSVRC также не были первыми соревнованиями по распознаванию изображений, в которых победу одержала нейросетевая модель, однако именно победа нейросетевой модели на ILSVRC стала громким медийным поводом, привлекшим внимание общественности к успехам в этой области. И наконец, ILSVRC не были первыми соревнованиями, в которых машины превзошли человека в задаче распознавания образов, хотя именно этот результат теперь принято использовать в качестве одного из доказательств революционного прорыва, совершённого в отрасли машинного обучения в последние годы.

1878

Fei-Fei L., Deng J. (2017). ImageNet: Where have we been? Where are we going? // http://image-net.org/challenges/talks_2017/imagenet_ilsvrc2017_v1.0.pdf

Наследниками ImageNet стали многочисленные специализированные датасеты, такие как Medical ImageNet (база данных медицинских изображений) [1879] , SpaceNet (база данных фотоснимков объектов, выполненных из космоса) [1880] , ActivityNet (база данных видеозаписей различной человеческой активности) [1881] , EventNet (база данных с семантически размеченными видео) [1882] и так далее.

1879

Medical Image Net: A petabyte-scale, cloud-based, multi-institutional, searchable, open repository of diagnostic imaging studies for developing intelligent image analysis systems // http://langlotzlab.stanford.edu/projects/medical-image-net/

1880

SpaceNet // https://spacenet.ai/datasets/

1881

Heilbron F. C., Escorcia V., Ghanem B., Niebles J. C. (2015). ActivityNet: A Large-Scale Video Benchmark for Human Activity Understanding / Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 961—970 // http://activity-net.org/

1882

Chang S. F., Liu D., Ye G., Li Y., Xu H., Liu H., Wang D., Lin T., Chen Q., Shou Z. A Large Scale Structured Concept Library // http://eventnet.cs.columbia.edu/index.html

На последнем слайде выступления организаторов ILSVRC в 2017 г. размещена цитата Уинстона Черчилля: «Это не конец. Это даже не начало конца. Но, возможно, это конец начала» [1883] .

Действительно, прогресс в точности распознавания образов не стоит на месте, а оценить его можно по результатам, приводимым в научных публикациях. Например, точность

распознавания образов на массиве CIFAR-100 в 2019 г. выросла до 91,7% (модель EfficientNet) [1884] по сравнению с 89,3% (более ранняя модель от GoogleBrain на основе пирамидальных сетей (Feature Pyramid Networks, FPN) — специальной разновидности свёрточных сетей, в которой признаки, относящиеся к разным слоям свёртки, организованы в специальную пирамидальную иерархию, позволяющую более эффективно распознавать объекты разного масштаба [1885] ) [1886] , [1887] в 2018 г. В 2020 г. при помощи модели EfficientNet-L2 на CIFAR-100 удалось получить точность 96,1% (этот показатель по состоянию на сентябрь 2023 г. продолжает оставаться лучшим). Этот результат был достигнут благодаря технологии, получившей название «Минимизация с учётом резкости» (Sharpness-Aware Minimization). Идея этого подхода заключается в том, чтобы предпочитать такие параметры модели, в окрестностях которых функция потерь будет иметь значения, мало отличающиеся от минимума. Такая стратегия оптимизации позволяет достичь более хорошего обобщения в процессе обучения [1888] .

1883

Fei-Fei L., Deng J. (2017). ImageNet: Where have we been? Where are we going? // http://image-net.org/challenges/talks_2017/imagenet_ilsvrc2017_v1.0.pdf

1884

Tan M., Le Q. V. (2019). EfficientNet: Improving Accuracy and Efficiency through AutoML and Model Scaling / Google AI Blog // https://ai.googleblog.com/2019/05/efficientnet-improving-accuracy-and.html

1885

Lin T.-Y., Dollar P., Girshick R., He K., Hariharan B., Belongie S. (2016). Feature Pyramid Networks for Object Detection // https://arxiv.org/abs/1612.03144

1886

Cubuk E. D., Zoph B., Mane D., Vasudevan V., Le Q. V. (2018). AutoAugment: Learning Augmentation Policies from Data // https://arxiv.org/abs/1805.09501

1887

Cubuk E. D., Zoph B. (2018). Improving Deep Learning Performance with AutoAugment / Google AI Blog // https://ai.googleblog.com/2018/06/improving-deep-learning-performance.html

1888

Foret P., Kleiner A., Mobahi H., Neyshabur B. (2020). Sharpness-Aware Minimization for Efficiently Improving Generalization // https://arxiv.org/abs/2010.01412

Рис. 121. Увеличение точности распознавания изображений на массиве CIFAR-100

Модели, побеждавшие на ILSVRC, стали основой систем, широко применяющихся для решения самых разных прикладных задач: жестового управления устройствами, распознавания лиц и дорожных объектов в автомобильных автопилотах, опухолей на медицинских снимках, текста, мимики, почерка, состава блюд и так далее — в наши дни под самые разные задачи распознавания опубликовано огромное количество публичных датасетов. Одна только моя команда за 2022-й и начало 2023 года разместила в открытом доступе два таких набора данных: HaGRID [1889] , предназначенный для распознавания 18 управляющих жестов для умных устройств, и Slovo [1890] — для распознавания слов русского жестового языка.

1889

Kapitanov A., Makhlyarchuk A., Kvanchiani K. (2022). HaGRID - HAnd Gesture Recognition Image Dataset // https://arxiv.org/abs/2206.08219

1890

Kapitanov A., Kvanchiani K., Nagaev A., Petrova E. (2023). Slovo: Russian Sign Language Dataset // https://arxiv.org/abs/2305.14527

Несколько модифицировав архитектуру нейронной сети, можно решать и более сложные задачи, чем просто классификация изображений. Мы уже упоминали некоторые из них при перечислении номинаций в рамках ILSVRC. Например, задача локализации объектов предполагает поиск минимальных по размеру прямоугольников, внутри которых находится интересующий нас объект. Сегодня нейронные сети успешно решают и более сложные варианты задачи распознавания образов, например задачу так называемой сегментации [segmentation], когда сеть должна найти точные контуры интересующих нас объектов. С этой задачей успешно справляются такие архитектуры, как, например, U-Net, разработанная на факультете информатики Фрайбургского университета (Albert-Ludwigs-Universitat Freiburg) для задач сегментации медицинских изображений ещё в 2015 г. [1891] С помощью такой сети можно успешно выявлять аномалии на рентгеновских снимках, находить определённые типы клеток на микрофотографиях тканей живых организмов… А можно, скажем, и удалять нежелательных персонажей с красивых коллективных фото.

1891

Ronneberger O., Fischer P., Brox T. (2015). U-Net: Convolutional Networks for Biomedical Image Segmentation // https://arxiv.org/abs/1505.04597

Рис. 122. Пример решения задачи сегментации

Более сложный вариант этой задачи — семантическая сегментация [semantic segmentation], она предполагает выявление на изображениях контуров объектов с заданным названием. Модели, предназначенные для её решения, обычно являются гибридами моделей для решения задач обработки естественного языка и моделей для обработки изображений (обычно свёрточных сетей). К их числу относятся, например, сети, построенные из модулей CMPC (Cross-Modal Progressive Comprehension, Кросс-модальное прогрессивное понимание) и TGFE (Text-Guided Feature Exchange, Управляемое текстом извлечение признаков) [1892] .

1892

Huang S., Hui T., Liu S., Li G., Wei Y., Han J., Liu L., Li B. (2020). Referring Image Segmentation via Cross-Modal Progressive Comprehension // https://arxiv.org/abs/2010.00514

Поделиться:
Популярные книги

Завод 2: назад в СССР

Гуров Валерий Александрович
2. Завод
Фантастика:
попаданцы
альтернативная история
фэнтези
5.00
рейтинг книги
Завод 2: назад в СССР

Аномальный наследник. Том 1 и Том 2

Тарс Элиан
1. Аномальный наследник
Фантастика:
боевая фантастика
альтернативная история
8.50
рейтинг книги
Аномальный наследник. Том 1 и Том 2

Громовая поступь. Трилогия

Мазуров Дмитрий
Громовая поступь
Фантастика:
фэнтези
рпг
4.50
рейтинг книги
Громовая поступь. Трилогия

История "не"мощной графини

Зимина Юлия
1. Истории неунывающих попаданок
Фантастика:
попаданцы
фэнтези
5.00
рейтинг книги
История немощной графини

Штуцер и тесак

Дроздов Анатолий Федорович
1. Штуцер и тесак
Фантастика:
боевая фантастика
альтернативная история
8.78
рейтинг книги
Штуцер и тесак

Камень. Книга 3

Минин Станислав
3. Камень
Фантастика:
фэнтези
боевая фантастика
8.58
рейтинг книги
Камень. Книга 3

Этот мир не выдержит меня. Том 4

Майнер Максим
Первый простолюдин в Академии
Фантастика:
фэнтези
попаданцы
аниме
5.00
рейтинг книги
Этот мир не выдержит меня. Том 4

Белые погоны

Лисина Александра
3. Гибрид
Фантастика:
фэнтези
попаданцы
технофэнтези
аниме
5.00
рейтинг книги
Белые погоны

Мастер Разума IV

Кронос Александр
4. Мастер Разума
Фантастика:
боевая фантастика
попаданцы
аниме
5.00
рейтинг книги
Мастер Разума IV

Плохой парень, Купидон и я

Уильямс Хасти
Любовные романы:
современные любовные романы
5.00
рейтинг книги
Плохой парень, Купидон и я

Газлайтер. Том 1

Володин Григорий
1. История Телепата
Фантастика:
попаданцы
альтернативная история
аниме
5.00
рейтинг книги
Газлайтер. Том 1

Три `Д` для миллиардера. Свадебный салон

Тоцка Тала
Любовные романы:
современные любовные романы
короткие любовные романы
7.14
рейтинг книги
Три `Д` для миллиардера. Свадебный салон

Новый Рал 5

Северный Лис
5. Рал!
Фантастика:
попаданцы
5.00
рейтинг книги
Новый Рал 5

Печать пожирателя 2

Соломенный Илья
2. Пожиратель
Фантастика:
городское фэнтези
попаданцы
аниме
сказочная фантастика
5.00
рейтинг книги
Печать пожирателя 2