Охота на электроовец. Большая книга искусственного интеллекта
Шрифт:
6.1 ИИ сейчас — большой интерес, обширные вложения и хорошие прогнозы
В 2019 г. Джеффри Дин из Google поделился с публикой своей презентацией под названием «Глубокое обучение для решения сложных проблем» (Deep Learning to Solve Challenging Problems). На первом же слайде презентации был приведён график, показывающий количество научных работ в области машинного обучения, размещаемых ежегодно на сервисе для публикации препринтов (предшествующих публикации предварительных версий статей) arXiv.org. В 2018 г. их число превысило 35 000, что означает, что в 2018 г. в день на arXiv.org публиковалось около 100 новых статей по данной тематике. Это более чем в 30 раз превосходит показатель 2009 г. Вспомогательная шкала на графике, представленном Дином, позволяет оценить, во сколько раз увеличилось число статей по сравнению с базовым 2009 г. Всего за девять лет количество статей выросло примерно в 32 раза.
Таким образом, рост числа статей происходил
Впрочем, показатель, избранный Дином, нельзя признать до конца удачным. Дело в том, что за это же время общее количество препринтов статей на arXiv.org также существенно выросло — с примерно 65 000 в 2009 г. до почти 140 000 в 2018 г. [1761] Поэтому если посмотреть на долю публикаций по машинному обучению от общего их числа, то рост будет немного более скромным, но всё же более чем впечатляющим — с 1,7 до 25%.
1760
Dean J. (2019). Deep Learning to Solve Challenging Problems // https://www2019.thewebconf.org/media/Deep_Learning_for_Solving_Important_Problems.pdf
1761
arXiv submission rate statistics (2019). Data for 1991 through 2018, updated 1 January 2019 / ArXiv // https://arxiv.org/help/stats/2018_by_area
Если использовать для анализа другой источник, а именно Scopus от Elsevier — крупнейшую в мире базу данных рецензируемых и цитируемых публикаций, то наблюдаемый здесь рост будет уже не столь впечатляющий, но по-прежнему многократный. По данным стэнфордского ежегодного доклада Artificial Intelligence Index Report за 2019 г. (AIIR-2019), в конце 1990-х гг. на тематику, связанную с ИИ, приходилось менее 1% научных статей и около 3% публикаций по итогам научных конференций. К 2018 г. оба показателя выросли приблизительно втрое, до 3 и 9% соответственно [1762] . Такая существенная разница в показателях arXiv.org и Scopus, по всей видимости, объясняется двумя факторами. Во-первых, область ИИ ещё 10–20 лет назад была в меньшей мере связана с машинным обучением. В наши дни некоторые публицисты вообще ставят знак равенства между ИИ и машинным обучением, хотя машинное обучение — это лишь одна из отраслей ИИ. Многие системы ИИ, упомянутые нами ранее, либо вовсе обходились без применения машинного обучения (например, Logical Theorist), либо использовали его в качестве неосновной техники (например, Deep Blue или Chinook). Поэтому графики, построенные для arXiv.org и Scopus, всё-таки отражают динамику разных показателей. Во-вторых, современное сообщество специалистов в области машинного обучения активно выступает за максимальную открытость исследований в данной области. И это проявляется не только в создании проектов, подобных OpenAI (некоммерческой исследовательской компании из Сан-Франциско, основанной Илоном Маском, президентом венчурного фонда Y Combinator Сэмом Альтманом и рядом других видных исследователей и предпринимателей), но и, например, в бойкоте, объявленном журналу Nature Machine Intelligence со стороны ведущих исследователей в области машинного обучения (в числе которых, например, Джеффри Хинтон, Ян Лекун, Йошуа Бенджио и другие знаменитые учёные) в знак протеста против политики закрытого доступа к публикациям [1763] .
1762
Stanford Human-Centered Artificial Intelligence (HAI) (2019). Artificial Intelligence Index Report 2019 // https://hai.stanford.edu/sites/default/files/ai_index_2019_report.pdf
1763
Hutson M. (2018). Why are AI researchers boycotting a new Nature journal—and shunning others? / Science, May. 17, 2018 //https://openaccess.engineering.oregonstate.edu/signatures
В различных областях информатики доля публикаций, доступных в виде препринтов на arXiv.org, весьма различна. Машинное обучение — один из лидеров по данному показателю. Более 60% работ, относящихся к этой области, выложено авторами в публичный доступ. Для многих других областей информатики этот показатель близок к нулю. При этом в целом популярность arXiv.org среди исследователей в области информатики быстро растёт. В 2007 г. на arXiv.org в виде препринтов был доступен всего 1% публикаций по информатике, а в 2017 г. — уже 23% [1764] . Таким образом, существенный вклад в неравенство показателей Scopus и arXiv.org вносит, по всей видимости, растущая открытость исследований в области машинного обучения.
1764
Sutton C., Gong L. (2017). Popularity of arXiv.org within Computer Science // https://arxiv.org/abs/1710.05225
Так или иначе, в новом тысячелетии мы видим многократный рост количества публикаций, посвящённых ИИ и машинному обучению. Это, впрочем, не единственный показатель, свидетельствующий о наступлении новой весны ИИ. Помимо улучшения конкретных инженерных метрик (например, качества распознавания котиков на картинках), о которых мы поговорим немного позже, крайне важной является динамика экономических показателей, свидетельствующих о растущем влиянии прогресса в области ИИ на мировую экономику.
Авторы AIIR-2021 (аналогичного доклада Artificial Intelligence Index Report уже за 2021 г.) уделяют около десятка страниц своего отчёта анализу динамики рынка труда для специальностей, связанных с ИИ. Для этого они используют данные LinkedIn [1765] , включив в анализ страны, для которых покрытие рынка труда данными LinkedIn составило более 40% и в каждый из рассмотренных месяцев (2016 и 2020 гг.) набиралось хотя бы 10 человек, у которых в профиле присутствовал хотя бы один навык из области ИИ и которые в тот же месяц добавили в свою анкету новое место работы с датой начала, соответствующей этому же месяцу (для простоты мы будем называть владельцев таких профилей «людьми, получившими новую работу в области ИИ»). Также в анализ были включены Индия и Китай, хотя покрытие их рынка труда данными LinkedIn составляло менее 40%. В итоге в списке оказалось 25 стран. Для них авторы AIIR-2021 посчитали «индекс найма в ИИ» (AI Hiring Index), сначала рассчитав, какую долю в каждом из проанализированных месяцев составляли профили людей, получивших новую работу в области ИИ, от общего числа профилей LinkedIn для данной страны, а затем разделив полученное среднемесячное значение для 2020 г. на среднемесячное значение 2016 г. В итоге для всех 25 стран были получены значения в диапазоне от 3,4 (Бразилия) до примерно 1,25 (Китай) с медианным значением около 2 (смысл данных значений — это индекс, насколько чаще люди начали находить работу в сфере ИИ в 2020 г. по сравнению с 2016 г.).
1765
*
Честно говоря, методология данного исследования вызывает у меня целый ряд вопросов. Например, неясно, учитывалось ли изменение общего количества анкет по странам за указанный период. В тексте говорится о доле профилей людей, получивших новую работу в области ИИ, от общего числа профилей LinkedIn для данной страны, но неясно, на какой момент было взято это общее число профилей. Порог степени покрытия рынка труда данными LinkedIn выбран достаточно произвольно, что подтверждает волюнтаристское включение в список Индии и Китая. А почему, например, не включена Индонезия, занимающая четвёртое место в мире по населению? Вместо того чтобы выбрасывать из списка некоторые страны, авторы могли бы рассчитать средневзвешенное значение индекса, что было бы в принципе куда более уместно в эру глобальной экономики. Из исследования не совсем ясно, в какой мере наблюдаемый эффект обусловлен ростом частоты смены работы со стороны ИИ-специалистов, а в какой мере — появлением новых ИИ-специалистов или переходом специалистов между отраслями. Ну и наконец, нет попытки оценить, насколько смещена сама выборка пользователей LinkedIn относительно имеющегося в странах рынка труда. Опросы, проводимые в интернете, как известно, неизменно показывают наличие доступа в интернет у 100% опрошенных. Но, несмотря на все эти замечания, на сегодняшний день это единственное столь масштабное исследование рынка труда в области ИИ, охватывающее практически все крупнейшие экономики мира, и результаты, полученные в нём, однозначны: из 25 проанализированных стран ни в одной значение индекса не было меньше 1,25, что говорит о масштабных сдвигах на рынке труда. В США с 2010 по 2020 г. доля вакансий в областях ИИ и машинного обучения от общего числа вакансий, опубликованных в интернете, выросла примерно в шесть раз [1766] .
1766
Stanford Human-Centered Artificial Intelligence (HAI) (2021). Artificial Intelligence Index Report 2021 // https://aiindex.stanford.edu/wp-content/uploads/2021/11/2021-AI-Index-Report_Master.pdf
Надо сказать, что в следующих отчётах, AIIR-2022 и AIIR-2023, авторы вместо AI Hiring Index стали подсчитывать Relative AI Hiring Index, который рассчитывается относительно других стран региона. При таком подходе лучший результат показали Новая Зеландия и Гонконг (соответственно 2,42 и 1,37 в данных отчётах) [1767] , [1768] .
Если обратиться к данным российского рынка труда, то исследование, проведённое сервисом HeadHunter по заказу автономной некоммерческой организации «Цифровая экономика» в ноябре 2018 г., показало, что за год число вакансий в сфере искусственного интеллекта выросло в 2,5 раза, а за последние два года — в 15 раз, причём основными драйверами роста стали финансовая сфера и телекоммуникации [1769] .
1767
Stanford Human-Centered Artificial Intelligence (HAI) (2022). Artificial Intelligence Index Report 2022 // https://aiindex.stanford.edu/wp-content/uploads/2022/03/2022-AI-Index-Report_Master.pdf
1768
Stanford Human-Centered Artificial Intelligence (HAI) (2023). Artificial Intelligence Index Report 2023 // https://aiindex.stanford.edu/wp-content/uploads/2023/04/HAI_AI-Index-Report_2023.pdf
1769
Число вакансий в сфере искусственного интеллекта в РФ выросло за год в 2,5 раза (2018) / Прайм: агентство экономической информации, 10 Ноября 2018 // https://1prime.ru/telecommunications_and_technologies/20181110/829424812.html
Активный рост интереса к ИИ наблюдается и в сфере образования. Например, в январе 2018 г. на онлайн-курсы сервиса Udacity по тематикам, связанным с ИИ (введение в ИИ, введение в описательную статистику, введение в Hadoop и MapReduce, введение в машинное обучение и введение в TensorFlow для глубокого обучения), записалось около 105 000 пользователей, а годом позже, в январе 2019 г., — уже более 392 000 (рост за год более чем в 3,7 раза). Правда, авторы AIIR-2019 не приводят данные по суммарному количеству пользователей, записавшихся на курсы Udacity в эти же месяцы, что было бы весьма нелишним в условиях всеобщего роста интереса к массовым открытым онлайн-курсам (Massive open online course, MOOC) [1770] . Эти данные не так уж просто раздобыть, ежегодные отчёты компании Udacity старательно обходят эту тему. Известно, что в декабре 2018 г. Udacity отметила выпуск своего 50 000-го студента, а в декабре 2019-го — уже 100 000-го [1771] . Если темпы роста количества студентов, успешно завершивших обучение, соответствуют темпам роста числа записавшихся на курсы, то годовой прирост доли студентов, записавшихся на курсы Udacity, составит уже не 3,7, а 1,85 раза, что, несмотря на коррекцию, является впечатляющим результатом.
1770
Stanford Human-Centered Artificial Intelligence (HAI) (2019). Artificial Intelligence Index Report 2019 // https://hai.stanford.edu/sites/default/files/ai_index_2019_report.pdf
1771
Dalporto G. (2020). Udacity 2019: The Year in Review // https://blog.udacity.com/2019/12/looking-back-2019-udacity-year-in-review.html
К сожалению, статистика для самого популярного сервиса онлайн-обучения Coursera не позволяет получить даже столь приблизительную оценку динамики интереса к обучению в области ИИ. Однако первое по популярности место занимает на протяжении многих лет стэнфордский курс по машинному обучению от Эндрю Ына, при этом число пользователей Coursera выросло в 2019 г. примерно в 1,2 раза (с 37 до 45 млн человек) [1772] . Благодаря Coursera Эндрю Ын, вероятно, учит больше учеников, чем кто-либо другой на планете. По данным на апрель 2019 г., суммарное количество пользователей Coursera, записавшихся на его курс, превысило 2 млн человек [1773] .
1772
Shah D. (2019). Coursera’s 2019: Year in Review / Class central MOOCreport // https://www.classcentral.com/report/coursera-2019-year-review/
1773
Over 2M students have enrolled in Machine Learning MOOC from Stanford (2019) / MoocLab // https://www.mooclab.club/threads/over-2m-students-have-enrolled-in-machine-learning-mooc-from-stanford.11562/