Охота на электроовец. Большая книга искусственного интеллекта, Марков Сергей Николаевич

Охота на электроовец. Большая книга искусственного интеллекта

на обложку

Марков Сергей Николаевич

Шрифт:

Важным и во многом недооценённым фактором, повлиявшим на прогресс технологий машинного обучения, является наличие массивов оцифрованных данных, которые могут быть использованы в качестве обучающих выборок. В датасете MNIST, широко использовавшемся на заре новой коннекционистской весны, содержится 60 000 изображений в обучающей и 10 000 в тестовой выборке. Если при обучении перцептрона Розенблатта вы предъявляли бы ему эти изображения обучающей выборки со скоростью одно в секунду, процесс обучения занял бы почти 17 часов. А ведь это массив, который в наши дни считается «игрушечным». Для сравнения: в базе ImageNet, использовавшейся для обучения и тестирования систем распознавания образов в 2010-е гг., есть 14 197 122 изображения, разбитые на 21 841 категорию. На «скармливание» такого массива перцептрону ушло бы почти полгода. Во времена первой коннекционистской весны не существовало доступной цифровой фотографии, не существовало гигантских библиотек оцифрованных текстов, не было миллионов пользователей социальных сетей, ежедневно выкладывающих в открытый доступ тексты, фотографии и аудиозаписи. Причём данные, доступные в интернете, уже отчасти структурированы и размечены пользователями: посты в социальных сетях содержат метки в виде лайков и тегов, фотографии часто снабжены сопроводительным

текстом, профили пользователей содержат информацию о связях с другими профилями, публикации снабжены комментариями, видео на видеосервисах — информацией о количестве просмотров и так далее. Специалистами собраны, размечены и выложены в открытый доступ специализированные датасеты на любой вкус. И наконец, мощным источником данных являются производственные системы автоматизации. Благодаря внедрению вычислительной техники в работу предприятий и учреждений ежедневно собираются и накапливаются структурированные сведения о самых разных формах человеческой деятельности.

Таким образом, затраты на сбор и подготовку данных для многих задач машинного обучения сократились за несколько десятилетий многократно, причём темпы накопления человечеством цифровых данных в наши дни напоминают экспоненту.

В ноябре 2018 г. компания IDC при спонсорской поддержке Seagate провела исследование динамики объёма «цифровой вселенной» и пришла к выводу, что к 2025 г. человечество накопит 175 зеттабайт данных (по сравнению с 33 зеттабайтами в 2018 г.) [1752] . Вдумайтесь только: один зеттабайт равен одному триллиону гигабайт. Если бы мы могли записать всю эту информацию на DVD-диски с максимальной плотностью записи (17,08 Гб), то получили бы более 10 трлн дисков, а сложив эти диски вместе, мы получили бы стопку высотой более 12 млн километров, что примерно в 30 раз больше расстояния от Земли до Луны.

1752

Reinsel D., Gantz J., Rydning J. (2018). Data Age 2025: The Digitization of the World From Edge to Core. An IDC White Paper — #US44413318, Sponsored by Seagate // https://www.seagate.com/www-content/our-story/trends/files/idc-seagate-dataage-whitepaper.pdf

Таким образом, по оценке IDC, «датасфера» человечества в течение следующих пяти лет будет удваиваться приблизительно каждые три года, а за год увеличиваться примерно в 1,27 раза. Интересно посмотреть на прогнозы IDC в ретроспективе. Доклад 2012 г. прогнозировал, что к 2020 г. количество накопленных данных достигнет 40 зеттабайт [1753] . Похоже, мы опередили этот план чуть больше чем на год.

Не только количество, но и качество в данном случае имеет значение. Расширение области применения алгоритмов машинного обучения создало целую сопутствующую индустрию по разметке данных. В рассказе о механическом турке фон Кемпелена мы уже упоминали платформу Amazon Mechanical Turk (MTurk), созданную для коллективной обработки данных. Идея этого сервиса впервые появилась в патентной заявке предпринимателя Венки Харинараяна, поданной им в США в 2001 г. [1754] Идея заключалась в том, чтобы не просто привлечь людей к разметке данных в целях последующей автоматизации, а чтобы временно сделать людей частью производственных процессов по обработке данных там, где машины пока ещё не могут работать эффективнее, чем люди. В Amazon был придуман специальный термин для такого применения человеческого труда — «искусственный искусственный интеллект» (artificial artificial intelligence).

1753

Gantz J., Reinsel D. (2012). IDC Digital Universe Study: Big Data, Bigger Digital Shadows and Biggest Growth in the Far East // https://www.whizpr.be/upload/medialab/21/company/Media_Presentation_2012_DigiUniverseFINAL1.pdf

1754

См. патент «Hybrid machine/human computing arrangement». 2001-03-19 .

MTurk была официально запущена 2 ноября 2005 г. К середине ноября 2005 г. в системе было создано несколько десятков тысяч задач (на MTurk для них используется термин HIT — human intelligence task, задача для человеческого интеллекта), заказчиком которых была сама Amazon. К числу типичных заданий на MTurk относятся расшифровка (например, аудиозаписей), оценка (например, качества изображений), расстановка тегов (например, для видеороликов), заполнение опросов, написание текстов и так далее. В 2007 г. владельцы сервиса сообщали, что всего на платформе зарегистрировано 100 000 работников из более чем 100 стран мира, а в 2011 г. — уже 500 000 работников из более чем 190 стран.

В 2014 г. в России компания «Яндекс» создала собственный, популярный ныне сервис разметки «Яндекс.Толока» [1755] . Сегодня у нас в стране и за рубежом создан целый ряд сходных платформ. Одни из них делают упор на геймификацию процесса, другие в качестве конкурентных преимуществ заявляют наличие разметчиков, обладающих специализированными знаниями или сертификатами, третьи создаются крупными компаниями для разметки данных, которые не могут по какой-либо причине передаваться сторонним подрядчикам. К разметке данных, помимо сотрудников компаний и фрилансеров, привлекают даже заключённых и должников банков.

1755

* Словом «толoка» в России в прошлом называли форму деревенской взаимопомощи, толоку организовывали для выполнения срочных работ, требующих объединения усилий большого количества работников: сооружения дома или постройки дороги, вырубки леса и так далее.

Платформы, подобные MTurk, часто считают характерным примером краудсорсинга (crowdsourcing, от crowd — толпа и sourcing — использование ресурсов).

Это слово, изобретённое в 2005-м и впервые употреблённое в публичном пространстве в 2006 г., прочно вошло в лексикон предпринимателей, футурологов, философов и журналистов, хотя до сих пор по поводу его определения существуют некоторые разногласия. Общепринято, что под краудсорсингом понимается объединение людей (обычно в интернете) для выполнения какой-либо задачи совместными усилиями. Расхождения в определении начинаются с вопросов о том, в обязательном ли порядке труд участников является добровольным и безвозмездным, обязательно ли плоды этого труда являются общественным достоянием, кто может выступать в роли инициатора краудсорсинга. На самом деле противоречия были заложены в понятие фактически «от рождения». Один из его «отцов» Джефф Хау в 2006 г. писал:

Мне нравится использовать два определения для краудсорсинга:

Версия «белой книги» [White Paper]: краудсорсинг — это процесс передачи работы, традиционно выполняемой назначенным агентом (обычно сотрудником), на аутсорсинг неопределённой, как правило, большой группе людей в форме открытого призыва.

Версия Soundbyte: применение принципов открытого программного обеспечения [Open Source] к областям деятельности, не относящимся к программному обеспечению [1756] .

1756

Howe J. (2006). Crowdsourcing: A Definition / Crowdsourcing Blog, June 2, 2006 // http://crowdsourcing.typepad.com/cs/2006/06/crowdsourcing_a.html

Под «белой книгой» в данном случае понимается статья [1757] Хау в издании Wired, которая увидела свет в январе 2006-го и впервые сделала термин «краудсорсинг» достоянием общественности.

Словарь Мерриам — Уэбстера даёт [1758] определение, максимально приближенное именно к определению «белой книги»; если же мы выберем определение от Soundbyte, то MTurk внезапно перестанет быть краудсорсинговой платформой. Чтобы справиться с возникшими затруднениями, два храбрых исследователя из Университета Валенсии, Энрике Эстельес-Аролас и Фернандо Гонсалес-Ладрон-де-Гевара, предприняли смелую партизанскую операцию, опубликовав в Journal of Information Science работу под названием «К интегрированному определению краудсорсинга» (Towards an integrated crowdsourcing definition), в которой проанализировали 209 текстов, а также 40 найденных ими определений понятия «краудсорсинг». Авторы статьи выделили в каждом из определений основные признаки и рассмотрели образуемые определениями группы. Результатом работы стало новое, сорок первое определение краудсорсинга, звучащее следующим образом: «Краудсорсинг — это тип интерактивной онлайн-деятельности, в которой физическое лицо, учреждение, некоммерческая организация или компания посредством гибкого открытого призыва предлагают группе лиц с различными знаниями, степенью разнородности и количеством участников добровольно выполнить некоторую задачу. Выполнение задачи различной сложности и состава, в котором группа должна участвовать, внося свой вклад в форме работы, денег, знаний и/или опыта, всегда подразумевает взаимную выгоду. Участник получит удовлетворение некоторых потребностей, например экономических, потребности в социальном признании, увеличении самооценки или развитии индивидуальных навыков, в то время как краудсорсер получит и использует в своих интересах то, что участник принёс предприятию в зависящей от вида предпринятой деятельности форме» [1759] .

1757

Howe J. (2006). The Rise of Crowdsourcing / Wired, 06.01.06 // https://www.wired.com/2006/06/crowds/

1758

Crowdsourcing (2020) / Merriam-Webster.com Dictionary, Merriam-Webster // https://www.merriam-webster.com/dictionary/crowdsourcing

1759

Estelles-Arolas E., Gonzalez-Ladron-de-Guevara F. (2012). Towards an integrated crowdsourcing definition / Journal of Information Science 38(2), April 2012 // https://doi.org/10.1177/016555150000000

Лично мне больше всего нравится именно это определение, поскольку чтение его перед сном позволяет мне получить удовлетворение некоторой потребности, а именно потребности в скорейшем наступлении сна, что, в свою очередь, позволяет мне с большим успехом впоследствии добиться наиболее полного удовлетворения потребностей в социальном признании, развитии индивидуальных навыков, а также экономических потребностей.

Ну а если серьёзно, то современные нейросетевые модели для решения задач в области обработки естественного языка нередко используют в качестве элемента обучающей выборки полный текст «Википедии», исследователи обращаются к помощи волонтёров в рамках проектов «гражданской науки», корпоративные разработчики используют внутренние данные и популярные площадки для разметки данных, расплачиваясь с разметчиками при помощи микротранзакций, приверженцы открытости в науке и разработке программного обеспечения выкладывают в общий доступ собственные массивы данных, хитрые маркетологи занимаются веб-скрейпингом (извлечением данных со страниц веб-ресурсов) или сбором пользовательских данных через игры, тесты и другие вирусные развлечения в социальных сетях, а владельцы социальных сетей вяло судятся с теми, кто пытается использовать без спроса публичные данные из профилей пользователей. Многочисленные животворящие источники данных питают индустрию машинного обучения, обеспечивая её бурное цветение.

6 Час настал. Да грянет бал!

— Бал! — пронзительно визгнул кот, и тотчас Маргарита вскрикнула и на несколько секунд закрыла глаза. Бал упал на неё сразу в виде света, вместе с ним — звука и запаха. Уносимая под руку Коровьевым, Маргарита увидела себя в тропическом лесу. Красногрудые зеленохвостые попугаи цеплялись за лианы, перескакивали по ним и оглушительно кричали: «Я восхищён!»

Михаил Булгаков. Мастер и Маргарита