Охота на электроовец. Большая книга искусственного интеллекта
Шрифт:
1. DaNetQA — набор вопросов на здравый смысл и знания об окружающем мире, подразумевающих ответ «да» или «нет» (набор не является прямым аналогом BoolQ и создан авторами Russian SuperGLUE с нуля).
2. RCB (Russian Commitment Bank, Русскоязычный банк убеждений) — классификация наличия причинно-следственных связей между текстом и некоторой гипотезой (также не является переводом англоязычной версии CommitmentBank и создан авторами Russian SuperGLUE на основе подборки новостей и художественной литературы).
3. PARus (Plausible Alternatives for Russian, Правдоподобные альтернативы для русского языка) — задачи на целеполагание, предполагающие выбор из альтернативных вариантов на основе здравого смысла (создан авторами Russian SuperGLUE на основе подборки новостей и художественной литературы из корпуса TAIGA [2204] ). Напоминает MultiRC с той лишь разницей, что правильный ответ в списке только один.
4. MuSeRC (Multi-Sentence Reading Comprehension, Понимание прочитанного по нескольким предложениям) — задания содержат текст и вопрос к нему, ответ на который можно дать на основе этого текста.
2204
Shavrina T., Shapovalova O. (2017). To the methodology of corpus construction for machine learning: «TAIGA» syntax tree corpus and parser / Proceedings of CORPORA2017 international conference, Saint-Petersbourg, 2017 // https://publications.hse.ru/en/chapters/228708483
5. RuCoS (Russian reading comprehension with Commonsense, Понимание прочитанного на основе здравого смысла для русского языка) — аналог ReCoRD,
6. TERRa (Textual Entailment Recognition for Russian, Распознавание текстуальной импликации для русского языка) — аналог RTE, созданный авторами Russian SuperGLUE на основе подборки новостей и художественной литературы.
7. RUSSE (Russian Semantic Evaluation, Оценка семантики для русского языка) — задачи распознавания смысла слова в контексте. Первая версия этого набора тестов (RUSSE’15) [2205] была разработана ещё в 2015 г., в состав же Russian SuperGLUE вошла его более современная версия [2206] — RUSSE’18. Его разработкой занималась большая группа исследователей из университетов и частных компаний.
2205
Panchenko A., Loukachevitch N. V., Ustalov D., Paperno D., Meyer C. M., Konstantinova N. (2018). RUSSE: The First Workshop on Russian Semantic Similarity / Proceeding of the International Conference on Computational Linguistics DIALOGUE 2015, pp. 89—105 // https://arxiv.org/abs/1803.05820
2206
Panchenko A., Lopukhina A., Ustalov D., Lopukhin K., Arefyev N., Leontyev A., Loukachevitch N. (2018). RUSSE’2018: a Shared Task on Word Sense Induction for the Russian Language / https://arxiv.org/abs/1803.05795
8. RWSD (Russian Winograd Schema Dataset, Русскоязычный датасет схем Винограда) — переводной вариант датасета WSC.
Первое место в таблице лидеров Russian SuperGLUE на сентябрь 2023 г. принадлежит людям (их результат оценивается в 0,811 балла), второе место (0,762 балла) занимает трансформерная модель FRED-T5 (о ней мы расскажем несколько позже), а третье — ансамбль трансформерных моделей под названием Golden Transformer v2.0 (0,755 балла) [2207] .
2207
RussianSuperGLUE leaderboard, Retreived 2022-01-31 // https://russiansuperglue.com/leaderboard/2
Помимо русскоязычного варианта SuperGLUE, в настоящее время созданы французский (FLUE) [2208] , китайский (CLUE) [2209] и польский (KLEJ) [2210] аналоги этого теста. Также исследователи разработали датасеты XGLUE (Cross-lingual GLUE, Межъязыковой GLUE) [2211] и XTREME (Cross-lingual TRansfer Evaluation of Multilingual Encoders, Межъязыковая оценка переноса для многоязычных кодировщиков) [2212] , ориентированные на многоязычные модели.
2208
Le H., Vial L., Frej J., Segonne V., Coavoux M., Lecouteux B., Allauzen A., Crabbe B., Besacier L., Schwab D. (2019). FlauBERT: Unsupervised Language Model Pre-training for French // https://arxiv.org/abs/1912.05372
2209
Xu L., Hu H., Zhang X., Li L., Cao C., Li Y., Xu Y., Sun K., Yu D., Yu C., Tian Y., Dong Q., Liu W., Shi B., Cui Y., Li J., Zeng J., Wang R., Xie W., Li Y., Patterson Y., Tian Z., Zhang Y., Zhou H., Liu S., Zhao Z., Zhao Q., Yue C., Zhang X., Yang Z., Richardson K., Lan Z. (2020). CLUE: A Chinese Language Understanding Evaluation Benchmark // https://arxiv.org/abs/2004.05986
2210
Rybak P., Mroczkowski R., Tracz J., Gawlik I. (2020). KLEJ: Comprehensive Benchmark for Polish Language Understanding // https://arxiv.org/abs/2005.00630
2211
Liang Y., Duan N., Gong Y., Wu N., Guo F., Qi W., Gong M., Shou L., Jiang D., Cao G., Fan X., Zhang R., Agrawal R., Cui E., Wei S., Bharti T., Qiao Y., Chen J.-H., Wu W., Liu S., Yang F., Campos D., Majumder R., Zhou M. (2020). XGLUE: A New Benchmark Dataset for Cross-lingual Pre-training, Understanding and Generation // https://arxiv.org/abs/2004.01401
2212
Hu J., Ruder S., Siddhant A., Neubig G., Firat O., Johnson M. (2020). XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating Cross-lingual Generalization // https://arxiv.org/abs/2003.11080
Сверхчеловеческий уровень понимания естественного языка, демонстрируемый моделями машинного обучения в тестах, подобных SuperGLUE, пока что вызывает некоторые вопросы. Например, Татьяна Шаврина и Валентин Малых обращают внимание на то, что метрики, положенные в основу SuperGLUE, несовершенны — арифметическое усреднение результатов, полученных моделями в разных типах тестов, приводит к заметной переоценке возможностей моделей, и в действительности люди всё же пока что понимают естественный язык лучше машин [2213] . Поэтому не исключено, что в ближайшее время наборы тестов будут подвергнуты очередному пересмотру — за счёт добавления новых, более сложных заданий, а также за счёт улучшения самих способов оценки результатов.
2213
Shavrina T., Malykh V. (2021). How not to Lie with a Benchmark: Rearranging NLP Leaderboards // https://arxiv.org/abs/2112.01342
Впрочем, некоторые виды задач на понимание естественного языка пока что являются довольно сложными даже для лучших нейросетевых моделей. Например, созданный ещё в 2020 г. набор тестов MMLU (Massive Multitask Language Understanding, Массовое мультизадачное понимание языка), охватывающий 57 типов заданий (задачи из области арифметики, информатики, юриспруденции, истории США и т. д.), всё ещё остаётся крепким орешком. Лучший результат здесь демонстрирует GPT-4 с 86,4% правильных ответов — что пока не дотягивает до уровня людей-экспертов с результатом в 89,8% [2214] , [2215] . Впрочем, последние исследования показывают, что при помощи некоторых алгоритмических трюков можно получить практически «бесплатную» прибавку в несколько процентных пунктов к результатам лучших моделей, а также что в самом наборе тестов есть некоторое количество дефектов и ошибок [2216] .
2214
Hendrycks D., Burns C., Basart S., Zou A., Mazeika M., Song D., Steinhardt J. (2020). Measuring Massive Multitask Language Understanding // https://arxiv.org/abs/2009.03300
2215
OpenAI (2023). GPT-4 Technical Report // https://arxiv.org/abs/2303.08774
2216
AI Explained (2023). SmartGPT: Major Benchmark Broken - 89.0% on MMLU + Exam's Many Errors / YouTube, 28.08.2023 // https://www.youtube.com/watch?v=hVade_8H8mE
В середине 2022 г. благодаря невиданной доселе коллаборации учёных (442 автора из 132 научных коллективов) свет увидел самый большой набор тестов для исследования возможностей генеративных языковых моделей. Он описан в статье «За пределами игры в имитацию: количественная оценка и экстраполяция возможностей языковых моделей» [Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models] [2217] и включает в себя 204 различных типа задач. Набор получил название BIG-bench не только из-за своего размера. Слово BIG в данном случае является аббревиатурой от Beyond the Imitation Game [За пределами игры в имитацию], что отсылает нас к тесту Тьюринга и
2217
Srivastava A., Rastogi A., Rao A., Shoeb A. A. M., Abid A., Fisch A., Brown A. R., Santoro A., Gupta A., Garriga-Alonso A., Kluska A., Lewkowycz A., Agarwal A., Power A., Ray A., Warstadt A., Kocurek A. W., Safaya A., Tazarv A., Xiang A., Parrish A., Nie A., Hussain A., Askell A., Dsouza A., Slone A., Rahane A., Iyer A. S., Andreassen A., Madotto A., Santilli A., Stuhlmuller A., Dai A., La A., Lampinen A., Zou A., Jiang A., Chen A., Vuong A., Gupta A., Gottardi A., Norelli A., Venkatesh A., Gholamidavoodi A., Tabassum A., Menezes A., Kirubarajan A., Mullokandov A., Sabharwal A., Herrick A., Efrat A., Erdem A., Karakas A., Roberts B. R., Loe B. S., Zoph B., Bojanowski B., Ozyurt B., Hedayatnia B., Neyshabur B., Inden B., Stein B., Ekmekci B., Lin B. Y., Howald B., Orinion B., Diao C., Dour C., Stinson C., Argueta C., Ramirez C. F., Singh C., Rathkopf C., Meng C., Baral C., Wu C., Callison-Burch C., Waites C., Voigt C., Manning C. D., Potts C., Ramirez C., Rivera C. E., Siro C., Raffel C., Ashcraft C., Garbacea C., Sileo D., Garrette D., Hendrycks D., Kilman D., Roth D., Freeman D., Khashabi D., Levy D., Gonzalez D. M., Perszyk D., Hernandez D., Chen D., Ippolito D., Gilboa D., Dohan D., Drakard D., Jurgens D., Datta D., Ganguli D., Emelin D., Kleyko D., Yuret D., Chen D., Tam D., Hupkes D., Misra D., Buzan D., Mollo D. C., Yang D., Lee D.-H., Schrader D., Shutova E., Cubuk E. D., Segal E., Hagerman E., Barnes E., Donoway E., Pavlick E., Rodola E., Lam E., Chu E., Tang E., Erdem E., Chang E., Chi E. A., Dyer E., Jerzak E., Kim E., Manyasi E. E., Zheltonozhskii E., Xia F., Siar F., Martinez-Plumed F., Happe F., Chollet F., Rong F., Mishra G., Winata G. I., de Melo G., Kruszewski G., Parascandolo G., Mariani G., Wang G., Jaimovitch-Lopez G., Betz G., Gur-Ari G., Galijasevic H., Kim H., Rashkin H., Hajishirzi H., Mehta H., Bogar H., Shevlin H., Schutze H., Yakura H., Zhang H., Wong H. M., Ng I., Noble I., Jumelet J., Geissinger J., Kernion J., Hilton J., Lee J., Fisac J. F., Simon J. B., Koppel J., Zheng J., Zou J., Kocon J., Thompson J., Wingfield J., Kaplan J., Radom J., Sohl-Dickstein J., Phang J., Wei J., Yosinski J., Novikova J., Bosscher J., Marsh J., Kim J., Taal J., Engel J., Alabi J., Xu J., Song J., Tang J., Waweru J., Burden J., Miller J., Balis J. U., Batchelder J., Berant J., Frohberg J., Rozen J., Hernandez-Orallo J., Boudeman J., Guerr J., Jones J., Tenenbaum J. B., Rule J. S., Chua J., Kanclerz K., Livescu K., Krauth K., Gopalakrishnan K., Ignatyeva K., Markert K., Dhole K. D., Gimpel K., Omondi K., Mathewson K., Chiafullo K., Shkaruta K., Shridhar K., McDonell K., Richardson K., Reynolds L., Gao L., Zhang L., Dugan L., Qin L., Contreras-Ochando L., Morency L.-P., Moschella L., Lam L., Noble L., Schmidt L., He L., Colon L. O., Metz L., Senel L. K., Bosma M., Sap M., ter Hoeve M., Farooqi M., Faruqui M., Mazeika M., Baturan M., Marelli M., Maru M., Quintana M. J. R., Tolkiehn M., Giulianelli M., Lewis M., Potthast M., Leavitt M. L., Hagen M., Schubert M., Baitemirova M. O., Arnaud M., McElrath M., Yee M. A., Cohen M., Gu M., Ivanitskiy M., Starritt M., Strube M., Swedrowski M., Bevilacqua M., Yasunaga M., Kale M., Cain M., Xu M., Suzgun M., Walker M., Tiwari M., Bansal M., Aminnaseri M., Geva M., Gheini M., Varma T M., Peng N., Chi N. A., Lee N., Krakover N. G.-A., Cameron N., Roberts N., Doiron N., Martinez N., Nangia N., Deckers N., Muennighoff N., Keskar N. S., Iyer N. S., Constant N., Fiedel N., Wen N., Zhang O., Agha O., Elbaghdadi O., Levy O., Evans O., Casares P. A. M., Doshi P., Fung P., Liang P. P., Vicol P., Alipoormolabashi P., Liao P., Liang P., Chang P., Eckersley P., Htut P. M., Hwang P., Milkowski P., Patil P., Pezeshkpour P., Oli P., Mei Q., Lyu Q., Chen Q., Banjade R., Rudolph R. E., Gabriel R., Habacker R., Risco R., Milliere R., Garg R., Barnes R., Saurous R. A., Arakawa R., Raymaekers R., Frank R., Sikand R., Novak R., Sitelew R., LeBras R., Liu R., Jacobs R., Zhang R., Salakhutdinov R., Chi R., Lee R., Stovall R., Teehan R., Yang R., Singh S., Mohammad S. M., Anand S., Dillavou S., Shleifer S., Wiseman S., Gruetter S., Bowman S. R., Schoenholz S. S., Han S., Kwatra S., Rous S. A., Ghazarian S., Ghosh S., Casey S., Bischoff S., Gehrmann S., Schuster S., Sadeghi S., Hamdan S., Zhou S., Srivastava S., Shi S., Singh S., Asaadi S., Gu S. S., Pachchigar S., Toshniwal S., Upadhyay S., Debnath S., Shakeri S., Thormeyer S., Melzi S., Reddy S., Makini S. P., Lee S.-H., Torene S., Hatwar S., Dehaene S., Divic S., Ermon S., Biderman S., Lin S., Prasad S., Piantadosi S. T., Shieber S. M., Misherghi S., Kiritchenko S., Mishra S., Linzen T., Schuster T., Li T., Yu T., Ali T., Hashimoto T., Wu T.-L., Desbordes T., Rothschild T., Phan T., Wang T., Nkinyili T., Schick T., Kornev T., Tunduny T., Gerstenberg T., Chang T., Neeraj T., Khot T., Shultz T., Shaham U., Misra V., Demberg V., Nyamai V., Raunak V., Ramasesh V., Prabhu V. U., Padmakumar V., Srikumar V., Fedus W., Saunders W., Zhang W., Vossen W., Ren X., Tong X., Zhao X., Wu X., Shen X., Yaghoobzadeh Y., Lakretz Y., Song Y., Bahri Y., Choi Y., Yang Y., Hao Y., Chen Y., Belinkov Y., Hou Y., Hou Y., Bai Y., Seid Z., Zhao Z., Wang Z., Wang Z. J., Wang Z., Wu Z. (2022). Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models // https://arxiv.org/abs/2206.04615
Результаты тестирования современных моделей машинного обучения на этом наборе тестов показывают, что, хотя прогресс в последние годы очень значителен, сохраняется множество задач, в которых люди пока что уверенно превосходят даже самые совершенные нейросети. При этом если существующие темпы роста возможностей моделей будут сохраняться до конца 2020-х гг., то этот разрыв, скорее всего, будет ликвидирован.
Авторы ещё одной коллекции тестов для больших языковых моделей — HELM (Holistic Evaluation of Language Models, Комплексная оценка языковых моделей) — делают ставку на развитую систему классификации тестовых заданий (по годам создания, языкам, типам решаемых задач и методологиям оценки). Кроме того, они используют для оценки ответов моделей целых семь показателей: точность [accuracy], калибровку [calibration], устойчивость [robustness], справедливость [fairness], предвзятость [bias], токсичность [toxicity] и эффективность [efficiency]. Всё это позволяет авторам агрегатора тестов производить оценку языковых моделей в зависимости от сценариев их предполагаемого использования [2218] .
2218
Liang P., Bommasani R., Lee T., Tsipras D., Soylu D., Yasunaga M., Zhang Y., Narayanan D., Wu Y., Kumar A., Newman B., Yuan B., Yan B., Zhang C., Cosgrove C., Manning C. D., Re C., Acosta-Navas D., Hudson D. A., Zelikman E., Durmus E., Ladhak F., Rong F., Ren H., Yao H., Wang J., Santhanam K., Orr L., Zheng L., Yuksekgonul M., Suzgun M., Kim N., Guha N., Chatterji N., Khattab O., Henderson P., Huang Q., Chi R., Xie S. M., Santurkar S., Ganguli S., Hashimoto T., Icard T., Zhang T., Chaudhary V., Wang W., Li X., Mai Y., Zhang Y., Koreeda Y. (2022). Holistic Evaluation of Language Models // https://arxiv.org/abs/2211.09110
Другое направление развития таких тестов — добавление дополнительных модальностей, например зрительной. Одним из хорошо зарекомендовавших себя видов такого рода заданий является ответ на вопросы, заданные к некоторой картинке. Например, к фотографии пиццы можно задать вопросы: «На сколько кусков нарезана эта пицца?» или «Является ли эта пицца вегетарианской?» В научной литературе такой тип заданий обычно именуется «ответом на визуальные вопросы» (Visual Question Answering, VQA) [2219] . Если посмотреть на таблицу лидеров для задачи VQA, основанную на популярном датасете COCO (Common Objects in COntext, Обычные объекты в контексте), то в ней всё ещё лидируют люди: трансформерная модель VLMo (Vision-Language pretrained Model, Предобученная модель «зрение — язык») [2220] демонстрирует точность ответов, равную 81,3%, при 83% у людей [2221] . Справедливости ради стоит отметить, что за 2021 г. моделям удалось прибавить почти четыре процентных пункта, поэтому и здесь торжество ИИ не за горами.
2219
Goyal Y., Khot T., Summers-Stay D., Batra D., Parikh D. (2016). Making the V in VQA Matter: Elevating the Role of Image Understanding in Visual Question Answering // https://arxiv.org/abs/1612.00837
2220
Wang W., Bao H., Dong L., Wei F. (2021). VLMo: Unified Vision-Language Pre-Training with Mixture-of-Modality-Experts // https://arxiv.org/abs/2111.02358
2221
Shrivastava A., Goyal Y., Batra D., Parikh D., Agrawal A. (2021). Welcome to the VQA Challenge 2021! / Visual Question Answering // https://visualqa.org/challenge.html