Охота на электроовец. Большая книга искусственного интеллекта
Шрифт:
2. CB (CommitmentBank, Банк убеждений) [2187] — это корпус коротких текстов, в каждом из которых есть хотя бы одно сложноподчинённое предложение. Сами тексты взяты из трёх источников: The Wall Street Journal, корпуса художественной литературы British National Corpus и датасета Switchboard. Для каждого текста из придаточной части сложноподчинённого предложения вручную были сформулированы утверждения (обычно в прошедшем времени и без отрицания, например: «…Тесс добежит до финиша» перешло в «Тесс добежала до финиша», а «…Оливия не смогла пройти тест» — в «Оливия прошла тест»), при этом составителям пришлось отбросить множество случаев, когда было трудно построить краткий и точный вариант. После этого разметчики указывали, является ли полученное утверждение истинным, ложным или неопределённым (исходя из исходного текста и логики автора). В состав CommitmentBank были включены только те примеры, для которых с ответом было согласно не менее 80% людей-разметчиков. Таким образом, итоговая задача была оформлена как набор пар (текст и утверждение), для каждой из которых необходимо выбрать один из трёх возможных вариантов: 1) утверждение следует из текста; 2) из текста следует утверждение, противоположное данному; 3) утверждение не следует из текста.
2187
de Marneffe M.-C., Simons M., Tonhauser J. (2019). The CommitmentBank: Investigating projection in naturally occurring discourse / Proceedings of Sinn und Bedeutung, Vol. 23 // https://semanticsarchive.net/Archive/Tg3ZGI2M/Marneffe.pdf
3. COPA (Choice of Plausible Alternatives,
4. MultiRC (Multi-Sentence Reading Computing, Вычисления на основе чтения множества предложений) [2189] — каждая задача этого набора включает в себя небольшой текст, вопрос к нему и набор ответов на этот вопрос. Необходимо определить, какие из этих ответов верны, а какие нет (т. е. каждый вопрос может иметь несколько возможных правильных ответов).
2188
Roemmele M., Bejan C. A., Gordon A. S. (2011). Choice of Plausible Alternatives: An Evaluation of Commonsense Causal Reasoning / AAAI Spring Symposium on Logical Formalizations of Commonsense Reasoning, Stanford University, March 21—23, 2011 // https://people.ict.usc.edu/~gordon/publications/AAAI-SPRING11A.PDF
2189
Khashabi D., Chaturvedi S., Roth M., Upadhyay S., Roth D. (2018). Looking Beyond the Surface: A Challenge Set for Reading Comprehension over Multiple Sentences / Proceedings of North American Chapter of the Association for Computational Linguistics (NAACL) // https://cogcomp.seas.upenn.edu/page/publication_view/833
5. ReCoRD (Reading Computing with Commonsense Reasoning Dataset, Вычисления на основе чтения с использованием датасета здравого смысла) [2190] — в этом наборе каждая задача состоит из новостной статьи и вопроса к ней, в тексте которого одно из существительных заменено пропуском. Также приводится список существительных, в отношении каждого из которых необходимо определить, можно ли подставить это слово вместо пропуска. Статьи для теста позаимствованы из CNN и Daily Mail.
2190
Zhang S., Liu X., Liu J., Gao J., Duh K., Durme B. V. (2018). ReCoRD: Bridging the Gap between Human and Machine Commonsense Reading Comprehension // https://arxiv.org/abs/1810.12885
6. RTE (Recognizing Textual Entailment, Распознавание текстуальных импликаций) [2191] , [2192] , [2193] , [2194] — этот набор заданий объединяет тесты, используемые на ежегодных соревнованиях по текстуальной импликации ([linguistic] entailment — это построение некоторого вывода на основе имеющихся в тексте посылок, в отечественной лингвистике этот процесс традиционно называют «текстуальной импликацией», отталкиваясь от термина «импликация», означающего логическую операцию следования). Каждое задание состоит из двух утверждений, для которых нужно определить, следует второе утверждение из истинности первого или нет.
2191
Dagan I., Glickman O., Magnini B. (2006). The PASCAL recognising textual entailment challenge / Machine Learning Challenges. Evaluating Predictive Uncertainty, Visual Object Classification, and Recognising Textual Entailment. Springer, 2006 // link.springer.com/chapter/10.1007/11736790_9
2192
Haim R. B., Dagan I., Dolan B., Ferro L., Giampiccolo D., Magnini B., Szpektor I. (2006) / The second PASCAL recognising textual entailment challenge / Proceedings of the Second PASCAL Challenges Workshop on Recognising Textual Entailment, 2006 // http://u.cs.biu.ac.il/~nlp/RTE2/Proceedings/01.pdf
2193
Giampiccolo D., Magnini B., Dagan I., Dolan B. (2007). The third PASCAL recognizing textual entailment challenge / Proceedings of the ACL-PASCAL Workshop on Textual Entailment and Paraphrasing. Association for Computational Linguistics, 2007 // https://www.aclweb.org/anthology/W07-1401/
2194
Bentivogli L., Dagan I., Dang H. T., Giampiccolo D., Magnini B. (2009). The fifth PASCAL recognizing textual entailment challenge / Textual Analysis Conference (TAC), 2009 // http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.232.1231
7. WiC (Word-in-Context, Слово-в-контексте) — задачи устранения неоднозначности смысла слова. В каждом задании приведены два предложения, в каждом из которых встречается некоторое слово. Необходимо определить, используется ли слово в одном и том же смысле в обоих предложениях. Сами предложения взяты из датасетов WordNet и VerbNet, а также словаря Wiktionary.
8. WSC (Winograd Schema Challenge, Соревнования по схеме Винограда) — задачи разрешения кореферентности. Кореферентностью, или референциональным тождеством, в лингвистике называют отношение между именами в высказываниях, когда имена ссылаются на один и тот же объект, ситуацию или группу объектов или ситуаций (так называемый референт). Например, в тексте «Это Гарольд. Он скрывает боль» местоимение «он» ссылается на некого Гарольда (являющегося в данном случае референтом), а в тексте «Осёл, собака, кот и петух отправились в город Бремен. По дороге животные нашли себе новый дом» существительное «животные» ссылается на референт, представляющий собой группу, состоящую из осла, собаки, кота и петуха. В WSC используется частный случай кореферентности, называемый анафорой [2195] . В случае анафоры слово-отсылка (обычно местоимение), называемое анафором, расположено в тексте после имени, на которое оно ссылается (это имя называется антецедентом). Если порядок следования имени и отсылки противоположный, то такой вид кореферентности называется катафорой. Таким образом, в тексте про Гарольда, скрывающего боль, мы наблюдаем именно анафору, при этом слово «он» является анафором, а слово «Гарольд» — антецедентом.
2195
*
В WSC каждая задача, называемая «схемой Винограда», заключается в том, чтобы сопоставить местоимение-анафор с одним из имён-существительных, встречающихся в тексте. Для того чтобы произвести такое сопоставление, нужно обладать изрядной толикой здравого смысла и знаний об окружающем мире. Создатель WSC — канадский исследователь в области ИИ Гектор Левеск — назвал свой текст в честь другого известного специалиста в области ИИ — уже знакомого нам Терри Винограда.
Также SuperGLUE содержит два диагностических набора задач. Первый из них аналогичен RTE и предназначен для анализа знаний моделей о языке и окружающем мире. Второй предназначен для анализа гендерных предубеждений, присущих моделям, и основан на датасете WinoGender (от Winograd schemas [схемы Винограда] и gender [гендер]). О каких проблемах идёт речь? Возможно, вы знаете классическую загадку: «Мужчина и его сын попадают в страшную автокатастрофу. Отец погибает, а мальчик тяжело ранен. В больнице хирург смотрит на пациента и восклицает: „Я не могу оперировать этого мальчика, он мой сын!“ Как это может быть?»
Большинство людей испытывает трудности с поиском правильного ответа на этот вопрос и начинает строить гипотезы, связанные с подменой детей в роддоме и тому подобное, хотя в действительности ответ прост: хирург — это мать мальчика. Такого рода затруднения свойственны не только людям, но и моделям, обученным на гендерно несбалансированных датасетах. В результате эти модели оказываются неспособны правильно разрешать кореферентности в некоторых ситуациях. Например, разработанная в Стэнфорде библиотека CoreNLP, использующая для разрешения кореферентности модель, основанную на правилах, оказалась не в состоянии найти кореферентность между словами her [её] и surgeon [хирург] во фразе: The surgeon couldn’t operate on her patient: it was her son [Хирургу нельзя было оперировать пациента: это был её сын] [2196] .
2196
Rudinger R., Naradowsky J., Leonard B., Durme B. V. (2018). Gender Bias in Coreference Resolution // https://arxiv.org/abs/1804.09301
5 января 2021 г. произошло знаковое событие: впервые в истории SuperGLUE моделям машинного обучения удалось потеснить человека [2197] , [2198] . Этого добился ансамбль моделей T5 и Meena, разработанный специалистами Google Brain, который смог набрать в тестах 90,2 балла, что на 0,4 балла выше уровня, демонстрируемого на том же наборе тестов людьми. Но этому рекорду суждено было просуществовать всего один день, потому что уже 6 января на первое место в топ-листе взошла модель DeBERTa (Decoding-enhanced BERT with disentangled attention, BERT с улучшенным декодированием и распутанным вниманием) [2199] , разработанная специалистами из Microsoft. В результате рекордный показатель вырос ещё на 0,1 балла. В июле 2021 г. команде исследователей из компании Baidu с моделью ERNIE 3.0 удалось улучшить этот результат до 90,6 балла [2200] . 2 декабря 2021 г. этот результат был улучшен до 90,9 балла командой исследователей из Microsoft с их моделью Turing NLR v5, однако этот рекорд просуществовал всего пять дней — уже 7 декабря исследователь Уильям Федус из Google смог улучшить его на 0,1 балла за счёт использования нейросетевой модели с архитектурой SS-MoE [2201] .
2197
* Здесь мы сознательно не углубляемся в вопрос, какие именно люди включаются в контрольную группу для оценки способности человека решать те или иные задачи, связанные с пониманием естественного языка (да и вообще любые другие интеллектуальные задачи в ситуациях, когда мы хотим сравнить способности машин и людей). Очевидно, что в идеале состав контрольной группы должен быть достаточно репрезентативным: включать в себя людей с разным уровнем образования, с разными профессиями, принадлежащих к разным социальным группам и культурным общностям. На практике, конечно, формируемые исследователями контрольные группы весьма далеки от идеала. Анализу этой проблемы посвящена весьма поучительная работа исследователей из Гарвардского университета под красноречивым названием «Какие люди?» [Which humans?].
2198
Atari M., Xue M. J., Park P. S., Blasi D., Henrich J. (2023). Which humans? // https://doi.org/10.31234/osf.io/5b26t
2199
He P., Liu X., Gao J., Chen W. (2021). DeBERTa: Decoding-enhanced BERT with Disentangled Attention // https://paperswithcode.com/paper/deberta-decoding-enhanced-bert-with
2200
Sun Y., Wang S., Feng S., Ding S., Pang C., Shang J., Liu J., Chen X., Zhao Y., Lu Y., Liu W., Wu Z., Gong W., Liang J., Shang Z., Sun P., Liu W., Ouyang X., Yu D., Tian H., Wu H., Wang H. (2021). ERNIE 3.0: Large-scale Knowledge Enhanced Pre-training for Language Understanding and Generation // https://arxiv.org/abs/2107.02137
2201
SuperGLUE leaderboard, Retreived 2022-01-31 // https://super.gluebenchmark.com/leaderboard/
В 2020 г. командой AGI NLP под руководством Татьяны Шавриной из «Сбера» был подготовлен и опубликован русскоязычный вариант SuperGLUE, получивший название Russian SuperGLUE [2202] , [2203] .
Этот датасет также состоит из восьми наборов задач, не считая диагностического набора LiDiRus (Linguistic Diagnostic for Russian, Лингвистическая диагностика для русского языка), который был получен путём адаптации диагностического набора английской версии SuperGLUE.
2202
Shavrina T., Fenogenova A., Emelyanov A., Shevelev D., Artemova E., Malykh V., Mikhailov V., Tikhonova M., Chertok A., Evlampiev A. (2020). RussianSuperGLUE: A Russian Language Understanding Evaluation Benchmark // https://arxiv.org/abs/2010.15925
2203
Шаврина Т. (2020). Люди ломаются на логике, роботы — на всем понемногу. Экзамены по русскому для NLP-моделей / Хабр, 10 июня // https://habr.com/ru/company/sberbank/blog/506058/
Выйду замуж за спасателя
1. Спасатели
Любовные романы:
современные любовные романы
рейтинг книги
Эволюционер из трущоб. Том 5
5. Эволюционер из трущоб
Фантастика:
попаданцы
аниме
фэнтези
фантастика: прочее
рейтинг книги
Сумеречный стрелок 6
6. Сумеречный стрелок
Фантастика:
городское фэнтези
попаданцы
аниме
рейтинг книги
Кодекс Крови. Книга VI
6. РОС: Кодекс Крови
Фантастика:
фэнтези
попаданцы
аниме
рейтинг книги
Бастард Императора
1. Бастард Императора
Фантастика:
фэнтези
аниме
рейтинг книги
Архонт
5. Стеллар
Фантастика:
боевая фантастика
рпг
рейтинг книги
Собрание сочинений В. К. Арсеньева в одной книге
5. Абсолют
Приключения:
исторические приключения
рейтинг книги
Хранители миров
Фантастика:
юмористическая фантастика
рейтинг книги

i f36931a51be2993b
Старинная литература:
прочая старинная литература
рейтинг книги
