Чтение онлайн

на главную - закладки

Жанры

Охота на электроовец. Большая книга искусственного интеллекта
Шрифт:

2. CB (CommitmentBank, Банк убеждений) [2187] — это корпус коротких текстов, в каждом из которых есть хотя бы одно сложноподчинённое предложение. Сами тексты взяты из трёх источников: The Wall Street Journal, корпуса художественной литературы British National Corpus и датасета Switchboard. Для каждого текста из придаточной части сложноподчинённого предложения вручную были сформулированы утверждения (обычно в прошедшем времени и без отрицания, например: «…Тесс добежит до финиша» перешло в «Тесс добежала до финиша», а «…Оливия не смогла пройти тест» — в «Оливия прошла тест»), при этом составителям пришлось отбросить множество случаев, когда было трудно построить краткий и точный вариант. После этого разметчики указывали, является ли полученное утверждение истинным, ложным или неопределённым (исходя из исходного текста и логики автора). В состав CommitmentBank были включены только те примеры, для которых с ответом было согласно не менее 80% людей-разметчиков. Таким образом, итоговая задача была оформлена как набор пар (текст и утверждение), для каждой из которых необходимо выбрать один из трёх возможных вариантов: 1) утверждение следует из текста; 2) из текста следует утверждение, противоположное данному; 3) утверждение не следует из текста.

2187

de Marneffe M.-C., Simons M., Tonhauser J. (2019). The CommitmentBank: Investigating projection in naturally occurring discourse / Proceedings of Sinn und Bedeutung, Vol. 23 // https://semanticsarchive.net/Archive/Tg3ZGI2M/Marneffe.pdf

3. COPA (Choice of Plausible Alternatives,

Выбор правдоподобных альтернатив) [2188] — задачи на установление причинно-следственных связей. При их решении необходимо выбрать одно из двух возможных следствий из некоторого утверждения.

4. MultiRC (Multi-Sentence Reading Computing, Вычисления на основе чтения множества предложений) [2189] — каждая задача этого набора включает в себя небольшой текст, вопрос к нему и набор ответов на этот вопрос. Необходимо определить, какие из этих ответов верны, а какие нет (т. е. каждый вопрос может иметь несколько возможных правильных ответов).

2188

Roemmele M., Bejan C. A., Gordon A. S. (2011). Choice of Plausible Alternatives: An Evaluation of Commonsense Causal Reasoning / AAAI Spring Symposium on Logical Formalizations of Commonsense Reasoning, Stanford University, March 21—23, 2011 // https://people.ict.usc.edu/~gordon/publications/AAAI-SPRING11A.PDF

2189

Khashabi D., Chaturvedi S., Roth M., Upadhyay S., Roth D. (2018). Looking Beyond the Surface: A Challenge Set for Reading Comprehension over Multiple Sentences / Proceedings of North American Chapter of the Association for Computational Linguistics (NAACL) // https://cogcomp.seas.upenn.edu/page/publication_view/833

5. ReCoRD (Reading Computing with Commonsense Reasoning Dataset, Вычисления на основе чтения с использованием датасета здравого смысла) [2190] — в этом наборе каждая задача состоит из новостной статьи и вопроса к ней, в тексте которого одно из существительных заменено пропуском. Также приводится список существительных, в отношении каждого из которых необходимо определить, можно ли подставить это слово вместо пропуска. Статьи для теста позаимствованы из CNN и Daily Mail.

2190

Zhang S., Liu X., Liu J., Gao J., Duh K., Durme B. V. (2018). ReCoRD: Bridging the Gap between Human and Machine Commonsense Reading Comprehension // https://arxiv.org/abs/1810.12885

6. RTE (Recognizing Textual Entailment, Распознавание текстуальных импликаций) [2191] , [2192] , [2193] , [2194] — этот набор заданий объединяет тесты, используемые на ежегодных соревнованиях по текстуальной импликации ([linguistic] entailment — это построение некоторого вывода на основе имеющихся в тексте посылок, в отечественной лингвистике этот процесс традиционно называют «текстуальной импликацией», отталкиваясь от термина «импликация», означающего логическую операцию следования). Каждое задание состоит из двух утверждений, для которых нужно определить, следует второе утверждение из истинности первого или нет.

2191

Dagan I., Glickman O., Magnini B. (2006). The PASCAL recognising textual entailment challenge / Machine Learning Challenges. Evaluating Predictive Uncertainty, Visual Object Classification, and Recognising Textual Entailment. Springer, 2006 // link.springer.com/chapter/10.1007/11736790_9

2192

Haim R. B., Dagan I., Dolan B., Ferro L., Giampiccolo D., Magnini B., Szpektor I. (2006) / The second PASCAL recognising textual entailment challenge / Proceedings of the Second PASCAL Challenges Workshop on Recognising Textual Entailment, 2006 // http://u.cs.biu.ac.il/~nlp/RTE2/Proceedings/01.pdf

2193

Giampiccolo D., Magnini B., Dagan I., Dolan B. (2007). The third PASCAL recognizing textual entailment challenge / Proceedings of the ACL-PASCAL Workshop on Textual Entailment and Paraphrasing. Association for Computational Linguistics, 2007 // https://www.aclweb.org/anthology/W07-1401/

2194

Bentivogli L., Dagan I., Dang H. T., Giampiccolo D., Magnini B. (2009). The fifth PASCAL recognizing textual entailment challenge / Textual Analysis Conference (TAC), 2009 // http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.232.1231

7. WiC (Word-in-Context, Слово-в-контексте) — задачи устранения неоднозначности смысла слова. В каждом задании приведены два предложения, в каждом из которых встречается некоторое слово. Необходимо определить, используется ли слово в одном и том же смысле в обоих предложениях. Сами предложения взяты из датасетов WordNet и VerbNet, а также словаря Wiktionary.

8. WSC (Winograd Schema Challenge, Соревнования по схеме Винограда) — задачи разрешения кореферентности. Кореферентностью, или референциональным тождеством, в лингвистике называют отношение между именами в высказываниях, когда имена ссылаются на один и тот же объект, ситуацию или группу объектов или ситуаций (так называемый референт). Например, в тексте «Это Гарольд. Он скрывает боль» местоимение «он» ссылается на некого Гарольда (являющегося в данном случае референтом), а в тексте «Осёл, собака, кот и петух отправились в город Бремен. По дороге животные нашли себе новый дом» существительное «животные» ссылается на референт, представляющий собой группу, состоящую из осла, собаки, кота и петуха. В WSC используется частный случай кореферентности, называемый анафорой [2195] . В случае анафоры слово-отсылка (обычно местоимение), называемое анафором, расположено в тексте после имени, на которое оно ссылается (это имя называется антецедентом). Если порядок следования имени и отсылки противоположный, то такой вид кореферентности называется катафорой. Таким образом, в тексте про Гарольда, скрывающего боль, мы наблюдаем именно анафору, при этом слово «он» является анафором, а слово «Гарольд» — антецедентом.

2195

*

Анафора (от греч. ????????? — относить назад, возвращать, возводить к чему-либо) — зависимость интерпретации выражения от другого (обычно предшествующего) выражения в тексте.

В WSC каждая задача, называемая «схемой Винограда», заключается в том, чтобы сопоставить местоимение-анафор с одним из имён-существительных, встречающихся в тексте. Для того чтобы произвести такое сопоставление, нужно обладать изрядной толикой здравого смысла и знаний об окружающем мире. Создатель WSC — канадский исследователь в области ИИ Гектор Левеск — назвал свой текст в честь другого известного специалиста в области ИИ — уже знакомого нам Терри Винограда.

Также SuperGLUE содержит два диагностических набора задач. Первый из них аналогичен RTE и предназначен для анализа знаний моделей о языке и окружающем мире. Второй предназначен для анализа гендерных предубеждений, присущих моделям, и основан на датасете WinoGender (от Winograd schemas [схемы Винограда] и gender [гендер]). О каких проблемах идёт речь? Возможно, вы знаете классическую загадку: «Мужчина и его сын попадают в страшную автокатастрофу. Отец погибает, а мальчик тяжело ранен. В больнице хирург смотрит на пациента и восклицает: „Я не могу оперировать этого мальчика, он мой сын!Как это может быть?»

Большинство людей испытывает трудности с поиском правильного ответа на этот вопрос и начинает строить гипотезы, связанные с подменой детей в роддоме и тому подобное, хотя в действительности ответ прост: хирург — это мать мальчика. Такого рода затруднения свойственны не только людям, но и моделям, обученным на гендерно несбалансированных датасетах. В результате эти модели оказываются неспособны правильно разрешать кореферентности в некоторых ситуациях. Например, разработанная в Стэнфорде библиотека CoreNLP, использующая для разрешения кореферентности модель, основанную на правилах, оказалась не в состоянии найти кореферентность между словами her [её] и surgeon [хирург] во фразе: The surgeon couldn’t operate on her patient: it was her son [Хирургу нельзя было оперировать пациента: это был её сын] [2196] .

2196

Rudinger R., Naradowsky J., Leonard B., Durme B. V. (2018). Gender Bias in Coreference Resolution // https://arxiv.org/abs/1804.09301

5 января 2021 г. произошло знаковое событие: впервые в истории SuperGLUE моделям машинного обучения удалось потеснить человека [2197] , [2198] . Этого добился ансамбль моделей T5 и Meena, разработанный специалистами Google Brain, который смог набрать в тестах 90,2 балла, что на 0,4 балла выше уровня, демонстрируемого на том же наборе тестов людьми. Но этому рекорду суждено было просуществовать всего один день, потому что уже 6 января на первое место в топ-листе взошла модель DeBERTa (Decoding-enhanced BERT with disentangled attention, BERT с улучшенным декодированием и распутанным вниманием) [2199] , разработанная специалистами из Microsoft. В результате рекордный показатель вырос ещё на 0,1 балла. В июле 2021 г. команде исследователей из компании Baidu с моделью ERNIE 3.0 удалось улучшить этот результат до 90,6 балла [2200] . 2 декабря 2021 г. этот результат был улучшен до 90,9 балла командой исследователей из Microsoft с их моделью Turing NLR v5, однако этот рекорд просуществовал всего пять дней — уже 7 декабря исследователь Уильям Федус из Google смог улучшить его на 0,1 балла за счёт использования нейросетевой модели с архитектурой SS-MoE [2201] .

2197

* Здесь мы сознательно не углубляемся в вопрос, какие именно люди включаются в контрольную группу для оценки способности человека решать те или иные задачи, связанные с пониманием естественного языка (да и вообще любые другие интеллектуальные задачи в ситуациях, когда мы хотим сравнить способности машин и людей). Очевидно, что в идеале состав контрольной группы должен быть достаточно репрезентативным: включать в себя людей с разным уровнем образования, с разными профессиями, принадлежащих к разным социальным группам и культурным общностям. На практике, конечно, формируемые исследователями контрольные группы весьма далеки от идеала. Анализу этой проблемы посвящена весьма поучительная работа исследователей из Гарвардского университета под красноречивым названием «Какие люди?» [Which humans?].

2198

Atari M., Xue M. J., Park P. S., Blasi D., Henrich J. (2023). Which humans? // https://doi.org/10.31234/osf.io/5b26t

2199

He P., Liu X., Gao J., Chen W. (2021). DeBERTa: Decoding-enhanced BERT with Disentangled Attention // https://paperswithcode.com/paper/deberta-decoding-enhanced-bert-with

2200

Sun Y., Wang S., Feng S., Ding S., Pang C., Shang J., Liu J., Chen X., Zhao Y., Lu Y., Liu W., Wu Z., Gong W., Liang J., Shang Z., Sun P., Liu W., Ouyang X., Yu D., Tian H., Wu H., Wang H. (2021). ERNIE 3.0: Large-scale Knowledge Enhanced Pre-training for Language Understanding and Generation // https://arxiv.org/abs/2107.02137

2201

SuperGLUE leaderboard, Retreived 2022-01-31 // https://super.gluebenchmark.com/leaderboard/

В 2020 г. командой AGI NLP под руководством Татьяны Шавриной из «Сбера» был подготовлен и опубликован русскоязычный вариант SuperGLUE, получивший название Russian SuperGLUE [2202] , [2203] .

Этот датасет также состоит из восьми наборов задач, не считая диагностического набора LiDiRus (Linguistic Diagnostic for Russian, Лингвистическая диагностика для русского языка), который был получен путём адаптации диагностического набора английской версии SuperGLUE.

2202

Shavrina T., Fenogenova A., Emelyanov A., Shevelev D., Artemova E., Malykh V., Mikhailov V., Tikhonova M., Chertok A., Evlampiev A. (2020). RussianSuperGLUE: A Russian Language Understanding Evaluation Benchmark // https://arxiv.org/abs/2010.15925

2203

Шаврина Т. (2020). Люди ломаются на логике, роботы — на всем понемногу. Экзамены по русскому для NLP-моделей / Хабр, 10 июня // https://habr.com/ru/company/sberbank/blog/506058/

Поделиться:
Популярные книги

Выйду замуж за спасателя

Рам Янка
1. Спасатели
Любовные романы:
современные любовные романы
7.00
рейтинг книги
Выйду замуж за спасателя

Эволюционер из трущоб. Том 5

Панарин Антон
5. Эволюционер из трущоб
Фантастика:
попаданцы
аниме
фэнтези
фантастика: прочее
5.00
рейтинг книги
Эволюционер из трущоб. Том 5

Сумеречный стрелок 6

Карелин Сергей Витальевич
6. Сумеречный стрелок
Фантастика:
городское фэнтези
попаданцы
аниме
5.00
рейтинг книги
Сумеречный стрелок 6

Кодекс Крови. Книга VI

Борзых М.
6. РОС: Кодекс Крови
Фантастика:
фэнтези
попаданцы
аниме
5.00
рейтинг книги
Кодекс Крови. Книга VI

Бастард Императора

Орлов Андрей Юрьевич
1. Бастард Императора
Фантастика:
фэнтези
аниме
5.00
рейтинг книги
Бастард Императора

Архонт

Прокофьев Роман Юрьевич
5. Стеллар
Фантастика:
боевая фантастика
рпг
7.80
рейтинг книги
Архонт

Собрание сочинений В. К. Арсеньева в одной книге

Арсеньев Владимир Клавдиевич
5. Абсолют
Приключения:
исторические приключения
5.00
рейтинг книги
Собрание сочинений В. К. Арсеньева в одной книге

Хранители миров

Комаров Сергей Евгеньевич
Фантастика:
юмористическая фантастика
5.00
рейтинг книги
Хранители миров

i f36931a51be2993b

Admin
Старинная литература:
прочая старинная литература
5.00
рейтинг книги
i f36931a51be2993b

Господин следователь. Книга 2

Шалашов Евгений Васильевич
2. Господин следователь
Фантастика:
попаданцы
альтернативная история
5.00
рейтинг книги
Господин следователь. Книга 2

Служанка. Второй шанс для дракона

Шёпот Светлана
Любовные романы:
любовно-фантастические романы
5.00
рейтинг книги
Служанка. Второй шанс для дракона

Комсомолец 2

Федин Андрей Анатольевич
2. Комсомолец
Фантастика:
попаданцы
альтернативная история
7.50
рейтинг книги
Комсомолец 2

Ваше Сиятельство 3

Моури Эрли
3. Ваше Сиятельство
Фантастика:
фэнтези
попаданцы
аниме
5.00
рейтинг книги
Ваше Сиятельство 3

Вперед в прошлое 5

Ратманов Денис
5. Вперед в прошлое
Фантастика:
попаданцы
альтернативная история
5.00
рейтинг книги
Вперед в прошлое 5