Articles Archive
preview image
> NLP
Bon Sens
2024/07/04
904 words
5 mins

 

Les tâches de raisonnement de bon sens sont conçues pour obliger le modèle à aller au-delà de la reconnaissance de motifs. Au lieu de cela, le modèle devrait utiliser le « bon sens » ou la connaissance du monde pour faire des inférences.

Event2Mind

Event2Mind est un corpus crowdsourcé de 25 000 phrases d’événements couvrant une gamme diversifiée d’événements et de situations quotidiens. Étant donné un événement décrit dans un court texte libre, un modèle devrait raisonner sur les intentions et les réactions probables des participants à l’événement. Les modèles sont évalués en fonction de l’entropie croisée moyenne (le mieux est le plus bas).

ModèleDevTestArticle / SourceCode
BiRNN 100d (Rashkin et al., 2018)4.254.22Event2Mind: Commonsense Inference on Events, Intents, and Reactions
ConvNet (Rashkin et al., 2018)4.444.40Event2Mind: Commonsense Inference on Events, Intents, and Reactions

SWAG

Situations with Adversarial Generations (SWAG) est un jeu de données composé de 113 000 questions à choix multiple sur un large spectre de situations concrètes.

ModèleDevTestArticle / SourceCode
BERT Large (Devlin et al., 2018)86.686.3BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
BERT Base (Devlin et al., 2018)81.6-BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
ESIM + ELMo (Zellers et al., 2018)59.159.2SWAG: A Large-Scale Adversarial Dataset for Grounded Commonsense Inference
ESIM + GloVe (Zellers et al., 2018)51.952.7SWAG: A Large-Scale Adversarial Dataset for Grounded Commonsense Inference

Winograd Schema Challenge

Le Winograd Schema Challenge est un jeu de données pour le raisonnement de bon sens. Il utilise des questions de schéma Winograd nécessitant la résolution d’une anaphore : le système doit identifier l’antécédent d’un pronom ambigu dans une phrase. Les modèles sont évalués en fonction de la précision.

Exemple :

Le trophée ne rentre pas dans la valise car il est trop grand. Qu’est-ce qui est trop grand ? Réponse 0 : le trophée. Réponse 1 : la valise

ModèleScoreArticle / SourceCode
Word-LM-partial (Trinh and Le, 2018)62.6A Simple Method for Commonsense Reasoning
Char-LM-partial (Trinh and Le, 2018)57.9A Simple Method for Commonsense Reasoning
USSM + Supervised DeepNet + KB (Liu et al., 2017)52.8Combining Context and Commonsense Knowledge Through Neural Networks for Solving Winograd Schema Problems

Winograd NLI (WNLI)

WNLI est une version allégée du Winograd Schema Challenge proposée dans le cadre du benchmark GLUE et une conversion au format d’INFérence de langage naturel (NLI). La tâche consiste à prédire si la phrase avec le pronom substitué est impliquée par la phrase originale. Bien que l’ensemble d’entraînement soit équilibré entre deux classes (implication et non-implication), l’ensemble de test est déséquilibré entre elles (35 % implication, 65 % non-implication). La ligne de base de majorité est donc de 65 %, tandis que pour le Winograd Schema Challenge, elle est de 50 % (Liu et al., 2017). Le deuxième est plus difficile.

Les résultats sont disponibles sur le tableau de bord GLUE. Voici un sous-ensemble de résultats de modèles récents :

ModèleScoreArticle / SourceCode
XLNet-Large (ensemble) (Yang et al., 2019)90.4XLNet: Generalized Autoregressive Pretraining for Language UnderstandingOfficial
MT-DNN-ensemble (Liu et al., 2019)89.0Improving Multi-Task Deep Neural Networks via Knowledge Distillation for Natural Language UnderstandingOfficial
Snorkel MeTaL(ensemble) (Ratner et al., 2018)65.1Training Complex Models with Multi-Task Weak SupervisionOfficial

Bon sens visuel

Le raisonnement de bon sens visuel (VCR) est une nouvelle tâche et un grand jeu de données pour la cognition de niveau visuel. Avec un seul coup d’œil sur une image, nous pouvons facilement nous imaginer le monde au-delà des pixels (par exemple, que [person1] a commandé des pancakes). Bien que cette tâche soit facile pour les humains, elle est incroyablement difficile pour les systèmes de vision actuels, nécessitant une cognition et un raisonnement de bon sens de niveau supérieur pour comprendre le monde. Nous formalisons cette tâche comme un raisonnement de bon sens visuel. Outre la nécessité de répondre à des questions visuelles difficiles exprimées en langage naturel, un modèle doit fournir une raison expliquant pourquoi sa réponse est vraie.

ModèleQ->AQA->RQ->ARArticle / SourceCode
Human Performance University of Washington (Zellers et al. ‘18)91.093.085.0From Recognition to Cognition: Visual Commonsense Reasoning
Recognition to Cognition Networks University of Washington65.167.344.0From Recognition to Cognition: Visual Commonsense ReasoningLink
BERT-Base Google AI Language (experiment by Rowan)53.964.535.0Link
MLB Seoul National University (experiment by Rowan)46.236.817.2Link
Random Performance25.025.06.2

ReCoRD

La lecture avec raisonnement de bon sens (ReCoRD) est un grand jeu de données de lecture qui nécessite du raisonnement de bon sens. ReCoRD se compose de requêtes générées automatiquement à partir d’articles de CNN/Daily Mail ; la réponse à chaque requête est un espace de texte à partir d’un passage résumant l’article correspondant. L’objectif de ReCoRD est d’évaluer la capacité d’une machine à raisonner avec du bon sens lors de la lecture. ReCoRD est prononcé [ˈrɛkərd] et est une partie du SuperGLUE.

ModèleEMF1Article / SourceCode
Human Performance Johns Hopkins University (Zhang et al. ‘18)91.3191.69ReCoRD: Bridging the Gap between Human and Machine Commonsense Reading Comprehension
LUKE (Yamada et al., 2020)90.6491.21LUKE: Deep Contextualized Entity Representations with Entity-aware Self-attentionOfficial
RoBERTa (Facebook AI)90.090.6RoBERTa: A Robustly Optimized BERT Pretraining ApproachOfficial
XLNet + MTL + Verifier (ensemble)83.0983.74
CSRLM (single model)81.7882.58