Les tâches de raisonnement de bon sens sont conçues pour obliger le modèle à aller au-delà de la reconnaissance de motifs. Au lieu de cela, le modèle devrait utiliser le « bon sens » ou la connaissance du monde pour faire des inférences.
Event2Mind est un corpus crowdsourcé de 25 000 phrases d’événements couvrant une gamme diversifiée d’événements et de situations quotidiens. Étant donné un événement décrit dans un court texte libre, un modèle devrait raisonner sur les intentions et les réactions probables des participants à l’événement. Les modèles sont évalués en fonction de l’entropie croisée moyenne (le mieux est le plus bas).
Modèle | Dev | Test | Article / Source | Code |
---|---|---|---|---|
BiRNN 100d (Rashkin et al., 2018) | 4.25 | 4.22 | Event2Mind: Commonsense Inference on Events, Intents, and Reactions | |
ConvNet (Rashkin et al., 2018) | 4.44 | 4.40 | Event2Mind: Commonsense Inference on Events, Intents, and Reactions |
Situations with Adversarial Generations (SWAG) est un jeu de données composé de 113 000 questions à choix multiple sur un large spectre de situations concrètes.
Modèle | Dev | Test | Article / Source | Code |
---|---|---|---|---|
BERT Large (Devlin et al., 2018) | 86.6 | 86.3 | BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding | |
BERT Base (Devlin et al., 2018) | 81.6 | - | BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding | |
ESIM + ELMo (Zellers et al., 2018) | 59.1 | 59.2 | SWAG: A Large-Scale Adversarial Dataset for Grounded Commonsense Inference | |
ESIM + GloVe (Zellers et al., 2018) | 51.9 | 52.7 | SWAG: A Large-Scale Adversarial Dataset for Grounded Commonsense Inference |
Le Winograd Schema Challenge est un jeu de données pour le raisonnement de bon sens. Il utilise des questions de schéma Winograd nécessitant la résolution d’une anaphore : le système doit identifier l’antécédent d’un pronom ambigu dans une phrase. Les modèles sont évalués en fonction de la précision.
Exemple :
Le trophée ne rentre pas dans la valise car il est trop grand. Qu’est-ce qui est trop grand ? Réponse 0 : le trophée. Réponse 1 : la valise
Modèle | Score | Article / Source | Code |
---|---|---|---|
Word-LM-partial (Trinh and Le, 2018) | 62.6 | A Simple Method for Commonsense Reasoning | |
Char-LM-partial (Trinh and Le, 2018) | 57.9 | A Simple Method for Commonsense Reasoning | |
USSM + Supervised DeepNet + KB (Liu et al., 2017) | 52.8 | Combining Context and Commonsense Knowledge Through Neural Networks for Solving Winograd Schema Problems |
WNLI est une version allégée du Winograd Schema Challenge proposée dans le cadre du benchmark GLUE et une conversion au format d’INFérence de langage naturel (NLI). La tâche consiste à prédire si la phrase avec le pronom substitué est impliquée par la phrase originale. Bien que l’ensemble d’entraînement soit équilibré entre deux classes (implication et non-implication), l’ensemble de test est déséquilibré entre elles (35 % implication, 65 % non-implication). La ligne de base de majorité est donc de 65 %, tandis que pour le Winograd Schema Challenge, elle est de 50 % (Liu et al., 2017). Le deuxième est plus difficile.
Les résultats sont disponibles sur le tableau de bord GLUE. Voici un sous-ensemble de résultats de modèles récents :
Modèle | Score | Article / Source | Code |
---|---|---|---|
XLNet-Large (ensemble) (Yang et al., 2019) | 90.4 | XLNet: Generalized Autoregressive Pretraining for Language Understanding | Official |
MT-DNN-ensemble (Liu et al., 2019) | 89.0 | Improving Multi-Task Deep Neural Networks via Knowledge Distillation for Natural Language Understanding | Official |
Snorkel MeTaL(ensemble) (Ratner et al., 2018) | 65.1 | Training Complex Models with Multi-Task Weak Supervision | Official |
Le raisonnement de bon sens visuel (VCR) est une nouvelle tâche et un grand jeu de données pour la cognition de niveau visuel. Avec un seul coup d’œil sur une image, nous pouvons facilement nous imaginer le monde au-delà des pixels (par exemple, que [person1] a commandé des pancakes). Bien que cette tâche soit facile pour les humains, elle est incroyablement difficile pour les systèmes de vision actuels, nécessitant une cognition et un raisonnement de bon sens de niveau supérieur pour comprendre le monde. Nous formalisons cette tâche comme un raisonnement de bon sens visuel. Outre la nécessité de répondre à des questions visuelles difficiles exprimées en langage naturel, un modèle doit fournir une raison expliquant pourquoi sa réponse est vraie.
Modèle | Q->A | QA->R | Q->AR | Article / Source | Code |
---|---|---|---|---|---|
Human Performance University of Washington (Zellers et al. ‘18) | 91.0 | 93.0 | 85.0 | From Recognition to Cognition: Visual Commonsense Reasoning | |
Recognition to Cognition Networks University of Washington | 65.1 | 67.3 | 44.0 | From Recognition to Cognition: Visual Commonsense Reasoning | Link |
BERT-Base Google AI Language (experiment by Rowan) | 53.9 | 64.5 | 35.0 | Link | |
MLB Seoul National University (experiment by Rowan) | 46.2 | 36.8 | 17.2 | Link | |
Random Performance | 25.0 | 25.0 | 6.2 |
La lecture avec raisonnement de bon sens (ReCoRD) est un grand jeu de données de lecture qui nécessite du raisonnement de bon sens. ReCoRD se compose de requêtes générées automatiquement à partir d’articles de CNN/Daily Mail ; la réponse à chaque requête est un espace de texte à partir d’un passage résumant l’article correspondant. L’objectif de ReCoRD est d’évaluer la capacité d’une machine à raisonner avec du bon sens lors de la lecture. ReCoRD est prononcé [ˈrɛkərd] et est une partie du SuperGLUE.
Modèle | EM | F1 | Article / Source | Code |
---|---|---|---|---|
Human Performance Johns Hopkins University (Zhang et al. ‘18) | 91.31 | 91.69 | ReCoRD: Bridging the Gap between Human and Machine Commonsense Reading Comprehension | |
LUKE (Yamada et al., 2020) | 90.64 | 91.21 | LUKE: Deep Contextualized Entity Representations with Entity-aware Self-attention | Official |
RoBERTa (Facebook AI) | 90.0 | 90.6 | RoBERTa: A Robustly Optimized BERT Pretraining Approach | Official |
XLNet + MTL + Verifier (ensemble) | 83.09 | 83.74 | ||
CSRLM (single model) | 81.78 | 82.58 | ||