Technologie
Crédit image : VentureBeat avec DALL-E 3
Les modèles de langage de grande taille (LLMs) ont démontré des performances impressionnantes dans divers domaines de raisonnement et de résolution de problèmes. Cependant, des interrogations subsistent quant à la manière dont ces capacités de raisonnement fonctionnent et leurs limites.
Une étude récente menée par des chercheurs de l’Université de Californie à Los Angeles et d’Amazon a examiné en profondeur les compétences des LLMs en matière de raisonnement déductif et inductif. Les résultats révèlent que, bien que les LLMs soient très efficaces pour identifier les règles d’une tâche à partir d’exemples résolus, ils rencontrent des difficultés à suivre des instructions spécifiques. Ces résultats pourraient avoir des implications significatives sur l’utilisation des LLMs dans des applications nécessitant un raisonnement.
Raisonnement inductif et déductif
Le raisonnement peut être classé en deux catégories principales : le raisonnement déductif et le raisonnement inductif. Le raisonnement déductif, souvent qualifié de logique « descendante », commence par un principe général ou une règle pour en déduire des conclusions spécifiques. Par exemple, en utilisant la formule de conversion de la température Celsius en Fahrenheit, il est possible de calculer de nouvelles valeurs.
En revanche, le raisonnement inductif adopte une approche « ascendante ». Il consiste à observer des cas ou des exemples spécifiques pour en tirer des conclusions ou des motifs généraux. Par exemple, en observant plusieurs mesures en Celsius et en Fahrenheit sur un thermomètre, on peut essayer de déduire la formule de conversion entre les deux.
Ces deux types de raisonnement sont cruciaux pour l’intelligence, mais ils impliquent des processus cognitifs différents. Bien que les LLMs soient souvent évalués sur leurs capacités de raisonnement, la plupart des recherches ne font pas de distinction claire entre leurs compétences inductives et déductives.
Un nouveau cadre pour évaluer le raisonnement des LLMs
Les chercheurs d’Amazon et de l’UCLA ont conçu une série d’expériences pour évaluer les capacités de raisonnement inductif et déductif des LLMs. Pour garantir une comparaison équitable et cohérente, les expériences ont utilisé une structure de tâche similaire dans différents contextes, chaque contexte mettant spécifiquement l’accent sur le raisonnement déductif ou inductif.
Par exemple, dans une tâche arithmétique, les chercheurs ont testé la capacité des LLMs à appliquer une fonction mathématique donnée pour résoudre des problèmes (raisonnement déductif) et leur capacité à déduire la fonction mathématique sous-jacente à partir d’un ensemble d’exemples d’entrées et de sorties (raisonnement inductif).
Pour mieux dissocier le raisonnement inductif du raisonnement déductif, les chercheurs ont développé SolverLearner, un cadre en deux étapes qui isole et évalue le processus de raisonnement inductif des LLMs.
Dans la première étape, SolverLearner demande au LLM de générer une fonction qui associe des points de données d’entrée à leurs valeurs de sortie correspondantes, uniquement à partir d’un ensemble d’exemples d’entrées et de sorties. Cette étape se concentre sur la capacité du LLM à apprendre le motif ou la règle sous-jacente à partir des données.
Dans la seconde étape, SolverLearner utilise un interpréteur de code externe pour exécuter la fonction proposée sur de nouvelles données de test. Cette séparation garantit que le LLM n’est pas impliqué dans l’application de la fonction, empêchant ainsi ses capacités de raisonnement déductif d’influencer l’évaluation de son raisonnement inductif.
« En nous concentrant sur le raisonnement inductif et en mettant de côté le raisonnement déductif basé sur les LLMs, nous pouvons isoler et examiner le raisonnement inductif des LLMs dans sa forme pure via SolverLearner », expliquent les chercheurs.
Les LLMs montrent des forces contrastées en raisonnement inductif et déductif
Les chercheurs ont utilisé SolverLearner pour évaluer les capacités de raisonnement inductif et déductif de GPT-3.5 et GPT-4 à travers diverses tâches, y compris le raisonnement syntaxique, les opérations arithmétiques et le raisonnement spatial.
Les résultats ont montré que les deux LLMs présentaient systématiquement des capacités de raisonnement inductif remarquables, atteignant une précision presque parfaite dans les tâches nécessitant d’apprendre à partir d’exemples et d’inférer la fonction de correspondance sous-jacente.
Cependant, les LLMs ont rencontré des difficultés lorsqu’il s’agissait d’appliquer des règles ou des instructions spécifiques, en particulier lorsque ces instructions concernaient des scénarios peu fréquents durant leur formation. Cela est particulièrement vrai pour les tâches de raisonnement « contrefactuel » qui diffèrent des cas conventionnels. Par exemple, les LLMs réussissent bien dans le raisonnement déductif impliquant l’arithmétique de base 10, mais échouent sur des bases numériques non conventionnelles, telles que 11 et 9.
Ces résultats suggèrent que les LLMs pourraient être plus efficaces pour apprendre par l’exemple et découvrir des motifs dans les données que pour suivre des instructions explicites. Cela a des implications importantes pour l’utilisation des LLMs dans des scénarios réels. Bien qu’en surface, les LLMs puissent montrer des capacités impressionnantes à suivre des instructions logiques, il est probable qu’ils suivent simplement des motifs observés durant leur formation, ce qui signifie que leur performance se dégradera dès que les exemples qu’ils rencontrent s’écartent de leur distribution d’entraînement.
D’un autre côté, SolverLearner fournit un cadre qui garantit que le modèle apprend les règles correctes qui associent les entrées aux sorties. Cependant, SolverLearner n’est applicable que dans des contextes où un mécanisme de vérification tel qu’un interpréteur de code est disponible.
Cette étude rappelle que nous avons encore beaucoup à apprendre sur les capacités de ces « boîtes noires » qui deviennent partie intégrante d’un nombre croissant d’applications.