Technologie
Les chatbots, depuis leur apparition, ont souvent produit des informations erronées. Ces « hallucinations » sont une caractéristique intrinsèque du fonctionnement des modèles d’intelligence artificielle. Cependant, elles posent un problème majeur pour des entreprises comme Google, qui investissent massivement dans l’IA, car elles rendent les réponses générées peu fiables.
Pour remédier à cette situation, Google a lancé aujourd’hui un nouvel outil nommé DataGemma. Cet outil utilise deux approches pour aider les modèles de langage à vérifier l’exactitude de leurs réponses en se basant sur des données fiables et à citer leurs sources de manière plus transparente pour les utilisateurs.
La première méthode, appelée Génération Intercalée par Récupération (GIR), agit comme un vérificateur de faits. Lorsqu’un utilisateur pose une question au modèle, par exemple « L’utilisation des énergies renouvelables a-t-elle augmenté dans le monde ? », le modèle génère une première réponse. Ensuite, GIR identifie les parties de cette réponse qui peuvent être vérifiées à l’aide de Data Commons de Google, une vaste base de données contenant des statistiques provenant de sources fiables telles que les Nations Unies ou les Centres pour le contrôle et la prévention des maladies. Après avoir effectué ces vérifications, elle remplace les informations incorrectes par des faits avérés et cite ses sources.
La seconde méthode, couramment utilisée dans d’autres modèles de langage, est connue sous le nom de Génération Augmentée par Récupération (GAR). Prenons un exemple avec la question « Quels progrès le Pakistan a-t-il réalisés en matière de santé mondiale ? ». En réponse, le modèle examine les données disponibles dans Data Commons qui pourraient l’aider à répondre, comme les informations sur l’accès à l’eau potable, les vaccinations contre l’hépatite B et l’espérance de vie. Avec ces données, le modèle construit sa réponse et cite ses sources.
« Notre objectif était d’utiliser Data Commons pour améliorer le raisonnement des modèles de langage en les ancrant dans des données statistiques réelles que l’on peut retracer », explique Prem Ramaswami, responsable de Data Commons chez Google. Selon lui, cela permettra de « créer une IA plus fiable et digne de confiance ».
Pour l’instant, cet outil est uniquement accessible aux chercheurs, mais Ramaswami indique que l’accès pourrait être élargi après des tests supplémentaires. Si les résultats sont à la hauteur des attentes, cela pourrait représenter un véritable atout pour le projet de Google d’intégrer l’IA plus profondément dans son moteur de recherche.
Cependant, plusieurs réserves doivent être prises en compte. Tout d’abord, l’efficacité des méthodes dépend de la disponibilité des données pertinentes dans Data Commons, qui est davantage un dépôt de données qu’une encyclopédie. Par exemple, il peut fournir le PIB de l’Iran, mais ne peut pas confirmer la date de la Première bataille de Falloujah ou le moment où Taylor Swift a sorti son dernier single. En fait, les chercheurs de Google ont constaté qu’environ 75 % des questions testées n’ont pas permis à la méthode GIR d’obtenir des données exploitables. De plus, même lorsque des données utiles sont présentes dans Data Commons, le modèle ne formule pas toujours les bonnes questions pour les trouver.
Ensuite, la question de l’exactitude se pose. Lors des tests de la méthode GAR, les chercheurs ont découvert que le modèle fournissait des réponses incorrectes entre 6 % et 20 % du temps. En parallèle, la méthode GIR a extrait la bonne statistique de Data Commons seulement environ 58 % du temps (ce qui représente une amélioration significative par rapport au taux de précision de 5 % à 17 % des modèles de langage de Google lorsqu’ils ne consultent pas Data Commons).
Ramaswami affirme que l’exactitude de DataGemma s’améliorera à mesure qu’il sera formé sur un volume de données plus important. La version initiale a été entraînée sur environ 700 questions, et le perfectionnement du modèle a nécessité que son équipe vérifie manuellement chaque fait généré. Pour améliorer davantage le modèle, l’équipe prévoit d’augmenter cet ensemble de données de centaines à des millions de questions.