Technologie

Amazon a récemment présenté un nouvel outil de recherche, RAGChecker, destiné à résoudre l’un des défis majeurs de l’intelligence artificielle : la capacité des systèmes d’IA à récupérer et intégrer des connaissances externes de manière précise dans leurs réponses.

RAGChecker est un cadre d’évaluation qui propose une approche détaillée pour analyser les systèmes de génération augmentée par récupération (RAG). Ces systèmes allient des modèles de langage avancés à des bases de données externes pour fournir des réponses plus précises et contextuellement pertinentes, une fonctionnalité essentielle pour les assistants IA et les chatbots qui nécessitent des informations à jour au-delà de leurs données d’entraînement initiales.

RAGChecker : un cadre d’évaluation détaillé pour diagnostiquer les modules de récupération et de génération dans RAG.

Montre que RAGChecker présente de meilleures corrélations avec le jugement humain.

Rapporte plusieurs motifs révélateurs et compromis dans les choix de conception des architectures RAG… pic.twitter.com/ZgwCJQszVM

Le lancement de RAGChecker intervient alors que de plus en plus d’organisations se tournent vers l’IA pour des tâches nécessitant des informations précises et à jour, telles que les conseils juridiques, les diagnostics médicaux et les analyses financières complexes. Selon l’équipe d’Amazon, les méthodes d’évaluation existantes pour les systèmes RAG ne parviennent souvent pas à capturer les subtilités et les erreurs potentielles qui peuvent survenir dans ces systèmes.

« RAGChecker repose sur la vérification d’implication au niveau des revendications », expliquent les chercheurs dans leur publication, soulignant que cela permet une analyse plus fine des composants de récupération et de génération des systèmes RAG. Contrairement aux métriques d’évaluation traditionnelles, qui évaluent généralement les réponses à un niveau plus général, RAGChecker décompose les réponses en revendications individuelles et évalue leur précision et leur pertinence en fonction du contexte récupéré par le système.

Actuellement, RAGChecker semble être utilisé en interne par les chercheurs et développeurs d’Amazon, sans annonce de publication publique. S’il devait être rendu disponible, il pourrait être proposé en tant qu’outil open-source, intégré dans les services AWS existants, ou offert dans le cadre d’une collaboration de recherche. Pour l’instant, ceux qui souhaitent utiliser RAGChecker devront attendre une annonce officielle d’Amazon concernant sa disponibilité. VentureBeat a contacté Amazon pour obtenir des précisions sur les détails de la publication et mettra à jour cet article dès que nous aurons des nouvelles.

Ce nouveau cadre ne s’adresse pas uniquement aux chercheurs ou aux passionnés d’IA. Pour les entreprises, il pourrait représenter une avancée significative dans l’évaluation et l’amélioration de leurs systèmes d’IA. RAGChecker fournit des métriques globales qui offrent une vue d’ensemble des performances du système, permettant aux entreprises de comparer différents systèmes RAG et de choisir celui qui répond le mieux à leurs besoins. Il inclut également des métriques diagnostiques qui peuvent identifier des faiblesses spécifiques dans les phases de récupération ou de génération du fonctionnement d’un système RAG.

Analyse des tests dans des domaines critiques

L’équipe d’Amazon a testé RAGChecker sur huit systèmes RAG différents en utilisant un ensemble de données de référence couvrant dix domaines distincts, y compris des secteurs où la précision est cruciale, tels que la médecine, la finance et le droit. Les résultats ont révélé d’importants compromis que les développeurs doivent prendre en compte. Par exemple, les systèmes qui excellent dans la récupération d’informations pertinentes ont également tendance à introduire davantage de données non pertinentes, ce qui peut perturber la phase de génération du processus.

Les chercheurs ont observé que, bien que certains systèmes RAG soient capables de récupérer les bonnes informations, ils échouent souvent à filtrer les détails non pertinents. « Les générateurs montrent une fidélité au niveau des segments », note le document, ce qui signifie qu’une fois qu’une information pertinente est récupérée, le système a tendance à s’y fier fortement, même si elle contient des erreurs ou des contenus trompeurs.

La recherche a également mis en évidence des différences entre les modèles open-source et propriétaires, comme GPT-4. Les modèles open-source, selon les chercheurs, ont tendance à faire confiance au contexte qui leur est fourni de manière aveugle, ce qui peut parfois entraîner des inexactitudes dans leurs réponses. « Les modèles open-source sont fidèles mais ont tendance à faire confiance au contexte sans discernement », indique le document, suggérant que les développeurs pourraient devoir se concentrer sur l’amélioration des capacités de raisonnement de ces modèles.

Optimisation de l’IA pour des applications à enjeux élevés

Pour les entreprises qui dépendent du contenu généré par l’IA, RAGChecker pourrait être un outil précieux pour l’amélioration continue des systèmes. En offrant une évaluation plus détaillée de la manière dont ces systèmes récupèrent et utilisent l’information, le cadre permet aux entreprises de garantir que leurs systèmes d’IA restent précis et fiables, en particulier dans des environnements à enjeux élevés.

À mesure que l’intelligence artificielle continue d’évoluer, des outils comme RAGChecker joueront un rôle essentiel dans le maintien de l’équilibre entre innovation et fiabilité. L’équipe d’IA d’AWS conclut que « les métriques de RAGChecker peuvent guider les chercheurs et les praticiens dans le développement de systèmes RAG plus efficaces », une affirmation qui, si elle se vérifie, pourrait avoir un impact significatif sur l’utilisation de l’IA dans divers secteurs.

Show Comments (0)
Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *