Technologie
Date de publication : 9 août 2024 à 7h28
Les agents d’IA incarnée capables d’interagir avec le monde physique présentent un potentiel considérable pour diverses applications. Cependant, le manque de données d’entraînement demeure l’un de leurs principaux obstacles.
Pour surmonter ce défi, des chercheurs de l’Imperial College de Londres et de Google DeepMind ont développé les Agents Augmentés par Diffusion (DAAG), un cadre novateur qui exploite la puissance des grands modèles de langage (LLMs), des modèles de langage visuel (VLMs) et des modèles de diffusion pour améliorer l’efficacité d’apprentissage et les capacités de transfert d’apprentissage des agents incarnés.
Importance de l’efficacité des données pour les agents incarnés
Les avancées impressionnantes des LLMs et des VLMs ces dernières années ont suscité des espoirs quant à leur application dans la robotique et l’IA incarnée. Cependant, bien que ces modèles puissent être formés sur d’énormes ensembles de données textuelles et d’images extraites d’Internet, les systèmes d’IA incarnée doivent apprendre en interagissant avec le monde physique.
Le monde réel présente plusieurs défis pour la collecte de données en IA incarnée. Premièrement, les environnements physiques sont beaucoup plus complexes et imprévisibles que le monde numérique. Deuxièmement, les robots et autres systèmes d’IA incarnée dépendent de capteurs et d’actionneurs physiques, qui peuvent être lents, bruyants et sujets à des pannes.
Les chercheurs estiment que surmonter cet obstacle dépendra d’une meilleure utilisation des données et de l’expérience existantes de l’agent.
« Nous émettons l’hypothèse que les agents incarnés peuvent atteindre une plus grande efficacité des données en s’appuyant sur leurs expériences passées pour explorer efficacement et transférer des connaissances entre les tâches », expliquent les chercheurs.
Qu’est-ce que DAAG ?
L’Agent Augmenté par Diffusion (DAAG), le cadre proposé par l’équipe de l’Imperial College et de DeepMind, est conçu pour permettre aux agents d’apprendre des tâches de manière plus efficace en utilisant des expériences passées et en générant des données synthétiques.
« Nous souhaitons permettre aux agents de définir et d’évaluer de manière autonome des sous-objectifs, même en l’absence de récompenses externes, et de réutiliser leur expérience des tâches précédentes pour accélérer l’apprentissage de nouvelles tâches », précisent les chercheurs.
DAAG est conçu comme un système d’apprentissage continu, où l’agent apprend et s’adapte en permanence à de nouvelles tâches.
DAAG fonctionne dans le cadre d’un processus de décision de Markov (MDP). L’agent reçoit des instructions pour une tâche au début de chaque épisode. Il observe l’état de son environnement, prend des mesures et essaie d’atteindre un état qui correspond à la tâche décrite.
Il dispose de deux mémoires : une mémoire spécifique à la tâche qui stocke les expériences de la tâche actuelle et une « mémoire de vie hors ligne » qui conserve toutes les expériences passées, indépendamment des tâches pour lesquelles elles ont été collectées ou de leurs résultats.
DAAG combine les forces des LLMs, des VLMs et des modèles de diffusion pour créer des agents capables de raisonner sur les tâches, d’analyser leur environnement et de réutiliser leurs expériences passées pour apprendre de nouveaux objectifs plus efficacement.
Le LLM agit comme le contrôleur central de l’agent. Lorsque l’agent reçoit une nouvelle tâche, le LLM interprète les instructions, les décompose en sous-objectifs et coordonne avec le VLM et le modèle de diffusion pour obtenir des cadres de référence pour atteindre ses objectifs.
Pour tirer le meilleur parti de son expérience passée, DAAG utilise un processus appelé Augmentation d’Expérience Rétrospective (HEA), qui utilise le VLM et le modèle de diffusion pour enrichir la mémoire de l’agent.
Tout d’abord, le VLM traite les observations visuelles dans le tampon d’expérience et les compare aux sous-objectifs souhaités. Il ajoute les observations pertinentes au nouveau tampon de l’agent pour l’aider à orienter ses actions.
Si le tampon d’expérience ne contient pas d’observations pertinentes, le modèle de diffusion entre en jeu. Il génère des données synthétiques pour aider l’agent à « imaginer » à quoi ressemblerait l’état souhaité. Cela permet à l’agent d’explorer différentes possibilités sans interagir physiquement avec l’environnement.
« Grâce à HEA, nous pouvons augmenter synthétiquement le nombre d’épisodes réussis que l’agent peut stocker dans ses tampons et apprendre de », expliquent les chercheurs. « Cela permet de réutiliser efficacement autant de données collectées par l’agent que possible, améliorant considérablement l’efficacité, en particulier lors de l’apprentissage de plusieurs tâches successives. »
Les chercheurs décrivent DAAG et HEA comme la première méthode à proposer un pipeline autonome complet, indépendant de la supervision humaine, qui exploite la cohérence géométrique et temporelle pour générer des observations augmentées cohérentes.
Avantages de DAAG
Les chercheurs ont évalué DAAG sur plusieurs benchmarks et dans trois environnements simulés différents, mesurant sa performance sur des tâches telles que la navigation et la manipulation d’objets. Ils ont constaté que le cadre offrait des améliorations significatives par rapport aux systèmes d’apprentissage par renforcement de base.
Par exemple, les agents alimentés par DAAG ont réussi à apprendre à atteindre des objectifs même sans récompenses explicites. Ils ont également pu atteindre leurs objectifs plus rapidement et avec moins d’interactions avec l’environnement par rapport aux agents qui n’utilisaient pas le cadre. De plus, DAAG est mieux adapté pour réutiliser efficacement les données des tâches précédentes afin d’accélérer le processus d’apprentissage pour de nouveaux objectifs.
La capacité de transférer des connaissances entre les tâches est cruciale pour développer des agents capables d’apprendre en continu et de s’adapter à de nouvelles situations. Le succès de DAAG dans l’activation d’un transfert d’apprentissage efficace chez les agents incarnés pourrait ouvrir la voie à des robots et d’autres systèmes d’IA incarnée plus robustes et adaptables.
« Ce travail suggère des directions prometteuses pour surmonter la rareté des données dans l’apprentissage des robots et développer des agents plus généralement capables », concluent les chercheurs.