Technologie
Date de publication : 2 août 2024, 10h55
Crédit image : VentureBeat avec DALL-E 3
Les modèles de langage de grande taille (LLMs) ont atteint un niveau impressionnant dans la génération de texte et de code, la traduction de langues et la création de contenus variés. Néanmoins, la compréhension de leur fonctionnement interne reste complexe, même pour les chercheurs qui les développent.
Les défis de l’interprétabilité des LLMs
Cette difficulté d’interprétation pose des problèmes pour l’utilisation des LLMs dans des applications critiques où la marge d’erreur est faible et où la transparence est essentielle. Pour remédier à cette situation, Google DeepMind a lancé Gemma Scope, un ensemble d’outils qui éclaire le processus décisionnel des modèles Gemma 2.
Gemma Scope repose sur des autoencodeurs spars (SAEs) basés sur JumpReLU, une architecture de deep learning récemment proposée par DeepMind.
Comprendre les activations des LLMs grâce aux autoencodeurs spars
Lorsqu’un LLM reçoit une entrée, il la traite à travers un réseau complexe de neurones artificiels. Les valeurs produites par ces neurones, appelées « activations », reflètent la compréhension du modèle de l’entrée et orientent sa réponse.
En analysant ces activations, les chercheurs peuvent obtenir des informations sur la manière dont les LLMs traitent les données et prennent des décisions. L’objectif est de déterminer quelles activations correspondent à quels concepts.
Cependant, l’interprétation de ces activations est un défi majeur, car les LLMs possèdent des milliards de neurones, et chaque inférence génère un ensemble massif de valeurs d’activation à chaque couche du modèle. Chaque concept peut activer des millions d’unités dans différentes couches, et chaque neurone peut être impliqué dans plusieurs concepts.
Une méthode prometteuse pour interpréter les activations des LLMs consiste à utiliser des autoencodeurs spars (SAEs). Ces modèles aident à analyser les activations dans les différentes couches d’un modèle de deep learning, un processus souvent désigné par « interprétabilité mécaniste ». Les SAEs sont généralement formés sur les activations d’une couche spécifique.
Le SAE tente de représenter les activations d’entrée avec un ensemble réduit de caractéristiques, puis reconstruit les activations originales à partir de ces caractéristiques. En répétant ce processus, le SAE apprend à compresser les activations denses en une forme plus interprétable, facilitant ainsi la compréhension des caractéristiques qui activent différentes parties du LLM.
Gemma Scope : une avancée significative
Les recherches antérieures sur les SAEs se concentraient principalement sur de petits modèles de langage ou sur une seule couche de modèles plus grands. En revanche, Gemma Scope de DeepMind adopte une approche plus globale en fournissant des SAEs pour chaque couche et sous-couche de ses modèles Gemma 2 de 2B et 9B.
Gemma Scope comprend plus de 400 SAEs, représentant collectivement plus de 30 millions de caractéristiques apprises des modèles Gemma 2. Cela permettra aux chercheurs d’explorer comment les différentes caractéristiques évoluent et interagissent à travers les différentes couches du LLM, offrant ainsi une compréhension plus riche du processus décisionnel du modèle.
DeepMind déclare dans un article de blog : « Cet outil permettra aux chercheurs d’étudier comment les caractéristiques évoluent tout au long du modèle et interagissent pour composer des caractéristiques plus complexes. »
Gemma Scope utilise la nouvelle architecture de DeepMind appelée JumpReLU SAE. Les architectures SAE précédentes utilisaient la fonction d’activation linéaire rectifiée (ReLU) pour imposer la sparsité. ReLU annule toutes les valeurs d’activation en dessous d’un certain seuil, ce qui aide à identifier les caractéristiques les plus importantes. Cependant, ReLU complique également l’estimation de la force de ces caractéristiques, car toute valeur inférieure au seuil est mise à zéro.
JumpReLU surmonte cette limitation en permettant au SAE d’apprendre un seuil d’activation différent pour chaque caractéristique. Ce léger ajustement facilite l’équilibre entre la détection des caractéristiques présentes et l’estimation de leur force. JumpReLU contribue également à maintenir une faible sparsité tout en augmentant la fidélité de reconstruction, un défi récurrent des SAEs.
Vers des LLMs plus robustes et transparents
DeepMind a rendu Gemma Scope accessible sur Hugging Face, permettant ainsi aux chercheurs de l’utiliser librement.
« Nous espérons que la publication d’aujourd’hui permettra de mener des recherches d’interprétabilité plus ambitieuses », déclare DeepMind. « Des recherches supplémentaires pourraient aider le domaine à construire des systèmes plus robustes, à développer de meilleures protections contre les hallucinations des modèles et à se prémunir contre les risques liés aux agents autonomes, tels que la tromperie ou la manipulation. »
À mesure que les LLMs continuent d’évoluer et de se généraliser dans les applications d’entreprise, les laboratoires d’IA s’efforcent de fournir des outils qui leur permettent de mieux comprendre et contrôler le comportement de ces modèles.
Les SAEs, comme ceux proposés dans Gemma Scope, se révèlent être l’une des directions de recherche les plus prometteuses. Ils peuvent aider à développer des techniques pour découvrir et bloquer des comportements indésirables dans les LLMs, tels que la génération de contenus nuisibles ou biaisés. La sortie de Gemma Scope peut avoir des applications variées, comme la détection et la correction des failles des LLMs, l’orientation du comportement des modèles, le red teaming des SAEs et la découverte de caractéristiques intéressantes des modèles de langage, comme leur apprentissage de tâches spécifiques.
Anthropic et OpenAI travaillent également sur leurs propres recherches en matière de SAE et ont publié plusieurs articles au cours des derniers mois. Parallèlement, des scientifiques explorent des techniques non mécanistes pour mieux comprendre le fonctionnement interne des LLMs. Un exemple est une technique récente développée par OpenAI, qui associe deux modèles pour vérifier les réponses de l’autre. Cette méthode utilise un processus ludique qui incite le modèle à fournir des réponses vérifiables et compréhensibles.