L’Avancée des Modèles de Langage Ouverts : Vers une Sécurisation Renforcée
Introduction à Llama 3 et ses Défis
En avril dernier, Meta a lancé son modèle de langage de grande taille, Llama 3, en accès libre. Cependant, il n’a pas fallu longtemps aux développeurs externes pour créer une version de ce modèle, contournant les restrictions de sécurité qui empêchent la diffusion de contenus inappropriés, tels que des blagues haineuses ou des instructions pour des activités illégales.
Une Nouvelle Technique de Formation
Des chercheurs de l’Université de l’Illinois à Urbana-Champaign, de l’UC San Diego, de Lapis Labs et du Centre pour la Sécurité de l’IA ont mis au point une méthode d’entraînement innovante. Cette technique pourrait rendre plus difficile la suppression des protections de sécurité sur Llama et d’autres modèles d’IA open source à l’avenir. Certains experts estiment qu’avec l’augmentation des capacités de l’IA, il est essentiel de rendre ces modèles plus résistants aux manipulations.
Les Risques Associés aux Modèles d’IA
Mantas Mazeika, chercheur au Centre pour la Sécurité de l’IA, souligne que des acteurs malveillants, tels que des terroristes ou des États voyous, pourraient exploiter ces modèles. Plus il est facile pour eux de les détourner, plus le risque augmente.
Accès et Disponibilité des Modèles Puissants
Les modèles d’IA avancés sont souvent gardés secrets par leurs créateurs et ne peuvent être utilisés que via des interfaces de programmation d’applications ou des chatbots accessibles au public, comme ChatGPT. Bien que le développement d’un modèle de langage puissant puisse coûter des millions de dollars, Meta et d’autres entreprises ont choisi de rendre leurs modèles entièrement accessibles, y compris les « poids » qui définissent leur comportement.
Ajustements et Sécurisation des Modèles
Avant leur publication, des modèles ouverts comme Llama subissent généralement des ajustements pour améliorer leur capacité à répondre aux questions et à maintenir une conversation, tout en s’assurant qu’ils ne répondent pas à des requêtes problématiques. Cela vise à empêcher un chatbot basé sur le modèle de faire des déclarations inappropriées ou dangereuses.
Une Méthode pour Complexifier les Modifications
Les chercheurs ont découvert une méthode pour compliquer le processus de modification d’un modèle ouvert à des fins malveillantes. En reproduisant le processus de modification, ils ont ensuite ajusté les paramètres du modèle pour que les changements habituels ne fonctionnent plus. Mazeika et son équipe ont démontré cette technique sur une version simplifiée de Llama 3, réussissant à empêcher le modèle de répondre à des questions indésirables, même après de nombreuses tentatives.
Perspectives d’Amélioration
Bien que cette approche ne soit pas parfaite, elle pourrait relever le niveau de difficulté pour « décensurer » les modèles d’IA. Mazeika espère que cette recherche incitera d’autres travaux sur des protections résistantes aux manipulations, permettant à la communauté scientifique de développer des solutions de plus en plus robustes.
L’Intérêt Croissant pour l’IA Open Source
L’idée de sécuriser les modèles ouverts pourrait gagner en popularité à mesure que l’intérêt pour l’IA open source augmente. Actuellement, ces modèles rivalisent avec des modèles fermés de pointe, comme ceux d’OpenAI et de Google. Par exemple, la dernière version de Llama 3, lancée en juillet, est comparable en puissance à des modèles derrière des chatbots populaires tels que ChatGPT et Gemini.
Réactions du Gouvernement Américain
Le gouvernement américain adopte une approche prudente mais positive envers l’IA open source. Un rapport récent de l’Administration nationale des télécommunications et de l’information recommande de développer de nouvelles capacités pour surveiller les risques potentiels, tout en évitant de restreindre immédiatement la disponibilité des poids des modèles ouverts dans les plus grands systèmes d’IA.
Opinions Divergentes sur les Restrictions
Cependant, tous ne sont pas favorables à l’imposition de restrictions sur les modèles ouverts. Stella Biderman, directrice d’EleutherAI, un projet d’IA open source communautaire, estime que la nouvelle technique, bien que théoriquement élégante, pourrait être difficile à appliquer. Elle soutient que la véritable intervention devrait se concentrer sur les données d’entraînement plutôt que sur le modèle déjà formé.
Conclusion
La sécurisation des modèles de langage ouverts est un enjeu crucial à mesure que l’IA continue d’évoluer. Les efforts pour rendre ces modèles plus résistants aux manipulations pourraient jouer un rôle clé dans la prévention des abus potentiels, tout en préservant l’esprit d’ouverture et d’innovation qui caractérise le domaine de l’IA.