Nouvelles Méthodes pour Assurer la Sécurité des Modèles d’IA
Date de publication : 24 juillet 2024 à 9h00
Crédit image : VentureBeat via DALL-E, OpenAI
Introduction des Récompenses Basées sur des Règles
OpenAI a récemment introduit une nouvelle approche pour enseigner aux modèles d’IA comment se conformer aux politiques de sécurité, connue sous le nom de Récompenses Basées sur des Règles (RBR). Selon Lilian Weng, responsable des systèmes de sécurité chez OpenAI, cette méthode permet d’automatiser une partie de l’ajustement des modèles, réduisant ainsi le temps nécessaire pour garantir que les résultats d’un modèle ne soient pas imprévus.
Un Changement de Paradigme dans l’Entraînement des Modèles
Weng a expliqué que, traditionnellement, l’apprentissage par renforcement basé sur les retours humains était la méthode par défaut pour l’alignement des modèles. Bien que cette méthode soit efficace, elle présente des défis, notamment le temps consacré à discuter des nuances des politiques, qui peuvent évoluer au fil du temps.
L’apprentissage par renforcement implique que des humains interagissent avec le modèle et évaluent ses réponses en fonction de leur précision ou de leur préférence. Si un modèle ne doit pas répondre d’une certaine manière, par exemple en étant amical ou en refusant de répondre à des demandes jugées « dangereuses », des évaluateurs humains peuvent également noter ses réponses pour vérifier leur conformité aux politiques établies.
Fonctionnement des Récompenses Basées sur des Règles
Avec les RBR, les équipes de sécurité et de politique d’OpenAI utilisent un modèle d’IA qui évalue les réponses en fonction de leur conformité à un ensemble de règles définies par ces équipes. Par exemple, une équipe de développement d’une application de santé mentale pourrait vouloir que le modèle refuse des demandes dangereuses de manière non-jugeante, tout en encourageant les utilisateurs à demander de l’aide si nécessaire. Pour cela, trois règles doivent être établies : refuser la demande, adopter un ton non-jugeant et utiliser des mots encourageants.
Le modèle RBR examine les réponses fournies par le modèle de santé mentale, les compare aux trois règles fondamentales et détermine si elles respectent ces critères. Weng a noté que les résultats des tests effectués avec les RBR sont comparables à ceux obtenus par l’apprentissage par renforcement dirigé par des humains.
Défis et Controverses Associés aux Modèles d’IA
Cependant, garantir que les modèles d’IA répondent dans des paramètres spécifiques reste un défi. Des échecs dans ce domaine peuvent entraîner des controverses. Par exemple, en février, Google a reconnu avoir trop corrigé les restrictions de génération d’images de son modèle Gemini, qui avait continuellement refusé de générer des photos de personnes blanches, produisant plutôt des images historiquement inexactes.
Réduction de la Subjectivité Humaine
Pour beaucoup, l’idée que des modèles puissent superviser la sécurité d’autres modèles soulève des inquiétudes. Toutefois, Weng soutient que les RBR réduisent effectivement la subjectivité, un problème courant pour les évaluateurs humains. Elle a précisé que des instructions ambiguës entraînent souvent des données de moindre qualité. En clarifiant les instructions, on obtient des résultats plus cohérents, similaires à ceux que l’on donnerait à un modèle.
OpenAI reconnaît que l’utilisation des RBR pourrait diminuer la supervision humaine et soulève des considérations éthiques, notamment le risque d’augmenter les biais dans les modèles. Dans un article de blog, l’entreprise a souligné l’importance de concevoir soigneusement les RBR pour garantir l’équité et l’exactitude, tout en envisageant une combinaison de RBR et de retours humains.
Perspectives d’Avenir et Engagement envers la Sécurité
Les RBR pourraient rencontrer des difficultés avec des tâches subjectives, telles que l’écriture ou toute forme de créativité. OpenAI a commencé à explorer ces méthodes lors du développement de GPT-4, bien que Weng ait noté que les RBR ont considérablement évolué depuis.
L’engagement d’OpenAI envers la sécurité a été remis en question. En mars, Jan Leike, un ancien chercheur et leader de l’équipe Superalignment de l’entreprise, a critiqué la société, affirmant que « la culture et les processus de sécurité ont été relégués au second plan au profit de produits attrayants ». Ilya Sutskever, co-fondateur et scientifique en chef, qui a co-dirigé l’équipe Superalignment avec Leike, a également quitté OpenAI pour fonder une nouvelle entreprise axée sur des systèmes d’IA sûrs.