Les capacités émergentes des modèles de langage : une nouvelle perspective
Les modèles de langage de grande taille (LLMs), tels que ChatGPT, qui intègrent des milliards de paramètres et sont pré-entraînés sur d’énormes corpus de données, ont été décrits comme capables d’acquérir certaines compétences sans formation spécifique. Ces compétences, qualifiées de capacités émergentes, alimentent les débats sur les opportunités et les risques associés à ces technologies. Dans une étude récente, Harish Tayyar Madabushi et ses collègues de l’Université de Bath proposent une théorie novatrice qui explique ces capacités émergentes, en tenant compte des facteurs pouvant les influencer, et valident rigoureusement cette théorie à travers plus de 1 000 expériences. Leurs résultats indiquent que les capacités prétendument émergentes ne sont pas réellement spontanées, mais résultent d’une combinaison d’apprentissage contextuel, de mémoire du modèle et de connaissances linguistiques.
Lu et al. suggèrent que les modèles de langage comme ChatGPT ne peuvent pas apprendre de manière autonome.
Une perception erronée des capacités de l’IA
Selon Dr. Tayyar Madabushi, « la narration dominante selon laquelle ce type d’IA représente une menace pour l’humanité freine l’adoption et le développement de ces technologies, tout en détournant notre attention des véritables enjeux qui méritent notre attention. »
Les chercheurs ont mené des expériences pour évaluer la capacité des LLMs à accomplir des tâches inédites, souvent qualifiées de capacités émergentes. Par exemple, ces modèles peuvent répondre à des questions sur des situations sociales sans avoir été explicitement formés pour cela.
Alors que des études antérieures suggéraient que ces modèles « savaient » des choses sur les situations sociales, les chercheurs ont démontré que cela résultait en réalité de leur capacité à accomplir des tâches en se basant sur quelques exemples, un processus connu sous le nom d’apprentissage contextuel (ICL).
Une analyse approfondie des capacités des LLMs
À travers des milliers d’expériences, l’équipe a prouvé que la combinaison de la capacité des LLMs à suivre des instructions, leur mémoire et leur compétence linguistique peut expliquer à la fois leurs capacités et leurs limites.
Dr. Tayyar Madabushi a ajouté : « La crainte est que, à mesure que les modèles deviennent de plus en plus grands, ils puissent résoudre de nouveaux problèmes que nous ne pouvons pas actuellement prévoir, ce qui soulève la menace que ces modèles plus grands acquièrent des compétences dangereuses, y compris le raisonnement et la planification. »
Cette inquiétude a suscité de nombreux débats, notamment lors du Sommet sur la sécurité de l’IA l’année dernière à Bletchley Park, où les chercheurs ont été sollicités pour donner leur avis. Cependant, l’étude démontre que la peur qu’un modèle agisse de manière totalement inattendue, innovante et potentiellement dangereuse n’est pas fondée.
Réévaluation des préoccupations liées à l’IA
Les préoccupations concernant la menace existentielle posée par les LLMs ne se limitent pas aux non-experts et ont été exprimées par certains des meilleurs chercheurs en IA à travers le monde. Toutefois, Dr. Tayyar Madabushi et ses co-auteurs soutiennent que cette peur est infondée, car leurs tests ont clairement montré l’absence de capacités de raisonnement complexe émergentes dans les LLMs.
« Bien qu’il soit crucial d’aborder le potentiel d’abus de l’IA, comme la création de fausses informations et l’augmentation des risques de fraude, il serait prématuré d’instaurer des réglementations basées sur des menaces existentielles perçues, » a déclaré Dr. Tayyar Madabushi.
« Ce que cela signifie pour les utilisateurs finaux, c’est qu’il est probablement erroné de compter sur les LLMs pour interpréter et exécuter des tâches complexes nécessitant un raisonnement élaboré sans instructions explicites. »
« Au lieu de cela, les utilisateurs devraient spécifier clairement ce qu’ils attendent des modèles et fournir des exemples lorsque cela est possible, sauf pour les tâches les plus simples. »
Le professeur Iryna Gurevych de l’Université technique de Darmstadt a ajouté : « Nos résultats ne signifient pas que l’IA ne représente pas du tout une menace. Au contraire, nous montrons que l’émergence supposée de compétences de pensée complexe associées à des menaces spécifiques n’est pas étayée par des preuves et que nous pouvons contrôler le processus d’apprentissage des LLMs de manière efficace. »
« Les recherches futures devraient donc se concentrer sur d’autres risques posés par ces modèles, tels que leur potentiel à générer de fausses informations. »
_____
Sheng Lu et al. 2024. Les capacités émergentes des modèles de langage de grande taille sont-elles simplement un apprentissage contextuel ? arXiv: 2309.01809