Les Défis de l’Intelligence Artificielle Générative : Une Réflexion sur l’Utilisation des Données Synthétiques
Avec l’évolution rapide de l’intelligence artificielle générative, comme les modèles GPT-4o d’OpenAI ou Stable Diffusion de Stability AI, il est essentiel de prendre en compte les difficultés liées à l’entraînement de ces systèmes. La nécessité de disposer de vastes quantités de données soulève des inquiétudes quant aux limitations potentielles de l’approvisionnement, ce qui pourrait affecter la disponibilité des ressources nécessaires à l’entraînement.
Les Avantages des Données Synthétiques
Face à cette pénurie de données, l’utilisation de données synthétiques pour former les futures versions des modèles d’IA pourrait sembler une solution attrayante pour les grandes entreprises technologiques. Cette méthode présente plusieurs atouts, notamment son coût réduit et son approvisionnement pratiquement illimité par rapport aux données réelles. De plus, les données synthétiques comportent moins de risques en matière de confidentialité, en particulier dans des domaines sensibles comme la santé, et peuvent parfois même améliorer les performances de l’IA.
Les Risques de la Dépendance aux Données Synthétiques
Cependant, des recherches récentes menées par le groupe de traitement du signal numérique de l’Université Rice ont mis en lumière les conséquences négatives potentielles d’une dépendance excessive aux données synthétiques pour l’entraînement des modèles d’IA générative à long terme.
« Les problèmes surviennent lorsque cet entraînement sur des données synthétiques est, inévitablement, répété, formant une sorte de boucle de rétroaction que nous appelons une boucle autophagique ou ‘auto-consommatrice’, » a déclaré Richard Baraniuk, professeur d’ingénierie électrique et informatique à Rice.
« Notre groupe a beaucoup travaillé sur ces boucles de rétroaction, et la mauvaise nouvelle est qu’après quelques générations de cet entraînement, les nouveaux modèles peuvent devenir irrémédiablement corrompus. Cela a été qualifié de ‘collapse de modèle’ par certains, mais nous préférons le terme ‘Désordre d’Autophagie de Modèle’ (MAD), par analogie à la maladie de la vache folle. »
Une Analogie Éclairante
La maladie de la vache folle, ou encéphalopathie spongiforme bovine (ESB), est une maladie neurodégénérative mortelle qui touche les bovins et a un équivalent humain causé par la consommation de viande infectée. Une épidémie majeure dans les années 1980 et 1990 a révélé que cette maladie se propageait en raison de la pratique consistant à nourrir les vaches avec les restes de leurs congénères abattus, d’où le terme ‘autophagie’, dérivé des mots grecs auto, signifiant ‘soi’, et phagy, signifiant ‘manger’. L’étude intitulée ‘Les Modèles Génératifs Auto-Consommateurs Devenant MAD’ est la première recherche évaluée par des pairs sur l’autophagie en IA, se concentrant sur des modèles d’images génératives tels que DALL·E 3, Midjourney et Stable Diffusion.
Les Boucles de Rétroaction dans l’Entraînement des Modèles
Le processus d’entraînement des modèles d’IA générative implique souvent l’utilisation de jeux de données provenant d’Internet, ce qui peut entraîner l’émergence de boucles auto-consommatrices à chaque nouvelle génération de modèles. Baraniuk et son équipe ont examiné trois variations de ces boucles pour comprendre les scénarios potentiels :
- **Boucle entièrement synthétique :** Chaque nouvelle génération d’un modèle génératif était formée à l’aide de données entièrement synthétiques dérivées des sorties des générations précédentes.
- **Boucle d’augmentation synthétique :** Le jeu de données d’entraînement pour chaque génération était composé d’une combinaison de données synthétiques des générations antérieures et d’un ensemble fixe de données réelles.
- **Boucle de données fraîches :** Chaque génération de modèle était formée en utilisant un mélange de données synthétiques des générations précédentes et d’un nouvel ensemble de données réelles.
Au fur et à mesure que les itérations des boucles avançaient, il est devenu évident que sans un approvisionnement continu de nouvelles données réelles, les modèles commençaient à produire des résultats déformés, avec une qualité et une diversité compromises. Il est clair que la clé d’une IA robuste réside dans la disponibilité de données fraîches et variées.
Conséquences Visuelles et Scénarios Futurs
En examinant les générations successives de jeux de données d’images générées par l’IA, nous sommes confrontés à une vision troublante des résultats potentiels de l’IA. Les jeux de données de visages humains sont entachés de cicatrices en forme de grille, qualifiées d’« artefacts génératifs » par les auteurs, ou commencent à ressembler de plus en plus à la même personne. Pendant ce temps, les jeux de données contenant des chiffres se transforment en gribouillis illisibles.
« Nos analyses théoriques et empiriques nous ont permis d’extrapoler ce qui pourrait se passer à mesure que les modèles génératifs deviennent omniprésents et entraînent de futurs modèles dans des boucles auto-consommatrices, » a déclaré Baraniuk. « Certaines conséquences sont claires : sans suffisamment de nouvelles données réelles, les futurs modèles génératifs sont condamnés à la folie de MAD. »
Le Problème du Choix Sélectif
Pour améliorer le réalisme de ces simulations, les chercheurs ont intégré un paramètre de biais d’échantillonnage pour aborder le problème du « choix sélectif » – la tendance des utilisateurs à privilégier la qualité des données au détriment de la diversité. Cela signifie échanger la variété des types d’images et de textes dans un jeu de données pour ceux qui semblent ou sonnent attrayants.
Le choix sélectif offre l’incitation de préserver la qualité des données au fil de nombreuses itérations de modèles. Cependant, cela entraîne également une diminution plus marquée de la diversité.
« Un scénario apocalyptique est que si cela n’est pas contrôlé pendant de nombreuses générations, MAD pourrait empoisonner la qualité et la diversité des données sur l’ensemble d’Internet, » a déclaré Baraniuk. « En dehors de cela, il semble inévitable que des conséquences inattendues encore jamais vues émergeront de l’autophagie de l’IA, même à court terme. »
Cette recherche a été soutenue par la National Science Foundation, le Bureau de recherche navale, le Bureau de recherche scientifique de l’Armée de l’air et le Département de l’énergie.
Références de l’Étude
- Sina Alemohammad, Josue Casco-Rodriguez, Lorenzo Luzi, Ahmed Imtiaz Humayun, Hossein Babaei, Daniel LeJeune, Ali Siahkoohi, Richard G. Baraniuk. Les Modèles Génératifs Auto-Consommateurs Devenant MAD. Conférence Internationale sur l’Apprentissage des Représentations (ICLR), 2024.