L’Impact de l’Utilisation des Données Générées par l’IA sur la Qualité des Modèles
Introduction à la Dégradation des Modèles d’IA
Les modèles d’intelligence artificielle (IA) s’appuient sur d’énormes ensembles de données provenant d’Internet pour leur apprentissage. Cependant, avec l’augmentation de l’utilisation de l’IA pour générer des pages web remplies de contenu de faible qualité, ce processus d’apprentissage est menacé.
Recherche Révélatrice sur la Qualité des Données
Une étude récente publiée dans la revue Nature met en lumière que la qualité des résultats produits par les modèles d’IA se dégrade progressivement lorsqu’ils sont formés sur des données générées par d’autres IA. Ce phénomène s’aggrave à mesure que les modèles successifs utilisent les résultats des précédents comme données d’entraînement.
Une Métaphore Éclairante
Ilia Shumailov, chercheur en informatique à l’Université d’Oxford et auteur de l’étude, compare ce processus à la prise de photos de photos. « Si vous photographiez une image, puis la numérisez et l’imprimez, et que vous répétez ce processus, le bruit finit par dominer », explique-t-il. Pour l’IA, ce phénomène est désigné sous le terme de « collapse du modèle », ce qui signifie que le modèle produit des résultats incohérents et dénués de sens.
Conséquences pour les Modèles d’IA Actuels
Cette recherche soulève des préoccupations majeures pour les modèles d’IA les plus avancés, qui utilisent Internet comme base de données. Par exemple, GPT-3 a été partiellement formé sur des données provenant de Common Crawl, une archive en ligne de plus de 3 milliards de pages web. La situation risque de s’aggraver avec l’augmentation des sites web générés par l’IA, qui encombrent le réseau.
Risques de Performance et Diminution des Améliorations
Shumailov souligne que les modèles d’IA actuels ne vont pas nécessairement s’effondrer, mais des effets notables pourraient se manifester : le rythme des améliorations pourrait ralentir et la performance pourrait en pâtir. Pour évaluer l’impact potentiel sur la performance, Shumailov et son équipe ont affiné un modèle de langage sur un ensemble de données provenant de Wikipedia, puis ont affiné ce nouveau modèle sur ses propres résultats pendant neuf générations. Ils ont mesuré le degré de nonsensicalité des résultats à l’aide d’un « score de perplexité », qui évalue la confiance d’un modèle d’IA dans sa capacité à prédire la suite d’une séquence.
Exemples de Dégradation des Résultats
Les modèles formés sur les résultats d’autres modèles ont affiché des scores de perplexité plus élevés. Par exemple, lors de la neuvième génération, le modèle a produit une phrase incohérente à partir d’une entrée initiale sur l’architecture médiévale.
Analogie sur la Précision des Estimations
Shumailov illustre le problème avec une analogie : imaginez que vous essayez de trouver le nom le moins courant d’un élève dans une école. Plutôt que de passer en revue tous les noms, vous examinez 100 noms sur 1 000. Bien que cela vous donne une estimation raisonnable, ce n’est probablement pas la réponse correcte. Si une autre personne se base sur votre échantillon de 100 noms pour faire sa propre estimation en ne sélectionnant que 50, son évaluation sera encore moins précise.
La Nécessité de Données de Haute Qualité
Les modèles d’IA dépendent de la diversité et de la qualité des données pour fonctionner efficacement. Shayne Longpre, chercheur au MIT Media Lab, souligne que les modèles fondamentaux s’appuient sur l’échelle des données pour bien performer. Pour compenser la diminution des retours sur les données collectées sur le web, les futurs modèles d’IA pourraient devoir s’entraîner sur des données synthétiques.
Les Défis des Données Synthétiques
Matthias Gerstgrasser, chercheur en IA à Stanford, indique que l’ajout de données synthétiques aux données réelles ne pose pas de problèmes majeurs, tant que cela ne remplace pas les données authentiques. Cependant, il insiste sur l’importance d’avoir des données d’entraînement de haute qualité et diversifiées.
Distorsion des Informations pour les Groupes Minoritaires
Un autre effet de cette dégradation est que les informations concernant les groupes minoritaires sont souvent déformées, car les modèles ont tendance à se concentrer sur des échantillons plus fréquents dans les données d’entraînement. Cela peut avoir des répercussions sur les langues sous-représentées, qui nécessitent davantage de jeux de données synthétiques.
Solutions Potentielles pour Éviter la Dégradation
Une approche pour éviter cette dégradation pourrait consister à accorder plus de poids aux données générées par des humains. Une partie de l’étude de Shumailov a permis aux générations futures de s’appuyer sur 10 % de l’ensemble de données d’origine, atténuant ainsi certains effets négatifs.
La Problématique de la Provenance des Données
Cela nécessiterait de tracer un chemin depuis les données générées par des humains jusqu’aux générations ultérieures, un processus connu sous le nom de provenance des données. Cependant, établir une distinction claire entre le contenu généré par des humains et celui généré par l’IA reste un défi non résolu. Bien que plusieurs outils existent pour déterminer si un texte est généré par l’IA, leur précision est souvent remise en question.
Conclusion
« Malheureusement, nous avons plus de questions que de réponses », conclut Shumailov. « Il est cependant essentiel de savoir d’où proviennent vos données et dans quelle mesure vous pouvez leur faire confiance pour capturer un échantillon représentatif des données que vous traitez. »