Avancées dans la Génération d’Images par Intelligence Artificielle
Les Défis de l’Intelligence Artificielle Générative
L’intelligence artificielle générative a longtemps rencontré des difficultés pour produire des images précises, notamment en ce qui concerne des détails comme les doigts et la symétrie faciale. De plus, ces modèles peinent souvent à générer des images de différentes tailles et résolutions.
Une Nouvelle Méthode Prometteuse
Des chercheurs en informatique de l’Université Rice ont mis au point une approche novatrice pour la génération d’images en utilisant des modèles de diffusion pré-entraînés. Ces modèles, qui apprennent en ajoutant des couches de bruit aléatoire aux images d’entraînement puis en générant de nouvelles images en éliminant ce bruit, montrent un potentiel intéressant pour surmonter ces limitations.
Les Limites des Modèles de Diffusion
Selon Haji Ali, un doctorant en informatique à Rice, les modèles de diffusion tels que Stable Diffusion, Midjourney et DALL-E produisent des résultats impressionnants, générant des images assez réalistes. Cependant, ils présentent une faiblesse majeure : leur capacité à ne générer que des images carrées. Cela pose problème dans des cas où des rapports d’aspect différents sont nécessaires, comme sur un écran d’ordinateur ou une montre connectée.
Lorsqu’un modèle comme Stable Diffusion est utilisé pour créer des images non carrées, par exemple avec un rapport d’aspect de 16:9, des éléments répétitifs peuvent entraîner des déformations étranges dans l’image générée, comme des personnages avec six doigts ou des objets allongés.
L’Impact de l’Entraînement sur la Qualité des Images
Vicente Ordóñez-Román, professeur associé en informatique, et Guha Balakrishnan, professeur assistant en ingénierie électrique et informatique, soulignent que si un modèle est uniquement entraîné sur des images d’une certaine résolution, il aura des difficultés à générer des images d’autres résolutions en raison d’un phénomène appelé surapprentissage. Ce dernier se produit lorsque le modèle d’IA devient trop focalisé sur la génération de données similaires à celles sur lesquelles il a été entraîné, limitant ainsi sa capacité à s’écarter de ces paramètres.
La Classification du Bruit Numérique
La recherche de Haji Ali révèle que le bruit numérique utilisé par les modèles de diffusion peut être classé en deux types de signaux : local et global. Le signal local contient des informations spécifiques au niveau des pixels, comme les détails d’un œil ou la texture du pelage d’un chien, tandis que le signal global capture le contour général de l’image.
Haji Ali explique que l’une des raisons pour lesquelles les modèles de diffusion ont du mal avec des rapports d’aspect non carrés est qu’ils combinent généralement les informations locales et globales. Lorsque le modèle tente de reproduire ces données pour tenir compte de l’espace supplémentaire dans une image non carrée, cela entraîne des imperfections visuelles.
ElasticDiffusion : Une Approche Innovante
La méthode ElasticDiffusion développée par Ali représente une rupture avec les approches traditionnelles. En séparant les signaux locaux et globaux en chemins de génération conditionnels et inconditionnels, cette méthode garantit que les signaux restent distincts. Cela empêche les imperfections visuelles, en particulier dans les images non carrées, car l’IA peut traiter les données de manière précise sans confusion.
De plus, la méthode ElasticDiffusion applique le chemin inconditionnel avec des détails locaux au niveau des pixels dans les quadrants de l’image, assurant une image plus nette, indépendante du rapport d’aspect et ne nécessitant pas d’entraînement supplémentaire. Cette approche simplifie le processus de génération et produit des images de haute qualité, marquant une avancée significative dans le contenu généré par l’IA.
Perspectives d’Amélioration
Bien que l’ElasticDiffusion soit prometteuse, elle nécessite actuellement 6 à 9 fois plus de temps pour créer une image par rapport à d’autres modèles de diffusion. L’objectif est de réduire ce temps pour atteindre la vitesse d’inférence de modèles tels que Stable Diffusion ou DALL-E.
Haji Ali espère que cette recherche permettra de définir pourquoi les modèles de diffusion génèrent des parties plus répétitives et ne peuvent pas s’adapter à des rapports d’aspect changeants, tout en développant un cadre capable de s’adapter à n’importe quel rapport d’aspect, indépendamment de l’entraînement, tout en maintenant un temps d’inférence similaire.