Crédit : Image générée par VentureBeat utilisant Stable Diffusion 3

Crédit : Image générée par VentureBeat utilisant Stable Diffusion 3

Stability AI élargit son éventail de modèles d’IA générative avec le lancement de Stable Video 4D, ajoutant ainsi une nouvelle dimension à ses capacités.

Bien qu’il existe déjà plusieurs outils d’IA générative pour la création de vidéos, tels que Sora d’OpenAI, Runway, Haiper et Luma AI, Stable Video 4D se distingue par son approche unique. Ce modèle repose sur le modèle Stable Video Diffusion existant de Stability AI, qui transforme des images en vidéos. La nouveauté réside dans sa capacité à accepter des vidéos en entrée et à générer plusieurs vidéos sous différents angles à partir de 8 perspectives distinctes.

Varun Jampani, responsable de l’équipe de recherche 3D chez Stability AI, a déclaré que Stable Video 4D pourrait être utilisé dans des domaines tels que la production cinématographique, les jeux vidéo, la réalité augmentée et virtuelle, ainsi que dans d’autres applications nécessitant l’observation d’objets 3D en mouvement sous divers angles de caméra.

Stable Video 4D : Une nouvelle dimension pour l’IA générative

Ce n’est pas la première fois que Stability AI s’aventure au-delà de l’univers 2D. En mars, l’entreprise avait déjà présenté Stable Video 3D, permettant aux utilisateurs de créer de courtes vidéos 3D à partir d’images ou de textes. Avec Stable Video 4D, l’entreprise franchit une étape significative. Alors que le concept de 3D est généralement compris comme une image ou une vidéo avec de la profondeur, la notion de 4D peut sembler moins familière.

Jampani a précisé que les quatre dimensions englobent la largeur (x), la hauteur (y), la profondeur (z) et le temps (t). Cela signifie que Stable Video 4D peut visualiser un objet 3D en mouvement sous différents angles de caméra et à différents moments.

Il a également souligné que Stable Video 4D est un réseau inédit, capable de réaliser à la fois la synthèse de nouvelles perspectives et la génération de vidéos, contrairement aux travaux existants qui utilisent des réseaux distincts pour ces tâches.

En outre, Jampani a expliqué que Stable Video 4D se distingue des modèles Stable Video Diffusion et Stable Video 3D par le fonctionnement de ses mécanismes d’attention.

« Nous avons soigneusement conçu des mécanismes d’attention dans le réseau de diffusion, permettant à chaque image vidéo de tenir compte de ses voisines sous différents angles de caméra ou à différents moments, ce qui améliore la cohérence 3D et la fluidité temporelle des vidéos générées », a-t-il ajouté.

Comment Stable Video 4D se distingue des autres outils d’IA

Dans le domaine de l’IA générative pour la création d’images 2D, le concept de remplissage (infill) est bien établi. Cependant, l’approche de Stable Video 4D diffère de cette méthode.

Jampani a expliqué que, contrairement à l’infill, où les réseaux complètent les informations partiellement fournies, Stable Video 4D synthétise entièrement les 8 vidéos sous de nouvelles perspectives à partir de zéro, en utilisant la vidéo d’entrée comme guide. « Il n’y a pas de transfert explicite d’informations pixel par pixel de l’entrée à la sortie ; tout cela se fait de manière implicite par le réseau », a-t-il précisé.

Actuellement, Stable Video 4D est disponible pour évaluation dans un cadre de recherche sur Hugging Face. Stability AI n’a pas encore annoncé les options commerciales qui seront proposées à l’avenir.

« Stable Video 4D peut déjà traiter des vidéos d’objets uniques de plusieurs secondes avec un fond simple. Nous prévoyons de l’adapter à des vidéos plus longues et à des scènes plus complexes », a conclu Jampani.

Show Comments (0)
Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *