Technologie


Luma AI et l’essor de la génération vidéo par IA

Le secteur de la technologie vidéo alimentée par l’intelligence artificielle a connu un tournant significatif ce lundi, lorsque Luma AI, une startup basée à San Francisco, a dévoilé une interface de programmation d’application (API) pour son modèle de génération vidéo, Dream Machine. Cette annonce est survenue quelques heures après que son concurrent, Runway, ait également présenté sa propre API.

Une API pour tous les créateurs

L’API Dream Machine permet à divers utilisateurs, qu’il s’agisse de développeurs indépendants, de fondateurs de startups ou d’ingénieurs au sein de grandes entreprises, de créer des applications et des services basés sur ce modèle de génération vidéo très prisé. Cela devrait élargir l’accès à la technologie vidéo par IA à un plus grand nombre d’applications et d’utilisateurs à travers le monde, tout en ouvrant la voie à de nouvelles fonctionnalités de génération vidéo en dehors du site de Luma AI. Avant le lancement de l’API, la seule façon de créer des vidéos générées par IA avec Dream Machine était via le site de Luma.

Les modèles vidéo par IA, tels que Dream Machine et Runway, s’appuient sur l’apprentissage à partir de millions de clips vidéo préalablement publiés, souvent sans autorisation explicite, pour les transformer en structures mathématiques appelées « embeddings ». Ces structures permettent ensuite de produire des visuels similaires ou conceptuellement liés en fonction des instructions textuelles ou des images fixes fournies par l’utilisateur.

Une offre accessible dès maintenant

Contrairement à Runway, qui a lancé deux versions de son API pour des équipes de petite taille et de grandes entreprises via des listes d’attente, l’API de Dream Machine est immédiatement accessible. Des développeurs de Hugging Face, un dépôt de code basé à New York, ont déjà mis en place une version de démonstration sur leur site public.

Amit Jain, co-fondateur et PDG de Luma AI, a partagé la vision de l’entreprise dans un communiqué, affirmant : « Notre intelligence créative est désormais à la disposition des développeurs et des créateurs du monde entier. Grâce à la recherche et à l’ingénierie de Luma, nous visons à inaugurer une ère d’abondance dans l’exploration et la création visuelles, permettant d’essayer davantage d’idées, de construire de meilleures narrations et de raconter des histoires diverses par ceux qui n’en avaient jamais eu l’opportunité auparavant. »

L’ascension rapide de Dream Machine

Lancée en juin 2024 en version bêta publique, Dream Machine a rapidement captivé les utilisateurs et les créateurs d’IA grâce à son réalisme impressionnant, ses temps de génération relativement rapides et son accessibilité, surtout face au modèle Sora d’OpenAI, qui reste privé. Luma a également précédemment lancé un modèle d’IA pour la génération d’images fixes et d’actifs 3D, appelé Genie, via son serveur Discord. Récemment, Dream Machine a été amélioré pour offrir un meilleur contrôle grâce à un menu déroulant de mouvements de caméra sélectionnés.

Luma revendique désormais que Dream Machine est « le modèle vidéo le plus populaire au monde », bien que VentureBeat attende des précisions sur les critères utilisés pour cette affirmation.

Fonctionnalités et capacités de l’API Dream Machine

L’API Dream Machine, alimentée par la dernière version (v1.6), propose plusieurs outils avancés pour la génération vidéo :

  • Texte en vidéo : Les utilisateurs peuvent générer des vidéos simplement en fournissant des instructions textuelles, sans avoir besoin d’une ingénierie de prompt complexe.

  • Image en vidéo : Les images statiques peuvent être instantanément transformées en animations de haute qualité grâce à des commandes en langage naturel.

  • Contrôle des images clés : Les développeurs peuvent orienter la création vidéo avec des images clés de début et de fin, contrôlant ainsi le flux narratif.

  • Extension et bouclage vidéo : L’API permet aux utilisateurs d’étendre des séquences vidéo ou de créer des boucles sans couture, idéales pour des visuels d’interface utilisateur ou du contenu marketing.

  • Contrôle des mouvements de caméra : Cette fonctionnalité permet aux utilisateurs de diriger les scènes vidéo par de simples entrées textuelles, offrant un contrôle précis sur la perspective et le mouvement de la vidéo générée.

  • Rapports d’aspect variables : L’API peut produire des vidéos optimisées pour différentes plateformes, simplifiant ainsi le processus d’édition vidéo et d’image.

L’API Dream Machine est conçue pour simplifier la création vidéo. Les développeurs peuvent intégrer ces fonctionnalités dans leurs applications sans avoir besoin d’outils d’édition vidéo complexes, permettant aux utilisateurs de se concentrer sur la narration et la création.

Accessibilité et tarification

L’un des objectifs principaux de Luma AI avec l’API Dream Machine est de démocratiser l’accès à la création vidéo de haute qualité. Jain a souligné l’engagement de l’entreprise à rendre cette technologie largement accessible, déclarant : « Nous croyons en la mise à disposition de ces technologies puissantes pour le plus grand nombre. C’est ce que nous avons fait avec le lancement de Dream Machine, et nous avons beaucoup appris. Je suis impatient d’apprendre aux côtés des développeurs et de voir ce qu’ils construiront avec Dream Machine. »

L’API est proposée à un tarif compétitif de 0,32 $ par million de pixels générés, ce qui équivaut à environ 0,35 $ pour une vidéo de 5 secondes en résolution 720p à 24 images par seconde. Ce modèle tarifaire garantit que même les petits développeurs peuvent expérimenter et tirer parti de la plateforme sans coûts prohibitifs.

Cependant, sans tarification publique de la part de Runway, il est actuellement impossible de comparer les deux en termes de valeur.

Scalabilité pour les entreprises

Bien que l’API Dream Machine soit ouverte à tous les développeurs, Luma AI a également introduit une option « Scale » pour répondre aux besoins des grandes entreprises et organisations. Cette option offre des limites de taux plus élevées ainsi qu’un support personnalisé pour l’intégration et l’ingénierie.

Selon Jain, l’option Scale est une réponse directe à la demande des clients d’entreprise : « Depuis le premier jour de Dream Machine, nous avons eu un immense intérêt de la part de grandes entreprises et organisations qui nous ont demandé l’accès à nos modèles. Aujourd’hui, nous sommes ravis de proposer notre option Scale pour servir ces clients et leurs cas d’utilisation variés. »

Utilisation responsable et modération

Luma AI affirme utiliser un système de modération à plusieurs niveaux, combinant des filtres d’IA avec une supervision humaine pour garantir que sa technologie est utilisée de manière responsable et conforme aux normes légales. Les développeurs utilisant l’API peuvent adapter les paramètres de modération en fonction de leurs marchés et de leurs bases d’utilisateurs spécifiques.

Luma AI prend également des mesures pour protéger la vie privée et la propriété des utilisateurs. Les entrées et sorties générées par l’API ne sont pas utilisées pour former les modèles d’IA de Luma, sauf si l’utilisateur donne une autorisation explicite, garantissant ainsi que les droits de propriété intellectuelle restent intacts.

Cependant, Luma et tous les autres fournisseurs de modèles de génération vidéo par IA ont été critiqués par des artistes et des militants qui estiment que cette technologie, qui a été formée à partir de vidéos disponibles sur le web, viole potentiellement les droits d’auteur. Malgré cela, les fournisseurs de vidéo par IA continuent d’avancer. Avec le lancement de l’API Dream Machine, Luma AI vise à stimuler davantage la création vidéo par IA sur le web, permettant aux développeurs de créer des outils vidéo innovants avec facilité et aux utilisateurs d’accéder à des outils pour exprimer leur créativité.

Show Comments (0)
Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *