AI et l’Utilisation Non Autorisée de Contenus Vidéo
Une entreprise spécialisée dans l’intelligence artificielle, Runway, aurait extrait des milliers de vidéos YouTube ainsi que des versions piratées de films protégés par des droits d’auteur sans autorisation. Selon des documents internes obtenus par 404 Media, cette startup dédiée à la génération de vidéos par IA aurait formé son modèle Gen-3 en utilisant des contenus provenant de chaînes telles que Disney, Netflix, Pixar et d’autres médias populaires.
Un ancien employé de Runway a révélé que la société utilisait des tableurs pour identifier les vidéos qu’elle souhaitait intégrer à sa base de données. Pour ce faire, elle téléchargeait ces vidéos de manière discrète en utilisant des logiciels proxy open-source afin de masquer ses activités. Un des documents mentionne des mots-clés simples comme astronaute, fée et arc-en-ciel, avec des notes indiquant si des vidéos de haute qualité avaient été trouvées pour l’entraînement. Par exemple, le mot « super-héros » est accompagné d’une note mentionnant « beaucoup de clips de films ».
Des annotations supplémentaires montrent que Runway avait identifié des chaînes YouTube liées à Unreal Engine, au cinéaste Josh Neuman et à une page de fans de Call of Duty comme de bonnes sources pour des vidéos d’entraînement à « fort mouvement ».
L’ancien employé a déclaré à 404 Media : « Les chaînes dans ce tableur étaient un effort collectif pour trouver des vidéos de bonne qualité afin de construire le modèle. Cela a ensuite été utilisé comme entrée pour un énorme robot d’exploration web qui a téléchargé toutes les vidéos de ces chaînes, en utilisant des proxies pour éviter d’être bloqué par Google. »
Une liste de près de 4 000 chaînes YouTube, compilée dans l’un des tableurs, a signalé des « chaînes recommandées » provenant de CBS New York, AMC Theaters, Pixar, Disney Plus, Disney CD et de l’Aquarium de Monterey. (Car aucun modèle d’IA n’est complet sans loutres.)
De plus, Runway aurait constitué une liste distincte de vidéos provenant de sites de piratage. Un tableur intitulé « Source Non-YouTube » comprend 14 liens vers des sources telles qu’une archive en ligne non autorisée de films Studio Ghibli, des sites de piratage d’anime et de films, un site de fans affichant des vidéos de jeux Xbox et le site de streaming animé kisscartoon.sh.
Une découverte troublante a été faite lorsque 404 Media a constaté que l’utilisation de noms de YouTubers populaires présents dans le tableur produisait des résultats étonnamment similaires. En revanche, en entrant les mêmes noms dans le modèle Gen-2 plus ancien de Runway — formé avant l’utilisation des données des tableurs — les résultats étaient « non liés », comme des hommes en costume génériques. De plus, après que le média a contacté Runway au sujet des ressemblances des YouTubers dans les résultats, l’outil d’IA a cessé complètement de les générer.
« J’espère qu’en partageant ces informations, les gens comprendront mieux l’ampleur de ces entreprises et ce qu’elles font pour créer des vidéos ‘cool' », a déclaré l’ancien employé à 404 Media.
Lorsqu’un représentant de YouTube a été contacté pour un commentaire, il a renvoyé Engadget vers une interview de son PDG Neal Mohan accordée à Bloomberg en avril. Dans cette interview, Mohan a qualifié l’utilisation de ses vidéos de « violation claire » de ses conditions d’utilisation. « Nos commentaires précédents à ce sujet restent valables », a écrit le porte-parole de YouTube, Jack Mason, à Engadget.
Runway n’a pas répondu à une demande de commentaire au moment de la publication.
Il semble qu’au moins certaines entreprises d’IA soient engagées dans une course pour normaliser leurs outils et établir une position de leader sur le marché avant que les utilisateurs — et les tribunaux — ne réalisent comment leurs produits sont élaborés. S’entraîner avec l’autorisation par le biais d’accords de licence est une chose, et c’est une autre tactique récemment adoptée par des entreprises comme OpenAI. Mais il est beaucoup plus risqué (voire illégal) de considérer l’ensemble d’Internet — matériel protégé par des droits d’auteur inclus — comme une ressource à exploiter dans une course effrénée pour le profit et la domination.
Le reportage approfondi de 404 Media mérite d’être lu.