Technologie
29 juillet 2024, 13h30
Nvidia et Hugging Face s’associent pour offrir des microservices d’IA.
Nvidia et Hugging Face ont annoncé une collaboration visant à fournir des services d’inférence en tant que service, propulsés par les microservices NIM de Nvidia. Ce nouveau service promet d’améliorer l’efficacité des tokens jusqu’à cinq fois avec des modèles d’IA populaires, offrant ainsi un accès immédiat aux microservices NIM fonctionnant sur Nvidia DGX Cloud.
Cette annonce a été faite lors de la conférence Siggraph sur les graphiques informatiques à Denver, Colorado, par le PDG de Nvidia, Jensen Huang. La plateforme Hugging Face, qui compte l’une des plus grandes communautés d’IA au monde avec quatre millions de développeurs, bénéficiera d’un accès simplifié à l’inférence accélérée par Nvidia sur certains des modèles d’IA les plus utilisés.
Nouvelles capacités d’inférence en tant que service
Les nouvelles fonctionnalités d’inférence en tant que service permettront aux développeurs de déployer rapidement des modèles de langage de grande taille, tels que la famille Llama 3 et les modèles Mistral AI, avec l’optimisation des microservices NIM de Nvidia sur Nvidia DGX Cloud. Annoncé lors de la conférence Siggraph, ce service aidera les développeurs à prototyper rapidement des modèles d’IA open-source hébergés sur le Hugging Face Hub et à les déployer en production. Les utilisateurs de Hugging Face Enterprise Hub pourront bénéficier d’une inférence sans serveur, offrant ainsi une flexibilité accrue, un minimum de frais d’infrastructure et des performances optimisées grâce à Nvidia NIM.
Kari Briski, vice-présidente de la gestion des produits logiciels d’IA générative, a déclaré lors d’une conférence de presse que le moment est venu de mettre l’IA générative en production, bien que cela puisse sembler intimidant pour certains. « Les développeurs recherchent des moyens simples de travailler avec des API et de tester comment un modèle pourrait fonctionner dans leur application en termes de précision et de latence », a-t-elle expliqué. « Les applications utilisent plusieurs modèles qui interagissent avec différentes sources de données pour obtenir une réponse, et il est essentiel d’optimiser ces modèles pour diverses tâches et modalités. »
Ce besoin a conduit Nvidia à lancer des services d’IA générative et des microservices NIM.
Un service d’inférence complémentaire
Le service d’inférence complète l’offre « Train on DGX Cloud », un service de formation en IA déjà disponible sur Hugging Face. Les développeurs, confrontés à un nombre croissant de modèles open-source, peuvent tirer parti d’un hub où ils peuvent facilement comparer les options. Ces outils de formation et d’inférence offrent aux développeurs de Hugging Face de nouvelles façons d’expérimenter, de tester et de déployer des modèles de pointe sur une infrastructure accélérée par Nvidia. L’accès à ces outils est facilité grâce aux menus déroulants « Train » et « Deploy » sur les cartes de modèles Hugging Face, permettant aux utilisateurs de commencer en quelques clics.
Microservices d’inférence optimisés
Les microservices NIM de Nvidia constituent un ensemble de services d’IA, incluant des modèles de fondation Nvidia et des modèles de la communauté open-source, optimisés pour l’inférence via des interfaces de programmation d’application standard. NIM offre aux utilisateurs une efficacité accrue dans le traitement des tokens, qui sont les unités de données utilisées et générées par un modèle de langage. Ces microservices optimisés améliorent également l’efficacité de l’infrastructure Nvidia DGX Cloud sous-jacente, ce qui peut augmenter la vitesse des applications d’IA critiques.
Les développeurs peuvent ainsi s’attendre à des résultats plus rapides et plus robustes d’un modèle d’IA accessible en tant que NIM par rapport à d’autres versions. Par exemple, la version de 70 milliards de paramètres de Llama 3 offre jusqu’à cinq fois plus de débit lorsqu’elle est utilisée comme NIM, comparativement à un déploiement standard sur des systèmes alimentés par des GPU Nvidia H100 Tensor Core.
La plateforme Nvidia DGX Cloud est spécialement conçue pour l’IA générative, offrant aux développeurs un accès facile à une infrastructure de calcul accélérée fiable, leur permettant de commercialiser plus rapidement des applications prêtes pour la production. Elle fournit des ressources GPU évolutives qui soutiennent chaque étape du développement de l’IA, du prototype à la production, sans nécessiter d’engagement à long terme en matière d’infrastructure IA.
Microservices pour le cadre OpenUSD
Lors de la conférence Siggraph, Nvidia a également présenté des modèles d’IA générative et des microservices NIM pour le cadre OpenUSD, afin d’accélérer la capacité des développeurs à créer des mondes virtuels d’une grande précision pour la prochaine évolution de l’IA.