Comment les restrictions commerciales américaines sur la vente d’accélérateurs d’IA à la Chine n’ont pas empêché Nvidia de lancer sa dernière architecture Blackwell sur le marché chinois.

Selon des sources anonymes, Nvidia se prépare à introduire un nouveau GPU destiné à la Chine, conçu pour contourner les limites de performance imposées par le département du Commerce américain.

Le processeur, nommé B20, sera basé sur l’architecture Blackwell de Nvidia, annoncée lors de la GTC au printemps dernier. Par rapport à l’architecture Hopper précédente, Nvidia affirme que ses puces basées sur Blackwell sont entre 2,5 et 5 fois plus rapides en termes de précision de calcul en virgule flottante.

Nvidia aurait choisi le constructeur chinois Inspur comme principal distributeur pour ce processeur, avec des expéditions prévues pour le deuxième trimestre de l’année prochaine. Cependant, la position d’Inspur sur la liste des entités américaines, qu’elle aurait obtenue en vendant des technologies américaines à l’armée chinoise, pourrait poser problème, si l’on suppose que le rapport est exact.

Néanmoins, les contrôles d’exportation déjà en place risquent de limiter l’efficacité de la prochaine série de puces destinées au marché chinois. En effet, le H20 de Nvidia, actuellement la puce la plus puissante qu’elle puisse vendre dans la région sans licence, atteint déjà les limites autorisées pour l’exportation.

Les contrôles d’exportation américains mis en œuvre en octobre dernier ont établi des plafonds sur la « performance de traitement totale » et la « densité de performance ». Ces règles ont effectivement interdit la vente de nombreuses cartes de datacenter Nvidia et ont brièvement bloqué le modèle RTX 4090 destiné aux consommateurs, avant qu’un modèle spécial pour le marché chinois ne soit lancé.

Un mois après l’entrée en vigueur de ces règles, des rumeurs concernant une série de cartes réduites, conçues pour respecter ces limites, ont commencé à circuler. La plus puissante de ces cartes est le H20 de 96 Go, qui offre 296 teraFLOPS de performance FP8.

Il semble qu’un accélérateur B20 serait limité au même niveau de performance, du moins en ce qui concerne la performance FP8. L’architecture Blackwell a introduit le support des types de données FP4, et de ce fait, nous nous attendons à ce que le chiffre de teraFLOPS annoncé soit le double de celui du H20, même s’ils ne sont pas directement comparables.

Pour ceux qui s’interrogent, un détail complet sur la manière dont ces limites de performance et de densité de calcul sont calculées est disponible ici.

Bien que les contrôles d’exportation américains signifient que la performance en virgule flottante et la densité de calcul de ces puces restent limitées, cela ne signifie pas qu’un B20 ne pourrait pas offrir une amélioration générationnelle en termes de performance. Lorsqu’il s’agit d’exécuter des modèles de langage pré-entraînés, la performance, souvent mesurée en tokens par seconde, est davantage limitée par la bande passante mémoire que par le nombre de FLOPS ou de TOPS que la puce peut traiter.

Ainsi, toute augmentation de la bande passante mémoire par rapport au H20, qui est apparemment capable de 4 To/s, devrait entraîner des gains de performance significatifs, du moins en matière d’inférence. L’ampleur de ces gains dépendra de l’architecture de la puce et du nombre de piles HBM avec lesquelles elle est associée.

Nvidia a refusé de commenter la demande de The Register concernant le B20.

Il est bien connu que la secrétaire au Commerce des États-Unis, Gina Raimondo, n’est pas une grande fan de Nvidia et d’autres fabricants de puces qui frôlent les limites d’exportation.

« Je vous le dis, si vous redessinez une puce autour d’une ligne de coupe particulière qui leur permet de faire de l’IA, je vais la contrôler le lendemain », a-t-elle déclaré en référence claire à Nvidia lors d’un forum de défense l’année dernière.

L’administration Biden s’attend maintenant à mettre en œuvre des contrôles d’exportation plus stricts dans les mois à venir pour freiner le développement de l’IA en Chine.

Étant donné l’impact considérable de la bande passante mémoire et de la capacité sur la performance des chatbots d’IA, il ne serait pas surprenant de voir de nouvelles limites ciblant cette spécification.

Comme mentionné précédemment, la bande passante mémoire a un impact direct sur le nombre de tokens d’IA — mots, phrases, ponctuation ou chiffres — qu’une puce peut générer en une seconde. Pendant ce temps, la capacité mémoire détermine la taille d’un modèle pouvant être déployé sur un seul GPU ou accélérateur.

De ce fait, des puces comme le H20 de Nvidia restent très performantes, même par rapport à l’ancien H100, pour des charges de travail moins dépendantes du calcul, comme l’exécution, plutôt que l’entraînement, de chatbots d’IA.

Un plafonnement de la bande passante mémoire pourrait sérieusement restreindre les ventes de puces américaines en Chine. Quoi qu’il arrive, toute restriction supplémentaire aura sans aucun doute un impact significatif sur les affaires de Nvidia, la Chine représentant encore environ 17 % des revenus annuels de l’entreprise.

Cependant, une telle mesure ne stopperait pas le développement d’accélérateurs nationaux comme ceux que nous avons vus de Moore Threads, Huawei et d’autres. Pour freiner le développement ici, l’administration Biden envisagerait d’imposer une mesure appelée la règle du produit direct étranger, qui lui permettrait de contrôler la vente de tout produit utilisant une technologie américaine.

Show Comments (0)
Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *