Interview exclusive récent de Huang Renxun (suite) : Pourquoi Nvidia ne fait-elle pas elle-même Hyperscaler ?

ChainNewsAbmedia

Dans la deuxième partie de l’interview de Huang Renxun, il répond directement à la menace que représenteraient les TPU et les ASIC pour NVIDIA. Il souligne que ce que fait NVIDIA n’est pas un simple processeur IA, mais une plateforme de calcul accéléré ; l’enjeu est l’intégration de l’ensemble de l’écosystème. Tout comme dans la guerre des puces entre les États-Unis et la Chine, la course à l’IA ne se joue pas sur un seul point : c’est la capacité de toute la pile technologique à se renforcer simultanément qui compte.

Face à la remise en cause : « L’essence de l’IA, c’est essentiellement la multiplication matricielle en grande quantité ; pourquoi ne pas laisser une architecture plus spécialisée, comme les TPU, en prendre la direction ? », la réponse de Huang Renxun est la suivante : la multiplication matricielle est importante, mais elle n’est pas la totalité de l’IA. Des nouveaux mécanismes d’attention, à l’intégration de SSM hybride, à la fusion entre diffusion et autoregressive, jusqu’à l’exécution distribuée des modèles et aux innovations d’architecture : les progrès de l’IA proviennent souvent d’innovations algorithmiques, et pas seulement de pousser la loi de Moore avec du matériel.

Puisque NVIDIA dispose de beaucoup de liquidités et qu’il a déjà participé en profondeur aux infrastructures d’IA et à la couche modèles via ses investissements dans CoreWeave, Nebius, Nscale, voire OpenAI, Anthropic, entre autres, pourquoi ne pas simplement entrer directement sur le marché en tant que fournisseur de services cloud ? La réponse de Huang Renxun revient à la même phrase : faire le maximum nécessaire, le minimum non nécessaire. Ce n’est pas dans le cadre « si nous ne le faisons pas, alors personne ne le fera ».

TPU et ASIC ne sont pas sans menace, mais le champ de bataille de NVIDIA est plus vaste

Concernant la tendance où des clients importants comme Google TPU, AWS Trainium, et même OpenAI, Anthropic, ou encore d’autres gros clients conçoivent en interne ou adoptent des accélérateurs de remplacement, Huang Renxun n’a pas adopté une posture défensive ; au contraire, il a à plusieurs reprises recentré l’attention sur : « ce que fait NVIDIA n’est pas une seule puce IA, mais une plateforme de calcul accéléré ».

Il souligne que NVIDIA développe du « accelerated computing », et non seulement du « tensor processing ». L’IA est bien sûr l’une des applications les plus importantes aujourd’hui, mais les GPU et CUDA peuvent faire bien plus que l’IA : dynamique moléculaire, chromodynamique quantique, traitement des données, dynamique des fluides, physique des particules, recherche pharmaceutique, génération d’images et toutes sortes de calculs scientifiques. Cela fait que l’accès de NVIDIA au marché est naturellement plus large que celui des ASIC conçus pour un seul type de charge de travail.

Face à la remise en cause : « L’essence de l’IA, c’est essentiellement la multiplication matricielle en grande quantité ; pourquoi ne pas laisser une architecture de type TPU, plus spécialisée, en prendre la direction ? », la réponse de Huang Renxun est alors :

La multiplication matricielle est importante, mais elle n’est pas la totalité de l’IA. Des nouveaux mécanismes d’attention, à l’intégration de SSM hybride, à la fusion entre diffusion et autoregressive, jusqu’à l’exécution distribuée des modèles et aux innovations d’architecture : les progrès de l’IA proviennent souvent d’innovations algorithmiques, et pas seulement de pousser la loi de Moore avec du matériel.

Il dit cela très clairement : si l’on ne s’appuie que sur le redimensionnement des transistors, l’amélioration annuelle serait d’environ 25 % ; mais de Hopper à Blackwell, NVIDIA a réussi des bonds d’efficacité énergétique de l’ordre de 35 fois, voire 50 fois. Ce n’est pas uniquement grâce à des procédés de fabrication plus avancés : c’est grâce à une conception conjointe qui fait coopérer modèles, algorithmes, réseaux, mémoire, architecture système et CUDA.

C’est pourquoi Huang Renxun décrit NVIDIA comme une « entreprise d’optimisation co-conçue à l’extrême ». Elle ne se contente pas de fabriquer des GPU ; elle modifie simultanément le processeur, l’interconnexion, le réseau, les bibliothèques, les algorithmes et l’ensemble du système. Sans cette couche CUDA, hautement programmable, de telles optimisations transverses à plusieurs niveaux seraient difficiles à réaliser.

La valeur de CUDA : base installée, sentiment de confiance et universalité mondiale

Quand l’animateur remet en question : « Puisque de grands clients comme OpenAI, Anthropic, Google et AWS savent déjà écrire leurs propres kernels et optimiser leurs cadres, est-ce que CUDA conserve une telle valeur de protection des barrières ? », Huang Renxun répond de trois façons.

D’abord, l’écosystème complet et fiable. NVIDIA peut fournir un support important au niveau du socle pour des frameworks comme Triton, vLLM, SGLang, afin que les chercheurs puissent construire sur une base déjà suffisamment validée. Pour les développeurs, ce qui fait le plus peur, ce n’est pas de commettre une erreur soi-même, mais plutôt de ne même pas pouvoir déterminer si l’erreur vient de leur propre code ou de la plateforme sous-jacente. L’une des valeurs de CUDA réside dans le fait qu’il a déjà été « exécuté et éprouvé à répétition », ce qui le rend assez digne de confiance.

Ensuite, la base installée est énorme. Huang Renxun dit franchement : si vous êtes un développeur de frameworks ou un développeur de modèles, ce que vous voulez absolument, c’est une base installée. Vous ne voudriez pas n’écrire du logiciel que pour votre propre usage ; vous voulez qu’il puisse fonctionner sur le plus grand nombre de machines possible. Des A10, A100 aux H100, H200, puis du cloud à l’edge, des robots aux stations de travail : CUDA est presque partout. Cette base installée signifie qu’un seul cycle de développement peut couvrir un grand nombre de systèmes dans le monde entier.

Troisièmement, l’universalité à travers les clouds et les cas d’usage. Huang Renxun souligne que NVIDIA est l’une des très rares plateformes de calcul à être présente simultanément dans tous les environnements cloud grand public et dans les environnements on-prem. Pour les entreprises d’IA, cela signifie qu’elles n’ont pas besoin de verrouiller trop tôt un seul fournisseur de services cloud, et qu’il est plus facile de déployer leurs produits sur différents marchés et scénarios.

En d’autres termes, la valeur de CUDA ne se limite pas à « rendre la chaîne d’outils pratique » : elle associe intégralité de l’écosystème, grande base installée mondiale et universalité des cas d’usage, créant ainsi une sorte de volant d’inertie difficile à ébranler facilement.

Marge brute élevée sans « taxe logicielle », grâce à « tokens produits par watt » et aux coûts totaux de détention

Face aux critiques selon lesquelles la capacité de NVIDIA à maintenir une forte marge brute viendrait largement de la monopolisation de CUDA, et que, si davantage de clients avaient les moyens d’écrire leurs propres kernels et de construire une pile logicielle alternative, cette forte marge serait alors érodée, la réponse de Huang Renxun est très confiante.

Il indique que les équipes d’ingénieurs internes de NVIDIA consacrées au soutien dans les grands laboratoires d’IA sont « tellement nombreuses qu’on en serait surpris », car les GPU ne se pilotent pas aussi facilement que les CPU. Huang Renxun compare les CPU à une Cadillac : stable, facile à prendre en main, accessible à tous ; tandis que les accélérateurs de NVIDIA ressemblent davantage à une voiture de course F1 : en théorie, tout le monde peut les conduire, mais pour tirer réellement les performances jusqu’à leur limite, il faut des capacités professionnelles très élevées.

NVIDIA utilise aussi massivement l’aide de l’IA pour générer et optimiser ses propres kernels ; ainsi, lors du réglage conjoint avec les clients, il est souvent possible de faire gagner 50 %, voire 2 fois, et parfois 3 fois les performances pour un certain modèle ou une certaine pile. Pour les clients disposant de flottes massives de GPU, ce type d’optimisation équivaut quasiment à doubler le chiffre d’affaires.

Huang Renxun affirme en outre que la plateforme de NVIDIA dispose des meilleures performances par TCO dans le monde, c’est-à-dire du meilleur ratio d’efficacité en coûts totaux de détention. Il dit que personne ne peut réellement prouver que le TPU, Trainium ou d’autres plateformes sont supérieurs à NVIDIA en coût total et en efficacité, et que sur le marché, il manque aussi des démonstrations publiques, crédibles et comparables de manière positive.

Selon lui, la réussite de NVIDIA ne vient pas du fait que les clients seraient « attachés » à CUDA ; elle vient surtout du fait qu’avec la même énergie et le même investissement en capital, NVIDIA produit le plus de tokens, qui se transforment ensuite en le plus grand revenu. Pour les clients qui construisent des centres de données de niveau 1GW, le plus important n’est pas de savoir si une puce unique est peu chère, mais si l’ensemble du centre de données peut générer le maximum de revenus. Tant que NVIDIA reste la meilleure au niveau tokens par watt et perf par dollar à l’échelle mondiale, la marge brute élevée reste justifiée.

Pourquoi NVIDIA ne devient pas elle-même un hyperscaler ?

Puisque NVIDIA dispose de beaucoup de liquidités et qu’il a déjà participé en profondeur aux infrastructures d’IA et à la couche modèles via des investissements dans CoreWeave, Nebius, Nscale, voire OpenAI, Anthropic, etc., pourquoi ne pas simplement entrer sur le marché en tant que fournisseur de services cloud ?

La réponse de Huang Renxun revient toujours à cette phrase : « faire le maximum nécessaire, le minimum non nécessaire ».

Si NVIDIA ne développait pas CUDA, NVLink, CUDA-X, les bibliothèques pour divers domaines et les plateformes de bas niveau, alors il est probable que personne ne le ferait. Donc NVIDIA doit le faire elle-même. Mais si l’on parle de services cloud, il y en a déjà beaucoup dans le monde ; cela ne relève pas de la catégorie « si nous ne le faisons pas, alors personne ne le fera ».

En revanche, lorsque les nouveaux fournisseurs de cloud IA de ce type sont encore faibles et qu’ils peuvent avoir besoin d’un coup de pouce pour décoller, NVIDIA est disposée à fournir des fonds, de l’approvisionnement et un support technique pour aider cet écosystème à se développer. Autrement dit, NVIDIA est disposée à soutenir l’écosystème, mais elle ne veut pas devenir elle-même un financier ou un hyperscaler.

Quant aux investissements dans OpenAI, Anthropic et d’autres entreprises de modèles, Huang Renxun reconnaît également que c’est un résultat d’apprentissage de NVIDIA ces dernières années. Dans le passé, NVIDIA n’avait pas réalisé que des entreprises de modèles fondamentaux comme OpenAI ou Anthropic ne pouvaient, à leurs débuts, tout simplement pas réunir la densité de capital nécessaire avec des modèles traditionnels de VC. Ce n’est qu’au moment où il a vraiment compris cela qu’il s’est rendu compte qu’il aurait pu, s’il en avait eu l’occasion, soutenir plus tôt.

Il va même jusqu’à admettre que c’était l’un de ses mauvais jugements : « À l’époque, je n’avais pas bien compris : sans le soutien d’une grande entreprise technologique ou d’un niveau de capital similaire, ces entreprises auraient vraiment du mal à voir le jour. » Aujourd’hui que NVIDIA a une plus grande échelle, il explique qu’il ne commettra plus la même erreur.

Le problème de la Chine : le passage le plus tranchant de toute la discussion

L’affrontement le plus intense de toute l’interview se concentre sur la Chine et les restrictions d’exportation des puces. La position de l’animateur est la suivante : la puissance de calcul de l’IA est un intrant direct pour entraîner et déployer des modèles à haut risque. Si la Chine obtient davantage de capacités de calcul avancées, elle pourrait concevoir plus rapidement des modèles capables d’attaques par réseau, d’extraction de vulnérabilités, etc., ce qui constitue un risque concret pour la sécurité nationale américaine et pour la sécurité des entreprises.

Huang Renxun ne nie pas que l’IA comporte des risques, ni que les États-Unis devraient continuer à maintenir leur avance ; mais il s’oppose fortement à l’idée d’assimiler les puces IA à des matériaux d’armes nucléaires, ou à des déductions extrêmes du type : « il suffit d’en vendre un peu plus et ça va mal tourner ».

Son argument central comporte plusieurs points.

D’abord, il considère que la Chine n’est pas un vide de puissance de calcul. La Chine dispose d’une énorme capacité énergétique, de capacités de fabrication de puces, d’infrastructures de communication et de réseau ; elle dispose aussi d’une très grande proportion de talents de recherche en IA dans le monde. Dans le récit de Huang Renxun, la Chine n’est pas dans la situation « si elle n’obtient pas les puces de NVIDIA, alors elle ne pourra pas développer l’IA », mais plutôt : « si elle n’obtient pas les meilleures, elle utilisera les siennes, et sera forcée de bâtir plus vite sa propre pile technologique locale ».

Ensuite, il estime que l’effet secondaire des restrictions à l’exportation est de pousser les modèles open source chinois, l’écosystème et l’industrie des puces à accélérer leur dérive hors de la pile technologique américaine. À ses yeux, c’est un risque dont l’Amérique devrait se préoccuper davantage sur le long terme. Car l’IA ne se limite pas aux modèles ; elle comprend aussi la couche des puces, la couche des outils de développement, la couche de l’écosystème open source et la couche des applications, c’est l’ensemble de la pile. Si les États-Unis, pour protéger une certaine couche — par exemple les entreprises de modèles les plus en pointe —, sacrifiaient l’impact de l’écosystème des puces et des développeurs sur le marché chinois, alors à long terme, les États-Unis pourraient au contraire perdre leur position dans la guerre des standards et des plateformes à l’échelle mondiale.

La Chine est le deuxième plus grand marché technologique au monde, et l’un des plus importants contributeurs mondiaux aux logiciels open source et aux modèles open source. Si les États-Unis abandonnaient volontairement ce marché, cela reviendrait à pousser volontairement tout un groupe de développeurs vers une autre pile technologique. Cela ne nuirait pas seulement à NVIDIA, mais aussi à l’ensemble de l’industrie technologique américaine et à la sécurité nationale.

Troisièmement, il insiste à maintes reprises sur un point : le monde n’est pas fait d’anticipations extrêmes en logique « tout ou rien ». Bien sûr, les États-Unis devraient posséder la plus grande, la meilleure et la plus précoce puissance de calcul : il est totalement d’accord. Mais cela ne signifie pas que les États-Unis devraient abandonner volontairement le deuxième plus grand marché mondial, ou décrire l’IA comme une arme absolue du type « uranium enrichi » sous forme condensée. Pour lui, un récit trop extrémiste est non seulement inutile pour élaborer des politiques, mais peut aussi faire fuir les talents, affaiblir la confiance dans l’industrie, et finalement faire perdre aux États-Unis leur avantage concurrentiel eux-mêmes.

Il ramène même cette question au contexte des politiques industrielles nationales : « Si les États-Unis, par crainte, sur-weaponisent l’IA, alors cela fera aussi en sorte que davantage de personnes refuseront d’investir dans les logiciels, l’ingénierie et les domaines connexes. » Dans son regard, ces politiques de peur sont une forme de « mentalité de perdant », et pas la posture qu’un pays censé mener une révolution technologique devrait adopter.

En réalité, ce que Huang Renxun veut dire, c’est : « la course à l’IA n’est pas une victoire sur un point unique ; il faut voir si l’ensemble de la pile technologique peut se renforcer simultanément ».

Cet article, la toute dernière interview de Huang Renxun (suite) : « Pourquoi Nvidia ne fait pas sa propre hyperscaler ? », apparaît initialement dans Chaîne News ABMedia.

Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.
Commentaire
0/400
Aucun commentaire