Pendant la conférence CES, la toute nouvelle architecture Rubin de NVIDIA est devenue le point focal des discussions du marché récent. Outre l'architecture MOE, il s'agit d'une autre avancée majeure, conçue spécifiquement pour l'ère de l'Agentic AI, etc. J'ai approfondi le sujet et j'ai effectivement ressenti cette "auto-révolution" de Jensen Huang :



1)Autrefois, NVIDIA dépendait de son avantage matériel GPU, profitant de la période de forte demande des géants de l'IA qui achetaient frénétiquement de la puissance de calcul pour entraîner de grands modèles. La logique était simple : plus de cartes graphiques, meilleur modèle entraîné.

Mais maintenant, la guerre de l'IA a quitté le champ de la "puissance de calcul" pour se concentrer sur la "raisonnement", surtout avec l'arrivée de l'ère Agentic, où l'IA doit traiter des raisonnements à haute fréquence, multi-étapes, avec des contextes ultra-longs.

À ce moment-là, les paramètres du modèle atteignent souvent l'ordre du trillion, le débit de données est énorme. Peu importe la rapidité du GPU, si la transmission de données en mémoire n'est pas assez rapide, le GPU doit tourner à vide, ce qui constitue le "mur de la mémoire". En d'autres termes, avoir plus de cartes graphiques ne suffit plus ; il faut aussi une mémoire vidéo haute capacité et une bande passante élevée pour soutenir cela. Rubin vise précisément à résoudre ce problème.

2)Ainsi, le HBM4 lancé avec Rubin est capable de supporter la quatrième génération de mémoire à haute bande passante, avec un débit pouvant atteindre 22TB/s. Mais ce qui est encore plus crucial, c'est qu'il fonctionne en tandem avec la technologie NVLink 6 (bande passante en rack de 260TB/s), transformant logiquement 72 cartes en une "graine de puce géante".

Que signifie cela ? Avant, lorsque vous achetiez une carte graphique, vous achetiez un composant indépendant, et la transmission de données entre cartes ressemblait à un service de livraison passant par plusieurs relais. Maintenant, grâce à une interconnexion à très haute densité, les données circulent entre GPU presque sans percevoir la distance physique, comme si 72 travailleurs ne travaillaient pas séparément, mais partageaient un seul cerveau.

Je pense que c'est là la véritable arme secrète de Rubin : pas simplement empiler du matériel, mais reconstruire le flux de données de tout le système.

3)Si MOE (architecture de modèle d'experts hybrides) a été une réduction de dimension pour NVIDIA face à des jeunes pousses comme DeepSeek qui ont adopté une stratégie de "pile de cartes violente", alors Rubin apparaît comme une contre-attaque stratégique de Jensen Huang. Au lieu de rivaliser pour voir qui consomme le moins de cartes, il s'agit de refondre directement le coût d'utilisation de l'IA. Bien sûr, cette stratégie audacieuse signifie aussi que NVIDIA tourne définitivement la page du vieux modèle basé sur la "pile de cartes".

Jensen Huang a une autre vision : pour que l'ère Agentic devienne une réalité dans tous les secteurs, il faut franchir la barrière du coût des tokens, ce qui est une tendance incontournable que NVIDIA ne peut pas arrêter.

Selon lui, plutôt que d'attendre que de grands acteurs comme Google ou Meta développent leurs propres puces pour saper le marché, ou que DeepSeek bouleverse l'offre avec de nouveaux modèles, il vaut mieux prendre l'initiative de casser la situation.

4)Mais alors, comment NVIDIA, après sa "auto-révolution", va-t-elle se positionner ? La voie est claire : passer de "vente de cartes graphiques" à "vente de systèmes", de services à quelques grands acteurs à une véritable démocratisation de l'IA.

Autrefois, acheter un H100 signifiait que NVIDIA gagnait principalement sur la vente de la carte graphique. À l'avenir, Rubin vous dira : il faut acheter toute la plateforme NVL72 — 72 GPU, switch NVLink, système de refroidissement liquide complet, rack, et même la pile logicielle associée, tout cela en pack.

Le calcul de Jensen est clair : même si le coût du matériel en pack semble plus élevé, il offre une efficacité de raisonnement extrême, réduisant le coût unitaire d'utilisation de l'IA pour l'acheteur, tout en maintenant sa part de marché.

Mais, mais, mais, cette approche augmente aussi la barrière pour les petits acteurs. Seuls les grands acteurs et les fournisseurs de cloud pourront en profiter, ce qui pourrait accentuer encore le monopole de la puissance de calcul. Dans le contexte concurrentiel actuel, c'est un pari risqué : si la production en masse du HBM4 rencontre des problèmes, il pourrait être remplacé par des solutions alternatives lancées par AMD, Google TPU, etc. Alors, le rêve de NVIDIA de vendre des systèmes pourrait ne pas être aussi facile à réaliser.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
0/400
Aucun commentaire
  • Épingler

Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • بالعربية
  • Português (Brasil)
  • 简体中文
  • English
  • Español
  • Français (Afrique)
  • Bahasa Indonesia
  • 日本語
  • Português (Portugal)
  • Русский
  • 繁體中文
  • Українська
  • Tiếng Việt