
NVIDIA a officiellement lancé jeudi Nemotron 3 Super, un modèle d’IA à poids ouverts doté de 120 milliards de paramètres, optimisé en profondeur pour les agents IA autonomes et les tâches de contexte ultra-long. NVIDIA a dévoilé un plan stratégique d’investissement de 26 milliards de dollars sur cinq ans pour développer des modèles d’IA open source, répondant directement à la montée rapide des modèles open source chinois sur le marché mondial.
Le cœur du design de Nemotron 3 Super vise à résoudre un problème fondamental dans les systèmes multi-agents — chaque appel d’outil, étape de raisonnement et fragment de contexte nécessitent de retransmettre une grande quantité de données, entraînant des coûts élevés et un décalage par rapport aux attentes. NVIDIA a intégré trois composants rarement présents ensemble dans une même architecture :
Les couches d’espace d’état Mamba-2 (Mamba-2 State Space Layers), qui remplacent le mécanisme d’attention, offrent une vitesse accrue et une meilleure efficacité mémoire lors du traitement de flux de tokens longs ; la couche d’attention Transformer pour assurer une récupération précise de l’information ; et la nouvelle conception « experts mixtes latents » (Latent MoE), qui compresse les tokens avant le routage, permettant au modèle d’activer quatre fois plus d’experts pour un même coût de calcul.
Le modèle est entraîné nativement en format NVFP4 propriétaire de NVIDIA, apprenant dès la première mise à jour de gradient en précision 4 bits, évitant la perte de précision liée à la compression après entraînement en haute précision. La fenêtre de contexte atteint un million de tokens, pouvant contenir intégralement une bibliothèque de code ou environ 750 000 mots anglais.
Voici quelques données clés comparant Nemotron 3 Super en termes de débit d’inférence :
Comparé à OpenAI GPT-OSS 120B : 2,2 fois plus rapide
Comparé à Alibaba Qwen3.5-122B : 7,5 fois plus rapide
Comparé à la version précédente : augmentation du débit global de plus de 5 fois
NVIDIA a publié en détail le processus d’entraînement, incluant les poids du modèle sur Hugging Face, 10^14 échantillons d’entraînement sélectionnés, plus de 25 000 milliards d’échantillons utilisés, 40 millions d’échantillons post-entraînement, et un plan d’apprentissage renforcé couvrant 21 configurations environnementales. Actuellement, Perplexity, Palantir, Cadence et Siemens ont intégré ce modèle dans leurs flux de travail.
Le lancement de Nemotron 3 Super s’inscrit dans une stratégie plus large de NVIDIA. Bryan Catanzaro, vice-président de la recherche en apprentissage profond, a confié à Wired que l’entreprise a récemment terminé l’entraînement d’un modèle de 550 milliards de paramètres, et a également annoncé un investissement de 26 milliards de dollars sur cinq ans dans l’IA open source.
Le contexte stratégique est très urgent : selon des études d’OpenRouter et Andreessen Horowitz, l’utilisation mondiale des modèles open source chinois est passée de 1,2 % fin 2024 à environ 30 % fin 2025 ; Alibaba Qwen a dépassé Meta Llama pour devenir le modèle open source auto-hébergé le plus utilisé (données de Runpod). Des rumeurs indiquent que la prochaine génération de modèles DeepSeek serait entièrement entraînée sur des puces Huawei, ce qui offrirait aux développeurs mondiaux une forte incitation à adopter le matériel chinois — une situation que NVIDIA doit contrer par sa stratégie open source.
En termes de débit d’inférence, Nemotron 3 Super est 2,2 fois plus rapide que OpenAI GPT-OSS 120B et 7,5 fois plus rapide que Alibaba Qwen3.5-122B. La différence principale réside dans l’architecture hybride Mamba-Transformer MoE et l’entraînement natif en précision NVFP4 4 bits, permettant d’activer plus d’experts pour un même coût de calcul, avec une augmentation de plus de cinq fois du débit par rapport à la version précédente.
Deux motivations principales : d’une part, empêcher l’écosystème open source chinois de se fermer autour des modèles et puces chinois, ce qui affaiblirait la position centrale de NVIDIA dans l’infrastructure IA mondiale ; d’autre part, créer une forte dépendance à ses propres puces via des modèles open source optimisés pour le hardware NVIDIA. La croissance rapide de la part de marché des modèles chinois (de 1,2 % à environ 30 %) rend cette stratégie particulièrement urgente.
Oui, NVIDIA a publié sur Hugging Face l’intégralité du processus d’entraînement, incluant : les poids du modèle, 10^14 échantillons d’entraînement sélectionnés, 40 millions d’échantillons post-entraînement, et un plan d’apprentissage renforcé couvrant 21 configurations environnementales, avec une transparence technique supérieure à la plupart des modèles commerciaux similaires.