Récemment, la nouvelle star des puces AI ayant soumis un IPO, Cerebras, fait sensation dans la Silicon Valley.


Sa puce atteint, dans le scénario de petits modèles, une vitesse d'inférence pouvant atteindre 20 fois celle du H100 ; tandis que pour les modèles de très grande taille (par exemple, 400 milliards de paramètres), la vitesse de réponse du système Cerebras CS-3 pour un seul utilisateur est d'environ 2,4 fois celle du B200.
Alors, comment Cerebras parvient-il à cela ? Va-t-il devenir le tueur de Nvidia ?
Nous devons commencer par l'essence de l'évolution de la puissance de calcul.
L'évolution de la puissance de calcul en IA passe de « la puissance elle-même » à « la communication et la structure du système ». Sur cette trajectoire, Cerebras Systems propose une réponse totalement différente : il ne s'agit pas d'optimiser la distribution, mais d'éliminer autant que possible la distribution.
**I. Deux voies : éliminer la communication vs optimiser la communication**
Actuellement, la puissance de calcul en IA repose essentiellement sur deux philosophies architecturales : une, représentée par Nvidia :
Multi-puces (GPU), interconnexion à haute vitesse (NVLink / CPO), scale-out (extension horizontale)
L'autre, celle de Cerebras : atteindre la limite avec une seule puce (wafer-scale)
Le réseau interne de la puce remplace la communication entre nœuds, avec une approche scale-up (extension verticale)
La différence clé est : l'une résout « comment connecter plus de puces », l'autre « comment ne pas avoir besoin de connecter ».
**II. Pourquoi cette voie n'est-elle adoptée que maintenant ?**
Le wafer-scale n'est pas un concept nouveau, il a été tenté dans les années 80, mais a échoué à la commercialisation dans les années 90. Les raisons sont :
Taux de fabrication insuffisant
Absence de mécanismes de tolérance aux fautes
Logiciels incapables de supporter
L'industrie a donc adopté un consensus : petits dies + haut taux de fabrication + distribution.
La percée de Cerebras réside dans la réalisation simultanée de trois éléments :
1) Mécanismes de tolérance aux fautes industrialisés
2) Réseau intégré sur la puce mature
3) Adaptation à la charge de travail AI (haute parallélisation, forte synchronisation, communication dominante)
Le changement fondamental est : passer du « matériel parfait » à un « système tolérable aux fautes ».
**III. Comparaison de performance : limite d'un seul point vs extension du système**
Au niveau de la communication, les deux voies présentent des avantages et inconvénients très clairs :
1) Communication interne à la puce
Cerebras : uniquement interne à la puce → délai minimal, consommation minimale
CPO : encore une conversion optoélectronique → efficacité d'un seul point : Cerebras supérieur
2) Extension du système
Cerebras : une fois qu'on dépasse la puce → revient au problème de communication
CPO : bande passante pouvant s'étendre de façon soutenue → capacité du système : CPO supérieur
3) Structure de consommation d'énergie
Cerebras : consommation très élevée pour une seule machine, mais communication très économe
GPU + CPO : consommation contrôlable à un point, efficacité du système plus équilibrée
La conclusion est claire :
Cerebras remporte « la limite du seul appareil » ,
CPO remporte « l'échelle du système ».
**IV. Cas d'usage : qui devrait utiliser Cerebras**
Les critères de décision peuvent être simplifiés en trois questions :
1) La communication est-elle un goulot d'étranglement ?
2) La tâche peut-elle être centralisée ?
3) La structure est-elle régulière ?
Ainsi, il est très adapté à l'entraînement de grands modèles (modèles dense), aux contextes très longs, et à certains HPC (PDE, fluides, etc.)
Ces tâches ont en commun : forte couplage + haute synchronisation + bande passante élevée.
Partiellement adapté à l'inférence de grands modèles (faible parallélisme), au calcul graphique (lorsque la structure devient complexe, l'avantage diminue).
Inadapté pour CPU (calcul général), inférence à haute concurrence, puces mobiles/edge, systèmes en temps réel.
Ces systèmes ont en commun : irrégularité / haute concurrence / faible latence.
**V. Deviendra-t-il une norme ?**
Bien que Cerebras soit extrêmement puissant dans certains scénarios, il ne deviendra pas la norme, pour les raisons suivantes :
1) Contraintes physiques : densité de puissance ; délai de signal → la tolérance aux fautes ne peut pas résoudre ces problèmes.
2) Économiquement : taux de fabrication élevé pour petits dies ; chiplet plus flexible.
3) Chemin industriel : TSMC et autres privilégient la modularité, la réutilisation multi-clients plutôt que de gros monolithes.
4) Changement dans la demande : l'inférence représente une part bien plus grande que l'entraînement, la multi-tâche et la haute concurrence deviennent la norme.
**VI. La signification de Cerebras**
Plutôt que de voir la taille wafer-scale comme une tendance importante, il faut considérer la conception tolérante aux fautes comme une philosophie qui sera largement adoptée.
À l'avenir, on pourrait voir des tolérances au niveau des chiplets, des emballages avec des chemins détournés.
Le changement central est qu’un seul matériel n’a plus besoin d’être parfait, le système en assure la robustesse.
Revenant à la question initiale : Cerebras deviendra-t-il le « tueur » de Nvidia ?
La réponse est déjà très claire.
Il a en effet touché la faiblesse du système GPU — la communication. Mais l'industrie ne choisit pas entre cette voie et une autre, mais adopte plusieurs percées technologiques simultanément : des interconnexions plus performantes, une consommation de communication plus faible, une efficacité système plus élevée.
Ainsi, une évaluation plus précise est que Cerebras n’est pas le tueur de Nvidia, mais la meilleure pratique à laquelle Nvidia et toutes les autres sociétés de puces peuvent s’inspirer.
Avertissement : je possède des actions mentionnées dans cet article, mon point de vue est forcément biaisé, ce n’est pas un conseil d’investissement, le risque est élevé, la prudence est de mise.
(illustration : une puce Cerebras)
Voir l'original
post-image
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler