Futures
Accédez à des centaines de contrats perpétuels
CFD
Or
Une plateforme pour les actifs mondiaux
Options
Hot
Tradez des options classiques de style européen
Compte unifié
Maximiser l'efficacité de votre capital
Trading démo
Introduction au trading futures
Préparez-vous à trader des contrats futurs
Événements futures
Participez aux événements et gagnez
Demo Trading
Utiliser des fonds virtuels pour faire l'expérience du trading sans risque
Lancer
CandyDrop
Collecte des candies pour obtenir des airdrops
Launchpool
Staking rapide, Gagnez de potentiels nouveaux jetons
HODLer Airdrop
Conservez des GT et recevez d'énormes airdrops gratuitement
Pre-IPOs
Accédez à l'intégralité des introductions en bourse mondiales
Points Alpha
Tradez on-chain et gagnez des airdrops
Points Futures
Gagnez des points Futures et réclamez vos récompenses d’airdrop.
Investissement
Simple Earn
Gagner des intérêts avec des jetons inutilisés
Investissement automatique
Auto-invest régulier
Double investissement
Profitez de la volatilité du marché
Staking souple
Gagnez des récompenses grâce au staking flexible
Prêt Crypto
0 Fees
Mettre en gage un crypto pour en emprunter une autre
Centre de prêts
Centre de prêts intégré
Promotions
Centre d'activités
Participez et gagnez des récompenses
Parrainage
20 USDT
Invitez des amis et gagnez des récompenses
Programme d'affiliation
Obtenez des commissions exclusives
Gate Booster
Développez votre influence et gagnez des airdrops
Annoncement
Mises à jour en temps réel
Blog Gate
Articles sur le secteur de la crypto
AI
Gate AI
Votre assistant IA polyvalent pour toutes vos conversations
Gate AI Bot
Utilisez Gate AI directement dans votre application sociale
GateClaw
Gate Blue Lobster, prêt à l’emploi
Gate for AI Agent
Infrastructure IA, Gate MCP, Skills et CLI
Gate Skills Hub
+10K compétences
De la bureautique au trading, une bibliothèque de compétences tout-en-un pour exploiter pleinement l’IA
GateRouter
Choisissez intelligemment parmi plus de 40 modèles d’IA, avec 0 % de frais supplémentaires
Google a trouvé un moyen de rendre l'IA locale jusqu'à 3 fois plus rapide—pas de nouveau matériel nécessaire
En résumé
Exécuter un modèle d’IA sur votre propre ordinateur est génial—jusqu’à ce que ce ne le soit plus. La promesse est la confidentialité, pas de frais d’abonnement, et aucune donnée ne quitte votre machine. La réalité, pour la plupart des gens, c’est regarder un curseur clignoter pendant cinq secondes entre deux phrases. Ce goulot d’étranglement porte un nom : la vitesse d’inférence. Et cela n’a rien à voir avec l’intelligence du modèle. C’est un problème matériel. Les modèles d’IA standard génèrent du texte un fragment de mot—appelé un token—à la fois. Le matériel doit transférer des milliards de paramètres de la mémoire vers ses unités de calcul rien que pour produire un seul token. C’est lent par conception. Sur du matériel grand public, c’est pénible.
La solution de contournement à laquelle la plupart se tournent consiste à exécuter des modèles plus petits, plus faibles—ou des versions fortement compressées, appelées modèles quantifiés, qui sacrifient une partie de la qualité pour la vitesse. Aucune de ces solutions n’est idéale. Vous obtenez quelque chose qui fonctionne, mais ce n’est pas le modèle que vous vouliez réellement. Google a maintenant une idée différente. La société vient de publier des brouillons de prédiction multi-token (MTP) pour sa famille de modèles ouverts Gemma 4—une technique pouvant offrir jusqu’à 3 fois plus de rapidité sans toucher à la qualité ou à la capacité de raisonnement du modèle.
L’approche s’appelle décodage spéculatif, et cela existe comme concept depuis des années. Les chercheurs de Google ont publié le document fondateur en 2022. L’idée n’a pas été mainstream jusqu’à présent car elle nécessitait l’architecture adaptée pour fonctionner à grande échelle.
Voici la version courte de son fonctionnement. Au lieu de faire faire tout le travail au grand, puissant modèle seul, on le couple avec un petit modèle “brouillon”. Le brouillon est rapide et peu coûteux—il prédit plusieurs tokens en moins de temps que le modèle principal ne mettrait pour en produire un seul. Ensuite, le grand modèle vérifie toutes ces suppositions en une seule passe. Si les suppositions sont correctes, toute la séquence est générée pour le prix d’un seul passage en avant. Selon Google, “si le modèle cible est d’accord avec le brouillon, il accepte toute la séquence en un seul passage en avant—et génère même un token supplémentaire de son côté dans le processus.” Rien n’est sacrifié : le grand modèle—par exemple, la version dense de 31 milliards de Gemma 4—vérifie toujours chaque token, et la qualité de sortie est identique. Vous exploitez simplement la puissance de calcul inutilisée qui restait inactive durant les phases lentes. Google indique que les modèles brouillons partagent le cache KV du modèle cible—une structure mémoire qui stocke le contexte déjà traité—pour ne pas perdre de temps à recalculer ce que le grand modèle connaît déjà. Pour les petits modèles d’appoint conçus pour les téléphones et Raspberry Pi, l’équipe a même développé une technique de clustering efficace pour réduire encore le temps de génération. Ce n’est pas la seule tentative dans le monde de l’IA pour paralléliser la génération de texte. Les modèles de langage basés sur la diffusion—comme Mercury d’Inception Labs—ont essayé une approche complètement différente : au lieu de prédire un token à la fois, ils commencent avec du bruit et affinent itérativement toute la sortie. C’est rapide sur le papier, mais les LLM de diffusion ont du mal à égaler la qualité des modèles transformeurs traditionnels, ce qui en fait plus une curiosité de recherche qu’un outil pratique. Le décodage spéculatif est différent car il ne modifie pas le modèle sous-jacent. C’est une optimisation de service, pas un remplacement d’architecture. Le même Gemma 4 que vous utilisez déjà devient plus rapide. L’avantage pratique est réel. Un modèle Gemma 4 de 26 milliards fonctionnant sur un GPU de bureau Nvidia RTX Pro 6000 atteint environ deux fois plus de tokens par seconde avec le brouillon MTP activé, selon les propres benchmarks de Google. Sur Apple Silicon, des lots de 4 à 8 requêtes permettent d’atteindre environ 2,2 fois plus de vitesse. Pas tout à fait le plafond de 3x dans tous les scénarios, mais une différence significative entre “à peine utilisable” et “suffisamment rapide pour fonctionner”.
Le contexte est important ici. Quand le modèle chinois DeepSeek a choqué le marché en janvier 2025—détruisant 600 milliards de dollars de la capitalisation de Nvidia en une seule journée—la leçon principale était que les gains d’efficacité peuvent avoir un impact plus fort que la puissance brute de calcul. Mieux vaut travailler intelligemment que de jeter plus de matériel sur le problème. Le brouillon MTP de Google est un autre mouvement dans cette direction, mais ciblant directement le marché grand public. L’ensemble de l’industrie de l’IA est actuellement un triangle qui considère l’inférence, la formation et la mémoire. Chaque avancée dans l’un de ces domaines tend à booster ou à bouleverser tout l’écosystème. La méthode de formation de DeepSeek (obtenir des modèles puissants avec du matériel moins performant) en était un exemple, tout comme le papier de Google sur TurboQuant (réduire la mémoire IA sans perdre de qualité). Les deux ont fait chuter les marchés alors que les entreprises cherchaient à comprendre quoi faire. Google affirme que le brouillon permet de “réduire considérablement la latence pour la messagerie en temps quasi réel, les applications vocales immersives et les flux de travail agentiques”—des tâches qui exigent une faible latence pour être réellement utiles. Les cas d’usage se précisent rapidement : un assistant de codage local qui ne lag pas ; une interface vocale qui répond avant que vous ayez oublié ce que vous avez demandé ; un flux de travail agentique qui ne vous fait pas attendre trois secondes entre chaque étape. Tout cela, sur du matériel que vous possédez déjà. Les brouillons MTP sont disponibles dès maintenant sur Hugging Face, Kaggle et Ollama, sous licence Apache 2.0. Ils fonctionnent avec vLLM, MLX, SGLang et Hugging Face Transformers dès la sortie de la boîte.