La division QVAC de Tether a annoncé le 17 mars 2026 le lancement du premier cadre de fine-tuning LoRA multiplateforme au monde pour les modèles BitNet de Microsoft (LLMs 1-bit), permettant l’entraînement et l’inférence d’IA à milliards de paramètres sur des GPU grand public et des smartphones.
Ce cadre, intégré dans QVAC Fabric, réduit suffisamment la mémoire et la puissance de calcul pour affiner des modèles jusqu’à 13 milliards de paramètres sur des appareils tels que l’iPhone 16, le Galaxy S25 et le Pixel 9, avec des modèles de 125 millions de paramètres pouvant être entraînés en environ 10 minutes sur du matériel mobile.
Cette sortie marque une étape importante dans la stratégie de Tether, qui passe d’un émetteur de stablecoins à un fournisseur d’infrastructure plus large, remettant en question le modèle centralisé de développement de l’IA dominé par les fournisseurs de cloud et le matériel spécialisé NVIDIA.
Le cadre QVAC Fabric permet le fine-tuning LoRA (Low-Rank Adaptation) et l’accélération de l’inférence sur du matériel grand public hétérogène, notamment :
GPU de bureau : AMD, Intel, NVIDIA
Écosystème Apple : puces Apple Silicon M et GPU mobiles Bionic
GPU mobiles : Adreno (Samsung), Mali, et autres
Cette compatibilité étendue élimine la nécessité précédente de systèmes NVIDIA de niveau entreprise ou d’infrastructures cloud, qui concentraient le développement de l’IA parmi les organisations disposant de budgets matériels spécialisés.
L’équipe d’ingénierie de Tether a démontré une fine-tuning réussie sur des smartphones phares avec les résultats suivants :
Modèles 125M de paramètres : la fine-tuning sur un Galaxy S25 (GPU Adreno) se termine en environ 10 minutes pour un jeu de données biomédical d’environ 300 documents (~18k tokens)
Modèles 1 milliard de paramètres : la fine-tuning du même jeu de données biomédical se termine en 1 heure 18 minutes sur Galaxy S25 et en 1 heure 45 minutes sur iPhone 16
Capacité maximale : des modèles jusqu’à 13 milliards de paramètres ont été affiné avec succès sur iPhone 16, dépassant largement les capacités typiques de démonstration de modèles sous 3 milliards de paramètres
L’inférence BitNet sur GPU mobiles montre une accélération significative par rapport aux baselines CPU :
Amélioration de la vitesse : performance GPU entre 2 et 11 fois plus rapide que le CPU sur les appareils testés
Implication pratique : les GPU mobiles peuvent désormais supporter des charges de travail auparavant nécessitant du matériel spécialisé coûteux ou des centres de données
Les benchmarks montrent des économies de mémoire importantes par rapport aux modèles conventionnels :
BitNet-1B (TQ1_0) : utilise jusqu’à 77,8 % de VRAM en moins que Gemma-3-1B (16 bits)
Comparé à Qwen3-0.6B : 65,6 % de VRAM en moins que la version 16 bits
Ces réductions s’appliquent aussi bien à l’inférence qu’au fine-tuning LoRA, créant un espace mémoire significatif pour des modèles plus grands et des workflows de personnalisation sur du matériel auparavant considéré comme insuffisant.
Le cadre permet de fine-tuner des modèles deux fois plus grands sur des appareils Edge par rapport aux modèles Q4 non-BitNet, démontrant l’efficacité mémoire supérieure de l’architecture BitNet.
Le PDG de Tether, Paolo Ardoino, a présenté la sortie dans une vision plus large d’une IA accessible : « L’intelligence sera un facteur clé dans l’avenir de la société. Quand la formation de grands modèles linguistiques dépend d’infrastructures centralisées, l’innovation stagne, l’écosystème devient fragile, et l’équilibre sociétal est mis en danger. En permettant la formation significative de grands modèles sur du matériel grand public, y compris les smartphones, QVAC de Tether prouve que l’IA avancée peut être décentralisée, inclusive et habilitante pour tous. »
Les gains d’efficacité rendent possible l’apprentissage fédéré, permettant de former et de partager des mises à jour affinées sur des appareils distribués tout en conservant les données sensibles localement. Cela réduit la dépendance à une infrastructure centralisée tout en favorisant l’amélioration collaborative des modèles.
En réduisant la dépendance aux fournisseurs de cloud, le cadre permet aux utilisateurs de garder leurs données sensibles localement lors du fine-tuning, répondant ainsi aux préoccupations de confidentialité liées à la transmission de données vers des serveurs centralisés.
La sortie de Tether remet en question directement le modèle centralisé de développement de l’IA dominé par les hyperscalers et fournisseurs de cloud. En permettant un travail d’IA significatif sur du matériel grand public, l’entreprise se positionne comme un acteur de l’infrastructure dans la pile Edge AI, indépendant des juridictions cloud traditionnelles.
Le cadre, y compris le papier, les adaptateurs, les benchmarks et les binaires multiplateformes, est disponible sur Hugging Face. Cette approche open source vise à établir QVAC comme une voie par défaut pour les développeurs indépendants et les petits laboratoires souhaitant déployer l’IA sur du matériel grand public, en créant une pertinence culturelle et technique en dehors des cadres réglementaires traditionnels.
Cette sortie poursuit l’expansion de Tether au-delà de l’émission de stablecoins vers une infrastructure numérique critique, suite à des initiatives précédentes comme le jeu de données Genesis I de 41 milliards de tokens et l’AI Workbench local. La société a indiqué continuer à investir dans une infrastructure d’IA décentralisée dans les semaines, mois et années à venir.
La documentation technique complète, incluant les benchmarks de performance, les détails d’implémentation et les binaires multiplateformes, est disponible via le blog Hugging Face : « Fine-tuning LoRA BitNet b1.58 LLMs sur GPU Edge hétérogènes via QVAC Fabric. »
Tether décrit sa mission comme la promotion de la liberté, de la transparence et de l’innovation par la technologie, permettant un échange d’informations peer-to-peer direct sans intermédiaires inutiles. La société vise à remplacer les modèles centralisés par une infrastructure décentralisée conçue pour la confidentialité, l’efficacité et la résilience.
Le cadre QVAC Fabric BitNet LoRA supporte les GPU grand public d’AMD, Intel et NVIDIA ; l’écosystème Apple comprenant les puces Silicon M et les GPU mobiles Bionic ; et les GPU mobiles comme Adreno (Samsung), Mali, et autres. Cela permet le fine-tuning IA sur ordinateurs portables, de bureau et smartphones phares sans matériel d’entreprise spécialisé.
Selon les benchmarks de Tether, l’inférence sur GPU sur des appareils mobiles phares est entre 2 et 11 fois plus rapide que le CPU. La consommation mémoire diminue jusqu’à 77,8 %, permettant d’exécuter des modèles plus grands dans les mêmes contraintes matérielles.
Affiner un modèle de 13 milliards de paramètres sur un smartphone représente une avancée par rapport aux démonstrations d’IA sur appareil, qui tournent généralement autour de modèles sous 3 milliards ou déchargent les charges plus lourdes vers le cloud. Cette capacité suggère un avenir où la personnalisation sérieuse des modèles et l’adaptation spécifique à un domaine peuvent se faire localement, sans envoyer de données utilisateur vers des serveurs centralisés.