A divisão QVAC da Tether anunciou em 17 de março de 2026 o lançamento do primeiro framework de ajuste fino LoRA multiplataforma do mundo para os modelos BitNet da Microsoft (LLMs de 1-bit), permitindo treino e inferência de IA com bilhões de parâmetros em GPUs de consumo e smartphones.
O framework, integrado no QVAC Fabric, reduz os requisitos de memória e computação o suficiente para ajustar modelos de até 13 bilhões de parâmetros em dispositivos como o iPhone 16, Galaxy S25 e Pixel 9, com modelos de 125 milhões de parâmetros treináveis em aproximadamente 10 minutos em hardware móvel.
O lançamento marca um avanço significativo na mudança estratégica da Tether de emissora de stablecoins para um provedor de infraestrutura mais amplo, desafiando o modelo centralizado de desenvolvimento de IA dominado por provedores de nuvem e hardware especializado NVIDIA.
O framework QVAC Fabric permite ajuste fino LoRA (Low-Rank Adaptation) e aceleração de inferência em hardware de consumo heterogêneo, incluindo:
GPUs de desktop: AMD, Intel e NVIDIA
Ecossistema Apple: chips Apple Silicon M e GPUs móveis Bionic
GPUs móveis: Adreno (Samsung), Mali e outros
Esta compatibilidade ampla elimina a necessidade anterior de sistemas NVIDIA de nível empresarial ou infraestrutura de nuvem, que concentrava o desenvolvimento de IA entre organizações com orçamentos de hardware especializados.
A equipe de engenharia da Tether demonstrou ajuste fino bem-sucedido em smartphones de ponta com os seguintes resultados:
Modelos de 125M de parâmetros: ajuste fino em um Samsung Galaxy S25 (GPU Adreno) em aproximadamente 10 minutos para um conjunto de dados biomédicos de cerca de 300 documentos (~18 mil tokens)
Modelos de 1B de parâmetros: ajuste fino dos mesmos dados biomédicos em 1 hora e 18 minutos no Samsung S25 e 1 hora e 45 minutos no iPhone 16
Capacidade máxima: modelos de até 13 bilhões de parâmetros foram ajustados com sucesso no iPhone 16, levando as capacidades de dispositivos de borda muito além das demonstrações típicas de menos de 3 bilhões de parâmetros
A inferência BitNet em GPUs móveis mostra aceleração significativa em comparação com as linhas de base de CPU:
Melhoria de velocidade: desempenho de GPU entre 2 e 11 vezes mais rápido que CPU nos dispositivos testados
Implicação prática: GPUs móveis agora podem suportar cargas de trabalho que anteriormente exigiam hardware especializado caro ou centros de dados
Benchmarks demonstram economias de memória significativas em comparação com modelos convencionais:
BitNet-1B (TQ1_0): usa até 77,8% menos VRAM que Gemma-3-1B (16-bit)
vs. Qwen3-0.6B: 65,6% menos VRAM que a versão de 16 bits
Estas reduções aplicam-se tanto à inferência quanto ao ajuste fino LoRA, criando espaço de memória útil para modelos maiores e fluxos de trabalho de personalização em hardware anteriormente considerado insuficiente.
O framework permite ajustar modelos duas vezes maiores em dispositivos de borda em comparação com modelos Q4 não-BitNet, demonstrando a superior eficiência de memória da arquitetura BitNet.
Paolo Ardoino, CEO da Tether, enquadrou o lançamento dentro de uma visão mais ampla de IA acessível: “A inteligência será um fator-chave no futuro da sociedade. Quando o treino de grandes modelos de linguagem depende de infraestrutura centralizada, a inovação estagna, o ecossistema fica frágil e o equilíbrio social é colocado em risco. Ao possibilitar treinamento de modelos grandes de forma significativa em hardware de consumo, incluindo smartphones, a QVAC da Tether prova que a IA avançada pode ser descentralizada, inclusiva e empoderadora para todos.”
Os ganhos de eficiência tornam possível o aprendizado federado, permitindo que atualizações ajustadas sejam treinadas e compartilhadas entre dispositivos distribuídos, mantendo dados sensíveis localmente. Isso reduz a dependência de infraestrutura centralizada e promove melhorias colaborativas nos modelos.
Ao reduzir a dependência de provedores de nuvem, o framework permite que os usuários mantenham dados sensíveis localmente durante o ajuste fino, abordando preocupações de privacidade relacionadas ao envio de dados para servidores centralizados.
O lançamento da Tether desafia diretamente o modelo centralizado de desenvolvimento de IA dominado por hyperscalers e provedores de nuvem. Ao possibilitar trabalho de IA significativo em hardware de consumo, a empresa se posiciona como um provedor de infraestrutura na pilha de IA de borda, independente das jurisdições tradicionais de nuvem.
O framework, incluindo o artigo, adaptadores, benchmarks e binários multiplataforma, está disponível no Hugging Face. Essa abordagem de código aberto visa estabelecer a QVAC como caminho padrão para desenvolvedores independentes e pequenos laboratórios implantarem IA em hardware de consumo, construindo relevância cultural e técnica fora dos quadros regulatórios tradicionais.
O lançamento continua a expansão da Tether além da emissão de stablecoins para infraestrutura digital crítica, após iniciativas anteriores como o conjunto de dados Genesis I de 41 bilhões de tokens e o AI Workbench local. A empresa sinalizou investimento contínuo em infraestrutura de IA descentralizada ao longo de “semanas, meses e anos que virão.”
A documentação técnica completa, incluindo benchmarks de desempenho, detalhes de implementação e binários multiplataforma, está disponível no blog do Hugging Face: “Ajuste fino LoRA de BitNet b1.58 em LLMs heterogêneos de borda via QVAC Fabric.”
A Tether descreve sua missão como promover liberdade, transparência e inovação através da tecnologia, possibilitando troca de informações peer-to-peer direta, sem intermediários desnecessários. A empresa busca substituir modelos centralizados por infraestrutura descentralizada, projetada para privacidade, eficiência e resiliência.
O framework QVAC Fabric BitNet LoRA suporta GPUs de consumo da AMD, Intel e NVIDIA; o ecossistema Apple incluindo chips Silicon M e GPUs móveis Bionic; e GPUs móveis como Adreno (Samsung), Mali e outros. Isso permite ajuste fino de IA em laptops, desktops e smartphones de ponta, sem hardware empresarial especializado.
Segundo benchmarks da Tether, a inferência baseada em GPU em dispositivos móveis de ponta é entre 2 e 11 vezes mais rápida que as linhas de base de CPU. O uso de memória cai até 77,8% em relação a modelos convencionais, permitindo que modelos maiores operem dentro das mesmas limitações de hardware.
Ajustar um modelo de 13 bilhões de parâmetros em um smartphone representa uma mudança significativa em relação às demonstrações típicas de IA em dispositivos, que geralmente envolvem modelos de menos de 3 bilhões de parâmetros ou deslocam cargas mais pesadas para a nuvem. Essa capacidade sugere um futuro onde personalização séria de modelos e adaptação a domínios específicos possam ocorrer localmente, sem enviar dados do usuário para servidores centralizados.