A Google disponibiliza em código aberto o modelo DiffusionGemma: mais de 1000 tokens por segundo no H100, aumento de velocidade 4x

De acordo com a monitorização Beating, a Google lançou um modelo de geração de texto de código aberto chamado DiffusionGemma, que utiliza um mecanismo baseado em difusão para gerar texto em blocos paralelos, em vez de forma sequencial token a token. O modelo com 26 mil milhões de parâmetros ativa apenas 3,8 mil milhões de parâmetros por passagem forward sob uma arquitetura de mixture-of-experts, alcançando uma melhoria de 4x na inferência local em GPU.

Numa única GPU NVIDIA H100, o DiffusionGemma atinge mais de 1000 tokens por segundo, enquanto a RTX 5090 de gama de consumo ultrapassa 700 tokens por segundo. Após quantização em ponto flutuante de 4 bits, o modelo requer menos de 18GB de VRAM. Os pesos do DiffusionGemma já estão disponibilizados em código aberto no Hugging Face e são suportados pelo MLX, vLLM, Unsloth e NVIDIA NeMo.

Aviso legal: As informações contidas nesta página podem provir de fontes externas e têm caráter meramente informativo. Não refletem os pontos de vista nem as opiniões da Gate e não constituem qualquer tipo de aconselhamento financeiro, de investimento ou jurídico. A negociação de ativos virtuais envolve um risco elevado. Não se baseie exclusivamente nas informações contidas nesta página ao tomar decisões. Para mais detalhes, consulte o Aviso legal.
Comentar
0/400
Nenhum comentário