A Sapient disponibiliza em open source um modelo HRM de 1 mil milhões de parâmetros; atinge um custo de treino de 1.472 dólares em 46 horas

De acordo com Beating, a Sapient Intelligence disponibilizou em open-source o HRM-Text, um modelo de geração de texto com 1 mil milhões de parâmetros baseado na sua arquitetura do modelo de raciocínio hierárquico (HRM). Usando apenas 40 mil milhões de tokens estruturados, o modelo requer apenas 46 horas de treino em dois servidores H100 com 8 GPU, com um custo de computação de aproximadamente 1.472$ para a versão de 1B e 800$ para a variante de 0,6B; isto representa uma redução de 130–600 vezes no custo de pré-treinamento em comparação com modelos padrão.

Os ganhos de eficiência advêm de um desenho recorrente com dupla escala temporal, com módulos Transformer rápidos e lentos distintos que alternam sobre a mesma entrada e trocam informação através de adição de estado. O enquadramento completo de engenharia, incluindo a extração de dados e o treino distribuído em PyTorch, também foi disponibilizado em open-source. Note que os pesos disponibilizados são apenas para pré-treinamento não alinhado; o modelo suporta tarefas de complemento por prefixo, mas não consegue funcionar como um assistente conversacional.

Aviso legal: As informações contidas nesta página podem provir de fontes externas e têm caráter meramente informativo. Não refletem os pontos de vista nem as opiniões da Gate e não constituem qualquer tipo de aconselhamento financeiro, de investimento ou jurídico. A negociação de ativos virtuais envolve um risco elevado. Não se baseie exclusivamente nas informações contidas nesta página ao tomar decisões. Para mais detalhes, consulte o Aviso legal.
Comentar
0/400
Nenhum comentário