A Nous Research disponibiliza em código aberto o Lighthouse Attention com um aumento de desempenho de 17x no B200 para contexto de 512K

Segundo a Beating, a Nous Research disponibilizou Lighthouse Attention em código aberto, um mecanismo de treino para contextos longos que atinge uma aceleração de 17x no processamento de texto com 512K de comprimento numa única GPU B200, e uma aceleração de treino de ponta a ponta de 1,4–1,7x no comprimento de 98K. A técnica utiliza uma abordagem de coarse-to-fine: primeiro faz a varredura de resumos comprimidos em diferentes níveis para identificar segmentos essenciais e, em seguida, passa o texto filtrado ao FlashAttention para processamento. Em testes num modelo com 5,3 mil milhões de parâmetros treinado em 50 mil milhões de tokens, a abordagem não só reduziu o tempo de treino como também igualou ou superou o desempenho de base do treino totalmente assente em atenção.

Aviso legal: As informações contidas nesta página podem provir de fontes externas e têm caráter meramente informativo. Não refletem os pontos de vista nem as opiniões da Gate e não constituem qualquer tipo de aconselhamento financeiro, de investimento ou jurídico. A negociação de ativos virtuais envolve um risco elevado. Não se baseie exclusivamente nas informações contidas nesta página ao tomar decisões. Para mais detalhes, consulte o Aviso legal.
Comentar
0/400
Nenhum comentário