A equipe de MIT Kaiming He lança o modelo de difusão de linguagem ELF com 45 bilhões de tokens de treinamento

De acordo com Beating, a equipe de MIT Kaiming He lançou recentemente o ELF (Embedded Language Flows), um modelo de difusão de linguagem que se afasta da abordagem autoregressiva de “prever o próximo token” usada por modelos estilo GPT. Em vez disso, o ELF realiza a geração de texto em um espaço de embeddings contínuo, convertendo em tokens discretos apenas na etapa final.

Nos benchmarks de geração incondicional do OpenWebText, o ELF-B com 105M parâmetros alcançou aproximadamente 24,1 de perplexidade de geração (Gen. PPL) com amostragem em 32 etapas, superando várias bases de modelos de linguagem de difusão discretos e contínuos. Notavelmente, o ELF-B exigiu apenas aproximadamente 45 bilhões de tokens de treinamento, cerca de uma ordem de grandeza a menos do que métodos comparáveis, que normalmente excedem 500 bilhões de tokens.

Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o Aviso Legal.
Comentário
0/400
Sem comentários