De acordo com Beating, a equipe de MIT Kaiming He lançou recentemente o ELF (Embedded Language Flows), um modelo de difusão de linguagem que se afasta da abordagem autoregressiva de “prever o próximo token” usada por modelos estilo GPT. Em vez disso, o ELF realiza a geração de texto em um espaço de embeddings contínuo, convertendo em tokens discretos apenas na etapa final.
Nos benchmarks de geração incondicional do OpenWebText, o ELF-B com 105M parâmetros alcançou aproximadamente 24,1 de perplexidade de geração (Gen. PPL) com amostragem em 32 etapas, superando várias bases de modelos de linguagem de difusão discretos e contínuos. Notavelmente, o ELF-B exigiu apenas aproximadamente 45 bilhões de tokens de treinamento, cerca de uma ordem de grandeza a menos do que métodos comparáveis, que normalmente excedem 500 bilhões de tokens.
Related News
3 Altcoins promissoras que podem liderar o próximo rali do mercado
百億 startup Thinking Machines lança modelo de IA interativo em tempo real, com foco em “dizer, ouvir e executar enquanto conversa”
Google: modelos de linguagem de grande porte estão sendo usados para ataques reais, e a IA pode contornar mecanismos de segurança de autenticação em duas etapas