MiniMax @MiniMax_AI responde com um texto longo à afirmação de que “o modelo não consegue falar Ma Jiaqi”


A conta oficial do MiniMax publicou um texto longo em resposta à questão de que o modelo da série M2 não consegue falar Ma Jiaqi, oferecendo um processo completo de investigação do problema de “reconhecimento de Jiaqi” e reflexões técnicas. ⬇️
MiniMax afirmou que realizou investigações em múltiplos aspectos, incluindo alinhamento da versão do tokenizador, distribuição estatística de embeddings, busca por vizinhos semânticos, experimentos de comparação entre modelos pré-treinados e pós-treinados com poucos exemplos, estatísticas de frequência dos dados pós-treinamento e variações na magnitude da mudança do lm_head para toda a tabela de vocabulário, entre outros.
A causa final identificada foi: “Ma Jiaqi” foi consolidado como um token independente no tokenizador, mas esse token apareceu com frequência extremamente baixa nos dados de pós-treinamento, levando o modelo a gradualmente esquecer sua capacidade de gerar esse token durante o pós-treinamento.
Ver original
post-image
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar