DeepSeek-R1 comemora um ano de lançamento e revela o novo modelo 「MODEL1」

BlockBeats notícia, 21 de janeiro, de acordo com a Quantumbit, no primeiro aniversário do lançamento do DeepSeek-R1, foi divulgado o novo modelo 「MODEL1」. O DeepSeek atualizou o código FlashMLA no GitHub, onde há 28 menções a MODEL1 em 114 arquivos, aparecendo ao lado do V32 como modelos diferentes. Sabe-se que o V32 é o DeepSeek-V3.2, e o MODEL1 provavelmente é uma nova arquitetura. As diferenças específicas no código manifestam-se na disposição do cache KV, no tratamento de esparsidade e na decodificação FP8, havendo várias alterações na otimização de memória.

Ver original
Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.
Comentar
0/400
Nenhum comentário
Negocie cripto em qualquer lugar e a qualquer hora
qrCode
Digitalizar para transferir a aplicação Gate
Novidades
Português (Portugal)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)