Dados de Treinamento da DeepSeek V4 Dobrados para 33T, Disparando Instabilidade que Atrasou o Lançamento

Mensagem da Gate News, 24 de abril — O relatório técnico da DeepSeek sobre a V4 revela que a V4-Flash e a V4-Pro foram pré-treinadas, respectivamente, com 32T e 33T tokens, dobrando os aproximadamente 15T tokens usados para a V3. O relatório reconhece que encontrou “desafios significativos de instabilidade” durante o treinamento, com picos de perda ocorrendo repetidamente devido a anomalias na camada (Mixture-of-Experts )MoE(; o próprio mecanismo de roteamento agrava essas anomalias, e um simples rollback não consegue resolver o problema.

A DeepSeek implementou duas soluções agora aplicadas ao treinamento real: Roteamento Antecipatório, que desacopla o cálculo do índice de roteamento das atualizações da rede backbone e dispara automaticamente apenas quando picos de perda são detectados )adicionando aproximadamente 20% de sobrecarga, e Amortecimento de SwiGLU, que suprime diretamente as anomalias ao limitar os valores de ativação a uma faixa fixa. O relatório afirma que ambas as abordagens são eficazes, mas admite que “os princípios subjacentes ainda não são compreendidos de forma suficiente”.

Susan Zhang, pesquisadora da Google DeepMind que anteriormente trabalhou na Meta AI e na OpenAI, comentou que a instabilidade desencadeada pelo aumento do volume de dados de treinamento em dobro “explica o atraso”. Ela descreveu as duas soluções como “band-aids”, ao mesmo tempo em que reconheceu a transparência técnica da DeepSeek.

Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o Aviso Legal.

Related Articles

A OpenAI Lança Protocolo de Rede MRC com AMD, Intel e NVIDIA; Suporta 100.000+ GPUs

De acordo com o anúncio da OpenAI em 6 de maio, a empresa fez parceria com a AMD, Broadcom, Intel, Microsoft e NVIDIA para lançar o Multipath Reliable Connection (MRC), um protocolo de rede aberto para interconexão de GPUs em clusters de treinamento de IA em larga escala. O protocolo divide uma única transmissão de dados em múltiplos caminhos

GateNews3m atrás

As ações da Hut 8 disparam 30% no pré-mercado após assinar um acordo de locação de data center de IA no valor de US$ 9,8 bilhões

De acordo com o The Block, as ações da Hut 8 Corp. dispararam mais de 30% no pré-mercado após a empresa assinar um acordo de arrendamento de US$ 9,8 bilhões para um campus de data center de inteligência artificial no condado de Nueces, no Texas, projetado para a arquitetura de computação da NVIDIA. O inquilino não identificado vai usar o

GateNews22m atrás

CleanSpark CTO: A infraestrutura de IA/HPC exige mais recursos de rede do que a mineração de Bitcoin

Em uma entrevista ao CoinDesk, o diretor de tecnologia (CTO) da CleanSpark, Taylor Monnig, afirmou que a transição da mineração de Bitcoin para a infraestrutura de IA/HPC exige mais redundância e menos improviso. “A fibra de rede de um único rack supera a de toda uma instalação de mineração de Bitcoin”, Monnig

GateNews27m atrás

A Public adquire o aplicativo Treasury, plataforma de investimentos em IA

De acordo com a Foresight News, o aplicativo de investimentos Public anunciou a aquisição da plataforma de investimentos orientada por IA Treasury App em 6 de maio. O valor da aquisição não foi divulgado. O acordo tem como objetivo fortalecer as operações de corretagem impulsionadas por IA da Public, que atualmente oferece suporte a ações, títulos e

GateNews1h atrás

MiroMind interrompe o serviço MiroThinker na Grande China a partir de 12 de maio

De acordo com a BlockBeats, a MiroMind, empresa de pesquisa em IA fundada por Chen Tianqiao, fundador do Grupo Shanda, vai suspender seu serviço MiroThinker (versões para web e aplicativo móvel) na China continental, Hong Kong e Macau a partir de 12 de maio de 2026. A data da suspensão e o cronograma de recuperação foram anunciados via

GateNews1h atrás

ChatGPT disponibiliza integração com Excel e Google Sheets: GPT-5.5 entra direto na planilha, confronto entre Copilot e Gemini

A OpenAI lançou plug-ins do ChatGPT for Excel e do ChatGPT for Google Sheets, usando o motor GPT-5.5; o foco é “explicar enquanto faz”. As funcionalidades incluem análise, escrever fórmulas automaticamente, atualizar planilhas e detalhar o processo de raciocínio passo a passo, permitindo que os usuários tratem e entendam diretamente dentro da planilha. Em meio a uma disputa em três frentes com Copilot e Gemini, o lançamento marca um novo cenário para IA de produtividade corporativa; usuários em Taiwan precisam instalar via AppSource/Workspace Marketplace e devem ficar atentos à privacidade dos dados e se será necessário o ChatGPT Plus.

ChainNewsAbmedia2h atrás
Comentário
0/400
Sem comentários