Resultados da pesquisa de "DEEPSEEK"
2026-04-24
14:42

DeepSeek V4 é lançado com uma janela de contexto de 1M; chips Huawei Ascend e Cambricon alcançam compatibilidade total

Gate News mensagem, 24 de abril — O DeepSeek V4-Pro e o DeepSeek V4-Flash foram oficialmente lançados e open-source em 24 de abril, com o comprimento de contexto de processamento significativamente expandido de 128K para 1M, representando um aumento de capacidade de quase 10 vezes. A Huawei Computing anunciou que os seus produtos de supernó Ascend
Mais
03:21

Os dados de treino do DeepSeek V4 duplicaram para 33T, despoletando instabilidade que atrasou o lançamento

Mensagem de Gate News, 24 de abril — O relatório técnico V4 da DeepSeek revela que o V4-Flash e o V4-Pro foram pré-treinados em 32T e 33T tokens, respetivamente, o dobro dos aproximadamente 15T tokens usados para o V3. O relatório reconhece ter encontrado “desafios significativos de instabilidade” durante o treino, com picos de perda a ocorrer repetidamente devido a anomalias na camada Mixture-of-Experts MoE; o mecanismo de routing em si agrava estas anomalias, e um simples rollback não consegue resolver o problema. DeepSeek implementou duas soluções agora aplicadas ao treino real: Routing Antecipatório, que desacopla o cálculo do índice de routing das atualizações da rede backbone e ativa automaticamente apenas quando são detetados picos de perda adicionando aproximadamente 20% de sobrecarga, e SwiGLU Clamping, que suprime diretamente as anomalias ao limitar os valores de ativação a um intervalo fixo. O relatório afirma que as duas abordagens são eficazes, mas admite que “os princípios subjacentes permanecem insuficientemente compreendidos”. Susan Zhang, investigadora da Google DeepMind que anteriormente trabalhou na Meta AI e na OpenAI, comentou que a instabilidade despoletada pelo dobro dos dados de treino “explica o atraso”. Ela descreveu as duas soluções como “band-aids” enquanto reconhecia a transparência técnica da DeepSeek.
Mais
09:45

DeepSeek lança em open-source o TileKernels, biblioteca de kernels de GPU para o treino e a inferência de grandes modelos

Notícia de Gate, 23 de Abril — A DeepSeek lançou em open-source o TileKernels sob a licença MIT, uma biblioteca de kernels de GPU escrita em TileLang para o treino e a inferência de grandes modelos de linguagem. O TileLang é uma linguagem específica de domínio desenvolvida pela equipa tile-ai para expressar kernels de GPU de alto desempenho em
Mais
20:02

A avaliação da DeepSeek dispara acima de $20 Billion à medida que a Tencent e a Alibaba ponderam investimentos

A DeepSeek procura >$20B as Tencent/Alibaba discutem investimentos; a Nvidia alerta que a vantagem das chips dos EUA poderá ser posta em causa pela Huawei; o financiamento em IA continua a acelerar, com a $1B round da Vast Data e investimentos da OpenAI/Anthropic/xAI. A DeepSeek pretende uma avaliação acima de $20 billion no meio das conversas com a Tencent e a Alibaba, enquanto a Nvidia alerta que a transferência de modelos de IA para chips da Huawei poderá corroer a liderança dos EUA. A peça também refere um aumento global do financiamento em IA, incluindo a $1 billion round da Vast Data a uma avaliação de $30 billion e grandes investimentos na OpenAI, Anthropic e xAI.
Mais
14:05

Yifan Zhang divulga as especificações técnicas completas do DeepSeek V4: 1,6T de parâmetros, 384 especialistas com 6 ativações

Mensagem do Gate News, 22 de abril — O estudante de doutoramento da Princeton, Yifan Zhang, divulgou no X especificações técnicas completas para o DeepSeek V4, na sequência de uma antevisão a 19 de abril. O V4 conta com 1,6 biliões de parâmetros no total e uma variante leve, V4-Lite, com 285 mil milhões de parâmetros. O modelo utiliza o mecanismo de atenção DSA2
Mais