News | Gate.com

2026-04-24

14:42

DeepSeek V4 é lançado com uma janela de contexto de 1M; chips Huawei Ascend e Cambricon alcançam compatibilidade total

Gate News mensagem, 24 de abril — O DeepSeek V4-Pro e o DeepSeek V4-Flash foram oficialmente lançados e open-source em 24 de abril, com o comprimento de contexto de processamento significativamente expandido de 128K para 1M, representando um aumento de capacidade de quase 10 vezes. A Huawei Computing anunciou que os seus produtos de supernó Ascend

Mais

05:21

DeepSeek V4 Desencadeia Debate nos EUA: Think Tank Questiona Uso de Chips, CEO da Replit Defende Inovação Aberta

Notícias da indústria de IA

Mensagem do Gate News, 24 de Abril — Uma polémica explodiu nos Estados Unidos sobre as capacidades tecnológicas e a conformidade do DeepSeek V4. Chris McGuire, membro sénior do Conselho sobre Relações Exteriores (CFR) e antigo responsável do Conselho de Segurança Nacional da Casa Branca e do Departamento de Defesa, publicou

Mais

04:49

DeepSeek V4 Obtém Pontuação Perfeita no Putnam-2025, Empata com a Axiom em Raciocínio Matemático Formal

Notícias da indústria de IA

Notícia do Gate, 24 de Abril — A DeepSeek V4 publicou resultados de avaliações de raciocínio matemático formal, obtendo uma pontuação perfeita de 120/120 no Putnam-2025, empatando com a Axiom pelo primeiro lugar. No regime prático com LeanExplore e amostragem condicionada, o V4-Flash-Max marcou 81.00 no

Mais

03:21

Os dados de treino do DeepSeek V4 duplicaram para 33T, despoletando instabilidade que atrasou o lançamento

Notícias da indústria de IA

Mensagem de Gate News, 24 de abril — O relatório técnico V4 da DeepSeek revela que o V4-Flash e o V4-Pro foram pré-treinados em 32T e 33T tokens, respetivamente, o dobro dos aproximadamente 15T tokens usados para o V3. O relatório reconhece ter encontrado “desafios significativos de instabilidade” durante o treino, com picos de perda a ocorrer repetidamente devido a anomalias na camada Mixture-of-Experts MoE; o mecanismo de routing em si agrava estas anomalias, e um simples rollback não consegue resolver o problema. DeepSeek implementou duas soluções agora aplicadas ao treino real: Routing Antecipatório, que desacopla o cálculo do índice de routing das atualizações da rede backbone e ativa automaticamente apenas quando são detetados picos de perda adicionando aproximadamente 20% de sobrecarga, e SwiGLU Clamping, que suprime diretamente as anomalias ao limitar os valores de ativação a um intervalo fixo. O relatório afirma que as duas abordagens são eficazes, mas admite que “os princípios subjacentes permanecem insuficientemente compreendidos”. Susan Zhang, investigadora da Google DeepMind que anteriormente trabalhou na Meta AI e na OpenAI, comentou que a instabilidade despoletada pelo dobro dos dados de treino “explica o atraso”. Ela descreveu as duas soluções como “band-aids” enquanto reconhecia a transparência técnica da DeepSeek.

Mais

03:04

A DeepSeek Lança a Série de Modelos Open-Source V4 com 1,6T Parâmetros e Licença MIT

Notícias da indústria de IA

Mensagem do Gate News, 24 de abril — A DeepSeek lançou a série V4 de modelos de código aberto sob a Licença MIT, com pesos agora disponíveis na Hugging Face e na ModelScope. A série inclui dois modelos (MoE) de mixture-of-experts: V4-Pro com 1,6 biliões de parâmetros totais e 49 mil milhões ativados por token

Mais

09:45

DeepSeek lança em open-source o TileKernels, biblioteca de kernels de GPU para o treino e a inferência de grandes modelos

Progresso do projeto

Notícias da indústria de IA

Notícia de Gate, 23 de Abril — A DeepSeek lançou em open-source o TileKernels sob a licença MIT, uma biblioteca de kernels de GPU escrita em TileLang para o treino e a inferência de grandes modelos de linguagem. O TileLang é uma linguagem específica de domínio desenvolvida pela equipa tile-ai para expressar kernels de GPU de alto desempenho em

Mais

20:02

A avaliação da DeepSeek dispara acima de $20 Billion à medida que a Tencent e a Alibaba ponderam investimentos

Notícias da indústria de IA

A DeepSeek procura >$20B as Tencent/Alibaba discutem investimentos; a Nvidia alerta que a vantagem das chips dos EUA poderá ser posta em causa pela Huawei; o financiamento em IA continua a acelerar, com a $1B round da Vast Data e investimentos da OpenAI/Anthropic/xAI. A DeepSeek pretende uma avaliação acima de $20 billion no meio das conversas com a Tencent e a Alibaba, enquanto a Nvidia alerta que a transferência de modelos de IA para chips da Huawei poderá corroer a liderança dos EUA. A peça também refere um aumento global do financiamento em IA, incluindo a $1 billion round da Vast Data a uma avaliação de $30 billion e grandes investimentos na OpenAI, Anthropic e xAI.

Mais

14:05

Yifan Zhang divulga as especificações técnicas completas do DeepSeek V4: 1,6T de parâmetros, 384 especialistas com 6 ativações

Notícias da indústria de IA

Mensagem do Gate News, 22 de abril — O estudante de doutoramento da Princeton, Yifan Zhang, divulgou no X especificações técnicas completas para o DeepSeek V4, na sequência de uma antevisão a 19 de abril. O V4 conta com 1,6 biliões de parâmetros no total e uma variante leve, V4-Lite, com 285 mil milhões de parâmetros. O modelo utiliza o mecanismo de atenção DSA2

Mais

11:23

Tencent e Alibaba Negociam Investimento na DeepSeek, Avaliação Excede $200 Billion

Notícias da indústria de IA

Mensagem do Gate News, 22 de Abril — A Tencent e a Alibaba estão em negociações para investir na DeepSeek, segundo o The Information. A avaliação da DeepSeek excede $200 billion.

02:21

A Tesla Regista um Assistente de Voz com IA na China, Usando Modelos Locais da DeepSeek e da Doubao

Notícias da indústria de IA

Mensagem do Gate News, 22 de Abril — A Tesla apresentou o seu assistente de voz para IA generativa ao regulador do ciberespaço da China a 21 de Abril, segundo as autoridades de Xangai. O registo é exigido para serviços de IA a operar na China e representa um dos 158 produtos e funções de IA que concluíram

Mais