Mensagem de Gate News, 24 de abril — A DeepSeek lançou a série V4 de modelos de código aberto sob a Licença MIT, com pesos agora disponíveis no Hugging Face e no ModelScope. A série inclui dois modelos (MoE) de especialistas em mistura: V4-Pro com 1,6 trilhão de parâmetros totais e 49 bilhões ativados por token, e V4-Flash com 284 bilhões de parâmetros totais e 13 bilhões ativados por token. Ambos suportam uma janela de contexto de 1 milhão de tokens.

A arquitetura traz três melhorias principais: um mecanismo de atenção híbrido que combina atenção esparsa comprimida (CSA) e atenção fortemente comprimida (HCA), reduzindo significativamente a sobrecarga de contextos longos — os FLOPs de inferência do V4-Pro para contexto de 1M são apenas 27% dos do V3.2, e o cache de KV (VRAM para armazenar informações históricas durante a inferência) é apenas 10% do do V3.2; hipervínculos com restrição de manifold (mHC) substituindo conexões residuais tradicionais para aprimorar a estabilidade da propagação de sinais entre camadas; e o otimizador Muon para acelerar a convergência do treinamento. O pré-treinamento usou mais de 32 trilhões de tokens de dados.

O pós-treinamento emprega uma abordagem em duas etapas: primeiro, treinar especialistas específicos de domínio via fine-tuning supervisionado (SFT) e aprendizado por reforço com GRPO, depois fundi-los em um único modelo por meio de distilação online. O V4-Pro-Max (highest inference mode) afirma ser o modelo de código aberto mais forte, com benchmarks de codificação de ponta e lacunas significativamente reduzidas em relação a modelos de fronteira de código fechado em tarefas de raciocínio e de agentes. O V4-Flash-Max atinge desempenho de raciocínio no nível do Pro com orçamento de computação suficiente, mas é limitado pela escala de parâmetros em tarefas puramente de conhecimento e tarefas de agentes complexas. Os pesos são armazenados em precisão mista FP4+FP8.

Ver fonte

Isenção de responsabilidade: as informações nesta página podem ter origem em fontes terceiras e servem apenas como referência. Não representam as opiniões da Gate e não constituem orientação financeira, de investimentos ou jurídica. A negociação de ativos virtuais envolve alto risco. Não tome decisões baseando-se apenas nas informações desta página. Para mais detalhes, consulte a Isenção de responsabilidade.

Notícias relacionadas

04-24 01:46

OpenAI Lança GPT-5.5, Projetado para Tarefas de Agentes e Fluxos de Trabalho Complexos

04-23 20:42

Brecha de Segurança da Vercel se Expande para Centenas de Usuários; Desenvolvedores de IA em Maior Risco

04-23 14:41

OpenClaw 2026.4.22 Unifica o Ciclo de Vida do Plugin entre os Harnesses do Codex e do Pi, Reduz o Tempo de Carregamento do Plugin em Até 90%

04-23 09:45

DeepSeek disponibiliza código-fonte aberto do TileKernels, biblioteca de kernels de GPU para treinamento e inferência de modelos em larga escala

04-23 04:54

A Perplexity revela método de pós-treinamento de agente de busca na web; modelo baseado em Qwen3.5 supera GPT-5.4 em acurácia e custo

Análise aprofundada

OpenAI lança GPT-5.5: contexto de 12M, índice AA em primeiro lugar, Terminal-Bench 82,7% reescreve o benchmark de agentes

ChainNewsAbmedia04-23 19:45

O Google Jules divulga uma lista de possíveis nomes do novo lançamento aberto e a reposiciona como uma plataforma de desenvolvimento de produtos ponta a ponta

Market Whisper04-23 06:13

DeepSeek negocia a primeira rodada de financiamento externo, avaliação de US$ 20 bilhões: novo recorde de avaliação de IA na China

ChainNewsAbmedia04-22 13:13

Comentário

0/400

Sem comentários