Mensagem de Gate News, 24 de abril — A DeepSeek lançou a série V4 de modelos de código aberto sob a Licença MIT, com pesos agora disponíveis no Hugging Face e no ModelScope. A série inclui dois modelos (MoE) de especialistas em mistura: V4-Pro com 1,6 trilhão de parâmetros totais e 49 bilhões ativados por token, e V4-Flash com 284 bilhões de parâmetros totais e 13 bilhões ativados por token. Ambos suportam uma janela de contexto de 1 milhão de tokens.
A arquitetura traz três melhorias principais: um mecanismo de atenção híbrido que combina atenção esparsa comprimida (CSA) e atenção fortemente comprimida (HCA), reduzindo significativamente a sobrecarga de contextos longos — os FLOPs de inferência do V4-Pro para contexto de 1M são apenas 27% dos do V3.2, e o cache de KV (VRAM para armazenar informações históricas durante a inferência) é apenas 10% do do V3.2; hipervínculos com restrição de manifold (mHC) substituindo conexões residuais tradicionais para aprimorar a estabilidade da propagação de sinais entre camadas; e o otimizador Muon para acelerar a convergência do treinamento. O pré-treinamento usou mais de 32 trilhões de tokens de dados.
O pós-treinamento emprega uma abordagem em duas etapas: primeiro, treinar especialistas específicos de domínio via fine-tuning supervisionado (SFT) e aprendizado por reforço com GRPO, depois fundi-los em um único modelo por meio de distilação online. O V4-Pro-Max (highest inference mode) afirma ser o modelo de código aberto mais forte, com benchmarks de codificação de ponta e lacunas significativamente reduzidas em relação a modelos de fronteira de código fechado em tarefas de raciocínio e de agentes. O V4-Flash-Max atinge desempenho de raciocínio no nível do Pro com orçamento de computação suficiente, mas é limitado pela escala de parâmetros em tarefas puramente de conhecimento e tarefas de agentes complexas. Os pesos são armazenados em precisão mista FP4+FP8.
Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o
Aviso Legal.
Related Articles
Kaisar Network conclui $4 milhão em financiamento para a camada 1 de computação de IA descentralizada
De acordo com a ChainCatcher, a Kaisar Network, uma rede descentralizada de computação de IA em uma camada 1, concluiu $4 milhão em captação até o momento, incluindo US$ 1 milhão em uma rodada estratégica de Pre-Seed. Os investidores incluem Merov Capital, StoneBlock, WM Capital, Arche Fund, Q42 e Unicorn Ventures. A rede
GateNews33m atrás
O CFO da OpenAI descarta rumores sobre metas de receita e diz que a empresa está executando no mais alto nível em 1º de maio
De acordo com a Bloomberg, a diretora financeira (CFO) da OpenAI, Sarah Friar, descartou os rumores de 1º de maio de que a empresa teria perdido metas internas de vendas e de usuários. Friar afirmou que a companhia está executando seus planos no mais alto nível, descrevendo a demanda por produtos como um “muro vertical”. Ela observou que a execução
GateNews1h atrás
O assessor de Musk divulga o lance $974B da xAI por ativos da OpenAI, organização sem fins lucrativos, em tribunal, levantando novas suspeitas
De acordo com o depoimento de Jared Birchall no 4º dia do processo de Musk contra a OpenAI, a oferta da xAI de US$ 974 bilhões pelos ativos sem fins lucrativos da OpenAI tinha como objetivo impedir que Sam Altman desvalorizasse os ativos durante a reestruturação da OpenAI. No entanto, a juíza Yvonne Gonzalez Rogers questionou como Birchall poderia apresentar uma oferta de US$ 974 bil
GateNews2h atrás
Musk admite que a xAI usou destilação em modelos da OpenAI durante o 4º dia do julgamento
De acordo com a Beating e o The Verge, no 4º dia do julgamento entre Musk e a OpenAI, os advogados da OpenAI questionaram se a xAI usou destilação para aprimorar seus modelos usando a tecnologia da OpenAI. Musk inicialmente afirmou que “quase todas as empresas de IA fazem isso”, mas, quando pressionado por uma resposta direta, reconheceu
GateNews2h atrás
66,3% dos funcionários dos EUA com alta renda usam ferramentas de IA no trabalho, mostra pesquisa do Federal Reserve
De acordo com uma pesquisa do Federal Reserve, 66,3% dos funcionários dos EUA que ganham mais de US$ 200.000 por ano usaram ferramentas de IA no trabalho nos últimos 12 meses, em 1º de maio. Entre faixas de renda mais baixas, as taxas de uso diminuem significativamente: 51,6% para aqueles que ganham US$ 100.000–US$ 200.000, 40,2% para aqueles que ganham US$ 50.000–US$ 100.000,
GateNews2h atrás
xAI lança a API do Grok 4.3 com janela de contexto de 1M tokens a US$ 1,25 por 1 milhão de tokens de entrada
De acordo com a BlockBeats, a xAI lançou a API do Grok 4.3 em 1º de maio. O novo modelo oferece uma janela de contexto de 1 milhão de tokens e conta com entrada/saída de texto, recursos multimodais e funcionalidades de chamada de ferramentas. A API do Grok 4.3 custa US$ 1,25 por 1 milhão de entrada
GateNews2h atrás