Mensagem de Gate News, 24 de abril — A DeepSeek lançou a série V4 de modelos de código aberto sob a Licença MIT, com pesos agora disponíveis no Hugging Face e no ModelScope. A série inclui dois modelos (MoE) de especialistas em mistura: V4-Pro com 1,6 trilhão de parâmetros totais e 49 bilhões ativados por token, e V4-Flash com 284 bilhões de parâmetros totais e 13 bilhões ativados por token. Ambos suportam uma janela de contexto de 1 milhão de tokens.

A arquitetura traz três melhorias principais: um mecanismo de atenção híbrido que combina atenção esparsa comprimida (CSA) e atenção fortemente comprimida (HCA), reduzindo significativamente a sobrecarga de contextos longos — os FLOPs de inferência do V4-Pro para contexto de 1M são apenas 27% dos do V3.2, e o cache de KV (VRAM para armazenar informações históricas durante a inferência) é apenas 10% do do V3.2; hipervínculos com restrição de manifold (mHC) substituindo conexões residuais tradicionais para aprimorar a estabilidade da propagação de sinais entre camadas; e o otimizador Muon para acelerar a convergência do treinamento. O pré-treinamento usou mais de 32 trilhões de tokens de dados.

O pós-treinamento emprega uma abordagem em duas etapas: primeiro, treinar especialistas específicos de domínio via fine-tuning supervisionado (SFT) e aprendizado por reforço com GRPO, depois fundi-los em um único modelo por meio de distilação online. O V4-Pro-Max (highest inference mode) afirma ser o modelo de código aberto mais forte, com benchmarks de codificação de ponta e lacunas significativamente reduzidas em relação a modelos de fronteira de código fechado em tarefas de raciocínio e de agentes. O V4-Flash-Max atinge desempenho de raciocínio no nível do Pro com orçamento de computação suficiente, mas é limitado pela escala de parâmetros em tarefas puramente de conhecimento e tarefas de agentes complexas. Os pesos são armazenados em precisão mista FP4+FP8.

Ver fonte

Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o Aviso Legal.

Kaisar Network conclui $4 milhão em financiamento para a camada 1 de computação de IA descentralizada

Notícias do setor de IA Tokens de IA

De acordo com a ChainCatcher, a Kaisar Network, uma rede descentralizada de computação de IA em uma camada 1, concluiu $4 milhão em captação até o momento, incluindo US$ 1 milhão em uma rodada estratégica de Pre-Seed. Os investidores incluem Merov Capital, StoneBlock, WM Capital, Arche Fund, Q42 e Unicorn Ventures. A rede

GateNews33m atrás

O CFO da OpenAI descarta rumores sobre metas de receita e diz que a empresa está executando no mais alto nível em 1º de maio

Notícias do setor de IA

De acordo com a Bloomberg, a diretora financeira (CFO) da OpenAI, Sarah Friar, descartou os rumores de 1º de maio de que a empresa teria perdido metas internas de vendas e de usuários. Friar afirmou que a companhia está executando seus planos no mais alto nível, descrevendo a demanda por produtos como um “muro vertical”. Ela observou que a execução

GateNews1h atrás

O assessor de Musk divulga o lance $974B da xAI por ativos da OpenAI, organização sem fins lucrativos, em tribunal, levantando novas suspeitas

Notícias do setor de IA

De acordo com o depoimento de Jared Birchall no 4º dia do processo de Musk contra a OpenAI, a oferta da xAI de US$ 974 bilhões pelos ativos sem fins lucrativos da OpenAI tinha como objetivo impedir que Sam Altman desvalorizasse os ativos durante a reestruturação da OpenAI. No entanto, a juíza Yvonne Gonzalez Rogers questionou como Birchall poderia apresentar uma oferta de US$ 974 bil

GateNews2h atrás

Musk admite que a xAI usou destilação em modelos da OpenAI durante o 4º dia do julgamento

Notícias do setor de IA

De acordo com a Beating e o The Verge, no 4º dia do julgamento entre Musk e a OpenAI, os advogados da OpenAI questionaram se a xAI usou destilação para aprimorar seus modelos usando a tecnologia da OpenAI. Musk inicialmente afirmou que “quase todas as empresas de IA fazem isso”, mas, quando pressionado por uma resposta direta, reconheceu

GateNews2h atrás

66,3% dos funcionários dos EUA com alta renda usam ferramentas de IA no trabalho, mostra pesquisa do Federal Reserve

Notícias do setor de IA

De acordo com uma pesquisa do Federal Reserve, 66,3% dos funcionários dos EUA que ganham mais de US$ 200.000 por ano usaram ferramentas de IA no trabalho nos últimos 12 meses, em 1º de maio. Entre faixas de renda mais baixas, as taxas de uso diminuem significativamente: 51,6% para aqueles que ganham US$ 100.000–US$ 200.000, 40,2% para aqueles que ganham US$ 50.000–US$ 100.000,

GateNews2h atrás

xAI lança a API do Grok 4.3 com janela de contexto de 1M tokens a US$ 1,25 por 1 milhão de tokens de entrada

Notícias do setor de IA

De acordo com a BlockBeats, a xAI lançou a API do Grok 4.3 em 1º de maio. O novo modelo oferece uma janela de contexto de 1 milhão de tokens e conta com entrada/saída de texto, recursos multimodais e funcionalidades de chamada de ferramentas. A API do Grok 4.3 custa US$ 1,25 por 1 milhão de entrada

GateNews2h atrás

Comentário

0/400

Sem comentários