De acordo com a monitorização do Beating, o Google lançou e open-soube um rascunho do modelo de previsão de múltiplos tokens (MTP) da série Gemma 4. Este é um modelo auxiliar leve que utiliza uma arquitetura de decodificação especulativa, capaz de acelerar a inferência até 3 vezes, mantendo a qualidade de saída e a capacidade de raciocínio lógico, enquanto o modelo principal mantém o peso de validação final.
Modelos de linguagem grande padrão geram apenas um token por vez, sendo facilmente limitados pelo gargalo de largura de banda da memória de vídeo, o que causa ociosidade computacional. A solução MTP permite que o modelo de rascunho leve utilize a capacidade ociosa de cálculo para prever antecipadamente múltiplos tokens futuros de uma só vez, que são então validados em paralelo pelo modelo alvo pesado, como o de 31B. Se o modelo alvo concordar com o rascunho, ele receberá toda a sequência de uma só vez. Para aumentar ainda mais a eficiência, o modelo de rascunho compartilha diretamente o estado de ativação e o cache KV do modelo alvo (que armazena o contexto histórico para evitar cálculos repetidos); para os modelos E2B e E4B na ponta, a equipe também introduziu técnicas de agrupamento na camada de embedding.
Atualmente, o modelo MTP foi totalmente open-soube sob a mesma licença Apache 2.0 do Gemma 4, e suporta nativamente frameworks de inferência populares como vLLM, SGLang e Ollama. Essa otimização de velocidade reduz significativamente a barreira de entrada, permitindo que desenvolvedores executem fluentemente modelos de 26B MoE e 31B densos em GPUs de consumo comum, além de suportar interações de IA em tempo real em dispositivos móveis com menor consumo de energia.
Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a
Isenção de responsabilidade.
Related Articles
O laboratório finlandês de IA QuTwo conclui a $29M ronda de Seed em $380M avaliação; a empresa anterior do fundador, Silo AI, foi vendida à AMD por 665 milhões de dólares
De acordo com Beating, a empresa finlandesa de IA QuTwo concluiu uma ronda de investimento seed de 25 milhões de euros (aproximadamente 29 milhões de dólares), com uma avaliação pós-money de 325 milhões de euros (aproximadamente 380 milhões de dólares). O fundador e presidente executivo Peter Sarlin já tinha fundado a Silo AI, que a AMD adquiriu por 665 milhões de dólares em 2024.
GateNews8m atrás
DeepSeek avaliada em $45B enquanto o Fundo Estatal de Semicondutores da China procura um investimento de referência
De acordo com a ChainCatcher, o fundo de investimento em semicondutores apoiado pelo Estado chinês está em negociações para liderar a ronda de Série A de financiamento da DeepSeek, com potencial para avaliar o laboratório de IA em cerca de 45 mil milhões de dólares. As negociações de financiamento estão em curso, segundo quatro pessoas familiarizadas com o
GateNews59m atrás
Pesquisa da Microsoft: apenas 13% dos colaboradores dizem ter falhado iniciativas de inovação no local de trabalho impulsionadas por IA devido a incentivos às empresas
De acordo com o relatório anual «Índice de Tendências do Trabalho», publicado pela Microsoft a 5 de maio, o relatório analisou vários biliões de sinais anónimos de produtividade do Microsoft 365 e recorreu a um inquérito a 20.000 colaboradores em vários mercados, incluindo os EUA, o Reino Unido, a Índia e o Japão. Os dados do relatório indicam que apenas 13% dos colaboradores afirmam que os seus empregadores atribuem recompensas quando as tentativas de melhorar o trabalho com IA não produzem os resultados esperados.
MarketWhisper1h atrás
A Meta está a desenvolver um assistente de IA chamado Hatch, em concorrência com a OpenClaw, com conclusão do teste interno até ao final de junho
De acordo com o Financial Times, a 5 de Maio, a Meta está a desenvolver um assistente de IA (Hatch) para o utilizador comum, inspirado no OpenClaw da OpenAI, com o objetivo de concluir testes internos até ao final de Junho; a Meta planeia, ao mesmo tempo, integrar uma ferramenta autónoma de compras baseada em agentes no serviço Instagram até ao quarto trimestre deste ano.
MarketWhisper1h atrás
A audiência do tribunal da OpenAI: Brockman depõe: Musk já disse que não ia fazer segurança e que as participações seriam de risco e com violência
De acordo com o “New York Post”, em 6 de maio, o CEO da OpenAI, Greg Brockman, depôs no dia 5 de maio no Tribunal Distrital Federal de Oakland, na Califórnia, revelando que, quando Musk se retirou do conselho de administração da OpenAI em 2018, proferiu um discurso para todos, dizendo que, ao impulsionar a IA na Tesla, “não vai gastar tempo em segurança”. Brockman também afirmou que, em 2017, houve negociações tensas com o cofundador da OpenAI sobre percentagens de participação.
MarketWhisper2h atrás