Thinking Machines lança um modelo de interação com resposta de 200 ms e supera o GPT-Realtime-2.0

De acordo com a Beating, Thinking Machines, o laboratório fundado pela ex-CTO da OpenAI Mira Murati, lançou uma prévia de pesquisa de seu modelo Interaction, com processamento nativo em tempo real de áudio e vídeo e micro-respostas de 200 milissegundos. O modelo permite ouvir, ver e falar simultaneamente, com suporte a interrupções em tempo real por parte do usuário.

O modelo TML-Interaction-Small usa uma arquitetura MoE de 276 bilhões de parâmetros, com 12 bilhões de parâmetros ativados por inferência. Os dados oficiais mostram uma latência de alternância de turnos de fala de 0,40 segundos e uma pontuação FD-bench V1.5 de 77,8, ambas superando GPT-Realtime-2.0 e Gemini 3.1 Flash Live. Acesso limitado à prévia está planejado para os próximos meses.

Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o Aviso Legal.
Comentário
0/400
Sem comentários