De acordo com Beating, Thinking Machines, o laboratório fundado pela ex-CTO da OpenAI Mira Murati, lançou uma pré-visualização de pesquisa do seu modelo Interaction, com processamento nativo em áudio e vídeo em tempo real, com respostas micro-turn de 200 milissegundos. O modelo permite ouvir, ver e falar em simultâneo, ao mesmo tempo que suporta interrupções em tempo real por parte do utilizador.
O modelo TML-Interaction-Small utiliza uma arquitetura MoE com 276 mil milhões de parâmetros, com 12 mil milhões de parâmetros ativados por inferência. Os dados oficiais mostram uma latência de alternância de turnos de fala de 0,40 segundos e uma pontuação FD-bench V1.5 de 77,8, ambas a exceder GPT-Realtime-2.0 e Gemini 3.1 Flash Live. Está prevista uma disponibilização limitada da pré-visualização para os próximos meses.
Related News
A OpenAI segue um modelo de consultoria à Palantir? Investe 4 mil milhões para criar uma empresa independente, enviando a FDE para uma integração profunda dos fluxos de trabalho de IA nas empresas
A OpenAI anuncia um investimento de 4 mil milhões de dólares na empresa de implementação: adquire a Tomoro
Funcionários da OpenAI vendem ações no valor de 6,6 mil milhões de dólares, com um lucro médio de 11 milhões de dólares por pessoa