D’après Beating, Thinking Machines, le laboratoire fondé par l’ancien CTO d’OpenAI Mira Murati, a publié un aperçu de recherche de son modèle Interaction, doté d’un traitement natif en temps réel de l’audio et de la vidéo avec des micro-tours de réponse de 200 millisecondes. Le modèle permet d’écouter, de regarder et de parler simultanément tout en prenant en charge les interruptions en temps réel de l’utilisateur.
Le modèle TML-Interaction-Small utilise une architecture MoE de 276 milliards de paramètres, avec 12 milliards de paramètres activés par inférence. Des données officielles indiquent une latence de prise de parole tour-par-tour de 0,40 seconde et un score FD-bench V1.5 de 77,8, les deux surpassant GPT-Realtime-2.0 et Gemini 3.1 Flash Live. Un accès limité à l’aperçu est prévu pour les prochains mois.
Related News
OpenAI suit-il aussi la voie de Palantir, avec des conseillers ? Investit 4 milliards pour créer une entreprise indépendante et envoie un FDE dans les entreprises pour une intégration approfondie des flux de travail d’IA
OpenAI lance une filiale de déploiement de 4 milliards de dollars : rachète Tomoro
Les employés d’OpenAI vendent des actions d’une valeur de 6,6 milliards de dollars, avec un gain moyen de 11 millions de dollars par personne