El laboratorio de IA con sede en Shanghái StepFun lanzó esta semana StepAudio 2.5 Realtime, un modelo de voz en tiempo real de extremo a extremo que admite chino e inglés. El modelo encabezó los cinco benchmarks de voz con IA probados en abril de 2026, superando a GPT Realtime 1.5 de OpenAI y a Gemini Live de Google, según las pruebas de StepFun.
En el benchmark de comprensión paralingüística—que mide la percepción de rasgos acústicos como la emoción y la velocidad al hablar en una escala de 0–100—StepAudio obtuvo 82,18 frente a 80,46 de GPT Realtime 1.5 y 58,05 de Gemini Live. En pruebas de evaluación humana, StepAudio logró 80,41 frente a 68,01 para GPT Realtime 1.5 y 67,16 para Gemini Live. StepFun entrenó el modelo con un conjunto de datos de personalidades a escala de un millón, con aprendizaje por refuerzo específico para roleplay para mantener la coherencia del personaje durante conversaciones prolongadas.