Шанхайская AI-лаборатория StepFun выпустила StepAudio 2.5 Realtime на этой неделе — сквозную модель для реального времени голоса, поддерживающую китайский и английский языки. Модель заняла первое место по всем пяти протестированным в апреле 2026 голосовым AI-бенчмаркам, обойдя OpenAI GPT Realtime 1.5 и Google Gemini Live, согласно тестированию StepFun.
На бенчмарке понимания паралингвистики — измеряющем восприятие акустических признаков, таких как эмоции и скорость речи, по шкале 0–100 — StepAudio набрала 82,18 против 80,46 у GPT Realtime 1.5 и 58,05 у Gemini Live. В ходе тестирования по оценке людьми StepAudio достигла 80,41 по сравнению с 68,01 у GPT Realtime 1.5 и 67,16 у Gemini Live. StepFun обучила модель на персональном датасете масштаба в миллион с доработкой на основе подкрепляющего обучения под ролевые сценарии, чтобы сохранять согласованность персонажа во время длительных разговоров.