上海的 AI 實驗室 StepFun 本週發布 StepAudio 2.5 Realtime,這是一個端到端的即時語音模型,支援中文與英文。根據 StepFun 的測試,該模型在 2026 年 4 月接受測試的五項語音 AI 指標中均位居第一,表現優於 OpenAI 的 GPT Realtime 1.5 以及 Google 的 Gemini Live。
在副語言理解基準上——以 0–100 分量表衡量情緒、說話速率等聲學特徵的感知——StepAudio 的分數為 82.18,而 GPT Realtime 1.5 為 80.46、Gemini Live 為 58.05。在人類評估測試中,StepAudio 達到 80.41,而 GPT Realtime 1.5 為 68.01、Gemini Live 為 67.16。StepFun 以百萬級的角色人設資料集訓練該模型,並採用針對角色扮演的強化學習,以在長時間對話中維持角色一致性。