StepFun 的 StepAudio 2.5 即時版在五項語音 AI 指標中登頂,超越 GPT Realtime 1.5

上海的 AI 實驗室 StepFun 本週發布 StepAudio 2.5 Realtime,這是一個端到端的即時語音模型,支援中文與英文。根據 StepFun 的測試,該模型在 2026 年 4 月接受測試的五項語音 AI 指標中均位居第一,表現優於 OpenAI 的 GPT Realtime 1.5 以及 Google 的 Gemini Live。

在副語言理解基準上——以 0–100 分量表衡量情緒、說話速率等聲學特徵的感知——StepAudio 的分數為 82.18,而 GPT Realtime 1.5 為 80.46、Gemini Live 為 58.05。在人類評估測試中,StepAudio 達到 80.41,而 GPT Realtime 1.5 為 68.01、Gemini Live 為 67.16。StepFun 以百萬級的角色人設資料集訓練該模型,並採用針對角色扮演的強化學習,以在長時間對話中維持角色一致性。

免責聲明:本頁面資訊可能來自第三方來源,僅供參考,不代表 Gate 的立場或觀點,亦不構成任何財務、投資或法律建議。虛擬資產交易具有高風險,請勿僅依賴本頁資訊作出決策。詳情請參閱 免責聲明
回覆
0/400
暫無回覆