สถาบันวิจัย AI ในเซี่ยงไฮ้ StepFun เปิดตัว StepAudio 2.5 Realtime สัปดาห์นี้ ซึ่งเป็นโมเดลเสียงเรียลไทม์แบบครบวงจร รองรับทั้งภาษาจีนและภาษาอังกฤษ โดยโมเดลนี้ทำอันดับ 1 ในเกณฑ์วัดเสียง AI ทั้ง 5 รายการที่ทดสอบในเดือนเมษายน 2026 แซง OpenAI's GPT Realtime 1.5 และ Google's Gemini Live ตามการทดสอบของ StepFun
ในการทดสอบด้านความเข้าใจเชิงพาราลิงกวิสติก—ซึ่งวัดการรับรู้คุณลักษณะทางเสียง เช่น อารมณ์ และอัตราการพูด ในสเกล 0–100—StepAudio ทำคะแนนได้ 82.18 เทียบกับ GPT Realtime 1.5 ที่ 80.46 และ Gemini Live ที่ 58.05 ในการทดสอบด้วยการประเมินโดยมนุษย์ StepAudio ได้ 80.41 ขณะที่ GPT Realtime 1.5 ได้ 68.01 และ Gemini Live ได้ 67.16 StepFun ฝึกโมเดลด้วยชุดข้อมูลตัวตนขนาดระดับล้าน และใช้การเรียนรู้แบบเสริมแรงเฉพาะสำหรับการสวมบทบาท เพื่อรักษาความสอดคล้องของตัวละครระหว่างการสนทนาแบบยาว