StepFun’s StepAudio 2.5 แบบเรียลไทม์ ทำผลงานติดอันดับสูงสุดในบेंช์มาร์ก Voice AI 5 รายการ เอาชนะ GPT Realtime 1.5

สถาบันวิจัย AI ในเซี่ยงไฮ้ StepFun เปิดตัว StepAudio 2.5 Realtime สัปดาห์นี้ ซึ่งเป็นโมเดลเสียงเรียลไทม์แบบครบวงจร รองรับทั้งภาษาจีนและภาษาอังกฤษ โดยโมเดลนี้ทำอันดับ 1 ในเกณฑ์วัดเสียง AI ทั้ง 5 รายการที่ทดสอบในเดือนเมษายน 2026 แซง OpenAI's GPT Realtime 1.5 และ Google's Gemini Live ตามการทดสอบของ StepFun

ในการทดสอบด้านความเข้าใจเชิงพาราลิงกวิสติก—ซึ่งวัดการรับรู้คุณลักษณะทางเสียง เช่น อารมณ์ และอัตราการพูด ในสเกล 0–100—StepAudio ทำคะแนนได้ 82.18 เทียบกับ GPT Realtime 1.5 ที่ 80.46 และ Gemini Live ที่ 58.05 ในการทดสอบด้วยการประเมินโดยมนุษย์ StepAudio ได้ 80.41 ขณะที่ GPT Realtime 1.5 ได้ 68.01 และ Gemini Live ได้ 67.16 StepFun ฝึกโมเดลด้วยชุดข้อมูลตัวตนขนาดระดับล้าน และใช้การเรียนรู้แบบเสริมแรงเฉพาะสำหรับการสวมบทบาท เพื่อรักษาความสอดคล้องของตัวละครระหว่างการสนทนาแบบยาว

news.article.disclaimer
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น