StepFun’s StepAudio 2.5 Realtime dẫn đầu năm bài kiểm tra AI giọng nói, vượt GPT Realtime 1.5

Phòng thí nghiệm AI có trụ sở tại Thượng Hải StepFun đã phát hành StepAudio 2.5 Realtime vào tuần này, một mô hình giọng nói thời gian thực đầu cuối hỗ trợ tiếng Trung và tiếng Anh. Theo thử nghiệm của StepFun, mô hình này đã dẫn đầu cả năm bài benchmark AI giọng nói được kiểm tra trong tháng 4/2026, vượt OpenAI's GPT Realtime 1.5 và Google's Gemini Live.

Ở bài benchmark hiểu ngôn ngữ cận kề—đo cảm nhận các đặc trưng âm thanh như cảm xúc và tốc độ nói trên thang 0–100—StepAudio đạt 82,18 so với GPT Realtime 1.5 là 80,46 và Gemini Live là 58,05. Trong thử nghiệm đánh giá bằng con người, StepAudio đạt 80,41 so với GPT Realtime 1.5 là 68,01 và Gemini Live là 67,16. StepFun đã huấn luyện mô hình trên bộ dữ liệu persona quy mô một triệu, kèm theo học tăng cường chuyên cho roleplay để duy trì tính nhất quán nhân vật trong các cuộc trò chuyện kéo dài.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ các nguồn bên thứ ba và chỉ mang tính chất tham khảo. Thông tin này không phản ánh quan điểm hoặc ý kiến của Gate và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Giao dịch tài sản ảo tiềm ẩn rủi ro cao. Vui lòng không chỉ dựa vào thông tin trên trang này khi đưa ra quyết định. Để biết thêm chi tiết, vui lòng xem Tuyên bố miễn trừ trách nhiệm.
Bình luận
0/400
Không có bình luận