StepAudio 2,5 Realtime milik StepFun Mengungguli Lima Tolok Ukur AI Suara, Mengalahkan GPT Realtime 1,5

Laboratorium AI berbasis di Shanghai, StepFun, merilis StepAudio 2.5 Realtime minggu ini, sebuah model suara real-time end-to-end yang mendukung bahasa Mandarin dan Inggris. Model ini menempati peringkat teratas pada seluruh lima tolok ukur AI suara yang diuji pada April 2026, mengungguli OpenAI GPT Realtime 1.5 dan Gemini Live milik Google, menurut pengujian StepFun.

Pada tolok ukur pemahaman paralinguistik—yang mengukur persepsi fitur akustik seperti emosi dan laju berbicara pada skala 0–100—StepAudio meraih skor 82,18 dibanding 80,46 milik GPT Realtime 1.5 dan 58,05 milik Gemini Live. Dalam pengujian evaluasi manusia, StepAudio mencapai 80,41 dibanding 68,01 untuk GPT Realtime 1.5 dan 67,16 untuk Gemini Live. StepFun melatih model tersebut menggunakan dataset persona skala satu juta dengan reinforcement learning khusus roleplay untuk menjaga konsistensi karakter selama percakapan yang panjang.

Penafian: Informasi di halaman ini mungkin berasal dari sumber pihak ketiga dan hanya untuk referensi. Ini tidak mewakili pandangan atau pendapat Gate dan bukan merupakan nasihat keuangan, investasi, atau hukum. Perdagangan aset virtual melibatkan risiko tinggi. Mohon jangan hanya mengandalkan informasi di halaman ini saat membuat keputusan. Untuk detailnya, lihat Penafian.
Komentar
0/400
Tidak ada komentar