Laboratorium AI berbasis di Shanghai, StepFun, merilis StepAudio 2.5 Realtime minggu ini, sebuah model suara real-time end-to-end yang mendukung bahasa Mandarin dan Inggris. Model ini menempati peringkat teratas pada seluruh lima tolok ukur AI suara yang diuji pada April 2026, mengungguli OpenAI GPT Realtime 1.5 dan Gemini Live milik Google, menurut pengujian StepFun.
Pada tolok ukur pemahaman paralinguistik—yang mengukur persepsi fitur akustik seperti emosi dan laju berbicara pada skala 0–100—StepAudio meraih skor 82,18 dibanding 80,46 milik GPT Realtime 1.5 dan 58,05 milik Gemini Live. Dalam pengujian evaluasi manusia, StepAudio mencapai 80,41 dibanding 68,01 untuk GPT Realtime 1.5 dan 67,16 untuk Gemini Live. StepFun melatih model tersebut menggunakan dataset persona skala satu juta dengan reinforcement learning khusus roleplay untuk menjaga konsistensi karakter selama percakapan yang panjang.