Шанхайська AI-лабораторія StepFun цього тижня випустила StepAudio 2.5 Realtime — наскрізну модель голосу в реальному часі, що підтримує китайську та англійську. За результатами тестування StepFun модель посіла перші місця на всіх п’яти голосових AI-бенчмарках, перевірених у квітні 2026 року, випередивши OpenAI GPT Realtime 1.5 та Google Gemini Live.
На бенчмарку паролінгвістичного розуміння — він оцінює сприйняття акустичних ознак, як-от емоція та швидкість мовлення, за шкалою 0–100 — StepAudio набрала 82,18 проти 80,46 у GPT Realtime 1.5 та 58,05 у Gemini Live. У тестах оцінювання людьми StepAudio досягла 80,41 проти 68,01 для GPT Realtime 1.5 і 67,16 для Gemini Live. StepFun навчила модель на датасеті персонажів у масштабі 1 млн із рольовими підсиленнями та навчанням за підкріпленням, специфічним для рольових сценаріїв, щоб підтримувати узгодженість персонажа під час тривалих розмов.