StepAudio 2.5 від StepFun виходить у лідери за п’ятьма бенчмарками Voice AI у режимі реального часу, обганяючи GPT Realtime 1.5

Шанхайська AI-лабораторія StepFun цього тижня випустила StepAudio 2.5 Realtime — наскрізну модель голосу в реальному часі, що підтримує китайську та англійську. За результатами тестування StepFun модель посіла перші місця на всіх п’яти голосових AI-бенчмарках, перевірених у квітні 2026 року, випередивши OpenAI GPT Realtime 1.5 та Google Gemini Live.

На бенчмарку паролінгвістичного розуміння — він оцінює сприйняття акустичних ознак, як-от емоція та швидкість мовлення, за шкалою 0–100 — StepAudio набрала 82,18 проти 80,46 у GPT Realtime 1.5 та 58,05 у Gemini Live. У тестах оцінювання людьми StepAudio досягла 80,41 проти 68,01 для GPT Realtime 1.5 і 67,16 для Gemini Live. StepFun навчила модель на датасеті персонажів у масштабі 1 млн із рольовими підсиленнями та навчанням за підкріпленням, специфічним для рольових сценаріїв, щоб підтримувати узгодженість персонажа під час тривалих розмов.

Застереження: інформація на цій сторінці може походити зі сторонніх джерел і надається виключно для ознайомлення. Вона не відображає позицію чи думку Gate і не є фінансовою, інвестиційною чи юридичною консультацією. Торгівля віртуальними активами пов’язана з високим ризиком. Будь ласка, не покладайтеся лише на інформацію з цієї сторінки під час прийняття рішень. Детальніше дивіться у Застереженні.
Прокоментувати
0/400
Немає коментарів