Шанхайська AI-лабораторія StepFun цього тижня випустила StepAudio 2.5 Realtime — наскрізну модель голосу в реальному часі, що підтримує китайську та англійську. За результатами тестування StepFun модель посіла перші місця на всіх п’яти голосових AI-бенчмарках, перевірених у квітні 2026 року, випередивши OpenAI GPT Realtime 1.5 та Google Gemini Live.

На бенчмарку паролінгвістичного розуміння — він оцінює сприйняття акустичних ознак, як-от емоція та швидкість мовлення, за шкалою 0–100 — StepAudio набрала 82,18 проти 80,46 у GPT Realtime 1.5 та 58,05 у Gemini Live. У тестах оцінювання людьми StepAudio досягла 80,41 проти 68,01 для GPT Realtime 1.5 і 67,16 для Gemini Live. StepFun навчила модель на датасеті персонажів у масштабі 1 млн із рольовими підсиленнями та навчанням за підкріпленням, специфічним для рольових сценаріїв, щоб підтримувати узгодженість персонажа під час тривалих розмов.

Переглянути джерело

Застереження: інформація на цій сторінці може походити зі сторонніх джерел і надається виключно для ознайомлення. Вона не відображає позицію чи думку Gate і не є фінансовою, інвестиційною чи юридичною консультацією. Торгівля віртуальними активами пов’язана з високим ризиком. Будь ласка, не покладайтеся лише на інформацію з цієї сторінки під час прийняття рішень. Детальніше дивіться у Застереженні.

Пов’язані новини

05-26 14:18

Meituan запускає API доставки «Skill» для сторонніх AI-асистентів у травні

05-26 08:00

Tiangong AI випускає агентну модель SkyClaw-v1.0 із підтримкою контексту на 1 млн токенів 26 травня

05-26 06:04

B.AI запускає Gemini 3.5 Flash у вебчаті, розширюючи доступ до двох API та чат-каналів

05-25 07:41

Маск планує зробити відкритим вихідний код базової моделі Grok 4.2 із 0,5 трлн параметрів до кінця 2026 року

05-25 02:34

Глобальні звернення до моделей ШІ досягли 289 трильйонів токенів цього тижня, зростання на 7,4%; DeepSeek-V4-Flash стрімко піднявся на 66% і очолив рейтинги

Поглиблений аналіз