StepAudio 2,5 от StepFun в реальном времени занимает первое место в пяти тестах Voice AI, обгоняя GPT Realtime 1,5

Шанхайская AI-лаборатория StepFun выпустила StepAudio 2.5 Realtime на этой неделе — сквозную модель для реального времени голоса, поддерживающую китайский и английский языки. Модель заняла первое место по всем пяти протестированным в апреле 2026 голосовым AI-бенчмаркам, обойдя OpenAI GPT Realtime 1.5 и Google Gemini Live, согласно тестированию StepFun.

На бенчмарке понимания паралингвистики — измеряющем восприятие акустических признаков, таких как эмоции и скорость речи, по шкале 0–100 — StepAudio набрала 82,18 против 80,46 у GPT Realtime 1.5 и 58,05 у Gemini Live. В ходе тестирования по оценке людьми StepAudio достигла 80,41 по сравнению с 68,01 у GPT Realtime 1.5 и 67,16 у Gemini Live. StepFun обучила модель на персональном датасете масштаба в миллион с доработкой на основе подкрепляющего обучения под ролевые сценарии, чтобы сохранять согласованность персонажа во время длительных разговоров.

Дисклеймер: Информация на этой странице может быть получена из источников третьих сторон и предоставляется только для ознакомления. Она не отражает взгляды или мнения Gate и не является финансовой, инвестиционной или юридической рекомендацией. Торговля виртуальными активами связана с высоким риском. Пожалуйста, не основывайте свои решения исключительно на данных этой страницы. Подробнее смотрите в Дисклеймере.
комментарий
0/400
Нет комментариев