Шанхайская AI-лаборатория StepFun выпустила StepAudio 2.5 Realtime на этой неделе — сквозную модель для реального времени голоса, поддерживающую китайский и английский языки. Модель заняла первое место по всем пяти протестированным в апреле 2026 голосовым AI-бенчмаркам, обойдя OpenAI GPT Realtime 1.5 и Google Gemini Live, согласно тестированию StepFun.

На бенчмарке понимания паралингвистики — измеряющем восприятие акустических признаков, таких как эмоции и скорость речи, по шкале 0–100 — StepAudio набрала 82,18 против 80,46 у GPT Realtime 1.5 и 58,05 у Gemini Live. В ходе тестирования по оценке людьми StepAudio достигла 80,41 по сравнению с 68,01 у GPT Realtime 1.5 и 67,16 у Gemini Live. StepFun обучила модель на персональном датасете масштаба в миллион с доработкой на основе подкрепляющего обучения под ролевые сценарии, чтобы сохранять согласованность персонажа во время длительных разговоров.

Посмотреть источник

Дисклеймер: Информация на этой странице может быть получена из источников третьих сторон и предоставляется только для ознакомления. Она не отражает взгляды или мнения Gate и не является финансовой, инвестиционной или юридической рекомендацией. Торговля виртуальными активами связана с высоким риском. Пожалуйста, не основывайте свои решения исключительно на данных этой страницы. Подробнее смотрите в Дисклеймере.

Связанные новости

05-26 14:18

Meituan запускает API доставки «Skill» для сторонних ИИ-ассистентов в мае

05-26 08:00

Tiangong AI выпустила агентную модель SkyClaw-v1.0 с поддержкой контекста на 1 млн токенов 26 мая

05-26 06:04

B.AI запускает Gemini 3.5 Flash в веб-чате, расширяя доступ к двум API и чат-каналам

05-25 07:41

Маск планирует открыть исходный код базовой модели Grok 4.2 с 0,5 трлн параметров к концу 2026 года

05-25 02:34

Еженедельные глобальные запросы к ИИ-моделям достигли 289 триллионов токенов, рост на 7,4%; DeepSeek-V4-Flash взлетает на 66% и выходит на лидирующие позиции

Детальный анализ