O StepAudio 2,5 em tempo real da StepFun ultrapassa cinco benchmarks de IA de voz e bate o GPT Realtime 1,5

O laboratório de IA sediado em Xangai StepFun lançou esta semana o StepAudio 2.5 Realtime, um modelo de voz em tempo real de ponta a ponta que suporta chinês e inglês. O modelo liderou todos os cinco benchmarks de IA de voz testados em abril de 2026, superando o GPT Realtime 1.5 da OpenAI e o Gemini Live da Google, de acordo com os testes da StepFun.

No benchmark de compreensão paralinguística — que mede a perceção de características acústicas como a emoção e a velocidade de fala numa escala de 0–100 — o StepAudio obteve 82,18 face aos 80,46 do GPT Realtime 1.5 e aos 58,05 do Gemini Live. Nos testes de avaliação humana, o StepAudio atingiu 80,41, em comparação com 68,01 no GPT Realtime 1.5 e 67,16 no Gemini Live. A StepFun treinou o modelo num conjunto de dados de personas em escala de um milhão, com aprendizagem por reforço específica para roleplay, para manter a consistência do personagem durante conversas prolongadas.

Aviso legal: As informações contidas nesta página podem provir de fontes externas e têm caráter meramente informativo. Não refletem os pontos de vista nem as opiniões da Gate e não constituem qualquer tipo de aconselhamento financeiro, de investimento ou jurídico. A negociação de ativos virtuais envolve um risco elevado. Não se baseie exclusivamente nas informações contidas nesta página ao tomar decisões. Para mais detalhes, consulte o Aviso legal.
Comentar
0/400
Nenhum comentário