A OpenAI, a 7 de maio (hora dos EUA), anunciou três novos modelos de voz Realtime numa conferência para programadores: GPT-Realtime-2, GPT-Realtime-Translate e GPT-Realtime-Whisper, todos disponibilizados à comunidade de devs através da Realtime API. O anúncio oficial da OpenAI explica que o GPT-Realtime-2 é o primeiro modelo de voz com capacidade de raciocínio ao nível do GPT-5, conseguindo raciocinar em tempo real em conversas por voz, chamar ferramentas, tratar correções e manter o ritmo natural do diálogo.
GPT-Realtime-2: o context passa de 32K para 128K, com cinco níveis de intensidade de raciocínio ajustável
Principais atualizações do GPT-Realtime-2:
Janela de context: 32K passa para 128K tokens
Intensidade de raciocínio ajustável: minimal, low, medium, high, xhigh, em cinco níveis
Testes Big Bench Audio: raciocínio high com 96,6%, ante 81,4% no anterior GPT-Realtime-1.5
Instruções de aderência ao Audio MultiChallenge: xhigh com 48,5%, face a 34,7% no anterior
Um context maior e a possibilidade de ajustar a intensidade do raciocínio permitem que os programadores alternem entre “barato e rápido” e “pensamento profundo” consoante o cenário—para um serviço de apoio simples, usar o modo minimal para controlar custos, enquanto tarefas complexas são encaminhadas para xhigh para obter qualidade de raciocínio ao nível do GPT-5.
Em simultâneo, foram divulgados dois modelos dedicados: Translate para tradução entre línguas e Whisper para transcrição em tempo real
Nesta ronda, a divisão das três novas versões é a seguinte:
GPT-Realtime-Translate: tradução áudio multilingue em tempo real, com suporte a 70 línguas de entrada e 13 línguas de saída
GPT-Realtime-Whisper: transcrição em streaming com baixa latência, gerando texto à medida que a fala ocorre, indicado para legendas em tempo real, registos de reuniões e transcrições palavra a palavra de aulas
GPT-Realtime-2: agente completo para conversação, com capacidade de raciocínio, uso de ferramentas e execução de ações
Translate e Whisper são especializações de modelos orientadas para aplicações de voz específicas—com maior sensibilidade a latência e custos do que em conversas genéricas, a utilização de modelos separados pode otimizar os respetivos indicadores.
Preços: GPT-Realtime-2 custa 32 dólares por milhão de entradas e 64 dólares por milhão de saídas
Estrutura de preços dos três modelos:
GPT-Realtime-2: 32 dólares por milhão de entradas de voz, 0,40 dólares para entradas cached e 64 dólares de saída
GPT-Realtime-Translate: 0,034 dólares por minuto
GPT-Realtime-Whisper: 0,017 dólares por minuto
Eventos concretos a acompanhar mais tarde: a utilização efetiva do GPT-Realtime-2 em agentes de voz no ambiente de produção, o nível de cannibalization face aos modelos de voz GPT-4o existentes e as reações de concorrentes como a Anthropic e a Google.
Esta publicação sobre a OpenAI a lançar o GPT-Realtime-2: levar o raciocínio do GPT-5 para um agente de voz e aumentar o context para 128K surgiu pela primeira vez em Cadeia de Notícias ABMedia.
Related Articles
A SoftBank divulga resultados do ano fiscal completo, enquanto os investidores questionam o plano de financiamento da OpenAI nos EUA$60B
As ofertas de emprego em IA aumentam 50% à medida que a guerra pelo talento na Ásia transforma o emprego
Yu Wenhao, ex-investigador de IA da Tencent, junta-se à OpenAI como investigador de AGI no mês passado
A Anthropic está a considerar uma angariação de fundos de 50 mil milhões de dólares no verão, com uma avaliação pré-investimento de cerca de 900 mil milhões.
As acções da SanDisk disparam 430% com a procura de armazenamento para IA
Executivos da Microsoft duvidaram da OpenAI em 2017-2018, investiram $1B para impedir uma mudança para a Amazon