A OpenAI lança o GPT-Realtime-2: leva a inferência do GPT-5 para agentes de voz e eleva o contexto para 128K

A OpenAI, a 7 de maio (hora dos EUA), anunciou três novos modelos de voz Realtime numa conferência para programadores: GPT-Realtime-2, GPT-Realtime-Translate e GPT-Realtime-Whisper, todos disponibilizados à comunidade de devs através da Realtime API. O anúncio oficial da OpenAI explica que o GPT-Realtime-2 é o primeiro modelo de voz com capacidade de raciocínio ao nível do GPT-5, conseguindo raciocinar em tempo real em conversas por voz, chamar ferramentas, tratar correções e manter o ritmo natural do diálogo.

GPT-Realtime-2: o context passa de 32K para 128K, com cinco níveis de intensidade de raciocínio ajustável

Principais atualizações do GPT-Realtime-2:

Janela de context: 32K passa para 128K tokens

Intensidade de raciocínio ajustável: minimal, low, medium, high, xhigh, em cinco níveis

Testes Big Bench Audio: raciocínio high com 96,6%, ante 81,4% no anterior GPT-Realtime-1.5

Instruções de aderência ao Audio MultiChallenge: xhigh com 48,5%, face a 34,7% no anterior

Um context maior e a possibilidade de ajustar a intensidade do raciocínio permitem que os programadores alternem entre “barato e rápido” e “pensamento profundo” consoante o cenário—para um serviço de apoio simples, usar o modo minimal para controlar custos, enquanto tarefas complexas são encaminhadas para xhigh para obter qualidade de raciocínio ao nível do GPT-5.

Em simultâneo, foram divulgados dois modelos dedicados: Translate para tradução entre línguas e Whisper para transcrição em tempo real

Nesta ronda, a divisão das três novas versões é a seguinte:

GPT-Realtime-Translate: tradução áudio multilingue em tempo real, com suporte a 70 línguas de entrada e 13 línguas de saída

GPT-Realtime-Whisper: transcrição em streaming com baixa latência, gerando texto à medida que a fala ocorre, indicado para legendas em tempo real, registos de reuniões e transcrições palavra a palavra de aulas

GPT-Realtime-2: agente completo para conversação, com capacidade de raciocínio, uso de ferramentas e execução de ações

Translate e Whisper são especializações de modelos orientadas para aplicações de voz específicas—com maior sensibilidade a latência e custos do que em conversas genéricas, a utilização de modelos separados pode otimizar os respetivos indicadores.

Preços: GPT-Realtime-2 custa 32 dólares por milhão de entradas e 64 dólares por milhão de saídas

Estrutura de preços dos três modelos:

GPT-Realtime-2: 32 dólares por milhão de entradas de voz, 0,40 dólares para entradas cached e 64 dólares de saída

GPT-Realtime-Translate: 0,034 dólares por minuto

GPT-Realtime-Whisper: 0,017 dólares por minuto

Eventos concretos a acompanhar mais tarde: a utilização efetiva do GPT-Realtime-2 em agentes de voz no ambiente de produção, o nível de cannibalization face aos modelos de voz GPT-4o existentes e as reações de concorrentes como a Anthropic e a Google.

Esta publicação sobre a OpenAI a lançar o GPT-Realtime-2: levar o raciocínio do GPT-5 para um agente de voz e aumentar o context para 128K surgiu pela primeira vez em Cadeia de Notícias ABMedia.

Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.

Related Articles

A SoftBank divulga resultados do ano fiscal completo, enquanto os investidores questionam o plano de financiamento da OpenAI nos EUA$60B

De acordo com a Bloomberg, a SoftBank Group divulgou os resultados do ano fiscal completo relativo ao ano terminado em Março, enquanto os investidores analisam como a empresa vai financiar o seu investimento planeado de 60 mil milhões de USD na OpenAI. A empresa registou um lucro líquido de aproximadamente 3,3 biliões de ienes (20,8 mil milhões de USD) para o ano fiscal, ajudado por

GateNews1h atrás

As ofertas de emprego em IA aumentam 50% à medida que a guerra pelo talento na Ásia transforma o emprego

Disrupção do talento em IA em toda a Ásia Os anúncios de emprego relacionados com IA aumentaram 50% em termos interanuais, mesmo enquanto o mercado de trabalho mais amplo se mantém estável, segundo Peter Bithos, diretor comercial-chefe da Seek, que discutiu a mudança do panorama laboral num episódio recente de podcast centrado em como

CryptoFrontier1h atrás

Yu Wenhao, ex-investigador de IA da Tencent, junta-se à OpenAI como investigador de AGI no mês passado

De acordo com Beating, Yu Wenhao, um antigo investigador sénior do laboratório de IA da Tencent em Seattle, juntou-se à OpenAI no mês passado como Investigador de Pesquisa em AGI. Ele confirmou no LinkedIn que irá contribuir para moldar os próximos modelos de IA e avançar no desenvolvimento de AGI. Yu tem um doutoramento em Ciências da Computação na

GateNews1h atrás

A Anthropic está a considerar uma angariação de fundos de 50 mil milhões de dólares no verão, com uma avaliação pré-investimento de cerca de 900 mil milhões.

De acordo com o jornal britânico «Financial Times», a 8 de maio, o programador do Claude, a Anthropic, está a considerar avançar no verão com uma nova ronda de financiamento, planeando angariar cerca de 50 mil milhões de dólares, com uma avaliação pré-investimento de cerca de 900 mil milhões de dólares; após a conclusão, a avaliação deverá ficar perto de 1 bilião de dólares. O «Financial Times», citando cinco fontes com conhecimento do assunto, afirma que as negociações do financiamento ainda estão numa fase inicial, que a Anthropic ainda não aceitou qualquer oferta e que a operação deverá ficar concluída no prazo de dois meses.

MarketWhisper1h atrás

As acções da SanDisk disparam 430% com a procura de armazenamento para IA

A SanDisk, fabricante norte-americana de memórias flash e SSDs saída da Western Digital no ano passado, encerrou a 6 de maio a 1.409,98 USD, com as ações a dispararem quase 430% este ano à medida que os investidores apostam na procura crescente por armazenamento para servidores de IA, segundo o Chosun Daily. Contratos de Fornecimento a Longo Prazo Garantem Receitas A empresa

CryptoFrontier2h atrás

Executivos da Microsoft duvidaram da OpenAI em 2017-2018, investiram $1B para impedir uma mudança para a Amazon

De acordo com os processos judiciais acompanhados pela Beating News, e-mails de mais de uma dúzia de executivos da Microsoft, incluindo o CEO Satya Nadella, revelaram entre 2017 e 2018 a existência de ceticismo interno sobre a OpenAI antes do investimento de 1 mil milhões de dólares da empresa. Nadella consultou colegas sobre o apoio ao investimento de 300

GateNews2h atrás
Comentar
0/400
Nenhum comentário