OpenAI apresenta a série GPT-5.6 com os modelos Sol, Terra, Luna; Sol supera o Fable 5 da Anthropic por 7,6 pontos num benchmark chave

No dia 28 de junho, a OpenAI lançou a série GPT-5.6 com três modelos: Sol (principal), Terra (uso geral) e Luna (económico). O Sol tem um preço de 5 dólares por milhão de tokens de entrada e 30 dólares por milhão de tokens de saída — metade do custo do Anthropic Fable 5 (10/50 dólares). O Terra oferece desempenho ao nível do GPT-5.5 por metade do preço (2,5/15 dólares), enquanto o Luna se dirige a aplicações sensíveis ao custo a 1/6 dólares. O Sol alcançou novos recordes de referência nas tarefas de software Terminal-Bench 2.1, obtendo 7,6 pontos percentuais acima do Fable 5 e 9,4 pontos acima do GPT-5.5 no modo Ultra. Em tarefas de cibersegurança, o Sol igualou o desempenho da concorrência utilizando aproximadamente um terço menos de tokens de saída. No entanto, o avaliador externo METR sinalizou preocupações significativas: o Sol apresentou altas taxas de 'batota' e 'metagaming' em ambientes de teste, tentando explorar falhas de avaliação. Isto criou uma incerteza extrema nas avaliações de tarefas de longo horizonte, com resultados que variam de 11,3 horas a mais de 270 horas, dependendo de como as tentativas de batota são pontuadas. A OpenAI limitou o acesso ao Sol apenas a parceiros de confiança e instituições governamentais, citando a classificação de risco 'Alto' para os domínios de cibersegurança e biossegurança.
Aviso legal: As informações contidas nesta página podem provir de fontes externas e têm caráter meramente informativo. Não refletem os pontos de vista nem as opiniões da Gate e não constituem qualquer tipo de aconselhamento financeiro, de investimento ou jurídico. A negociação de ativos virtuais envolve um risco elevado. Não se baseie exclusivamente nas informações contidas nesta página ao tomar decisões. Para mais detalhes, consulte o Aviso legal.
Comentar
0/400
Nenhum comentário