A Artificial Analysis lançou hoje um novo Coding Agent Index para avaliar o desempenho dos modelos de IA quando combinados com frameworks de agentes em benchmarks-chave, incluindo SWE-Bench-Pro-Hard-AA, Terminal-Bench v2 e SWE-Atlas-QnA. A Zhipu GLM-5.1 ficou em primeiro lugar entre os modelos open-source na avaliação, demonstrando um desempenho de ponta em cenários reais de agentes de programação.
Related News
A OpenAI lança o seu plano de cibersegurança Daybreak, com uma arquitectura em três camadas do GPT-5,5 para fazer frente à Anthropic Mythos
Guia completo da Gemini em 2026: toda a linha de produtos de IA da Google, opções de subscrição e política de privacidade, tudo de uma vez
Stanford apresenta Agent Island: modelos de IA traem-se e excluem-se em pares no jogo de estratégia estilo Survivor