Artificial Analysis merilis Index Agen Koding baru hari ini untuk mengevaluasi bagaimana model AI berperforma saat digabungkan dengan framework agen di berbagai tolok ukur utama, termasuk SWE-Bench-Pro-Hard-AA, Terminal-Bench v2, dan SWE-Atlas-QnA. Zhipu GLM-5.1 menempati peringkat pertama di antara model open-source dalam evaluasi, menunjukkan performa terdepan pada skenario agen koding di dunia nyata.
Related News
OpenAI meluncurkan program keamanan siber Daybreak, arsitektur tiga lapis GPT-5.5 melawan Anthropic Mythos
Panduan Lengkap Gemini 2026: Semua lini produk AI Google, opsi langganan, dan kebijakan privasi—sekilas semua
Stanford 推 Agent Island: Model AI di game bergenre Survivor melakukan pengkhianatan strategi dan saling mengeliminasi berdasarkan voting timbal balik