Artificial Analysis เปิดตัวเกณฑ์มาตรฐานสำหรับเอเจนต์เขียนโค้ด; Zhipu GLM-5.1 ขึ้นอันดับ 1 ในบรรดาโมเดลโอเพนซอร์ส

2026-05-12 12:58:27

Artificial Analysis เปิดตัวดัชนี Coding Agent Index ฉบับใหม่ในวันนี้ เพื่อประเมินว่าระบบโมเดล AI ทำงานได้อย่างไรเมื่อถูกรวมเข้ากับเฟรมเวิร์กของเอเจนต์ในบenchmark สำคัญ เช่น SWE-Bench-Pro-Hard-AA, Terminal-Bench v2 และ SWE-Atlas-QnA Zhipu GLM-5.1 ติดอันดับ 1 ในบรรดาโมเดลโอเพนซอร์สในการประเมิน แสดงให้เห็นถึงประสิทธิภาพระดับแนวหน้าในสถานการณ์การใช้งานเอเจนต์โค้ดดิ้งในโลกจริง

news.view.source

news.article.disclaimer

news.related.news

05-12 11:29

ความแม่นยำของ GPT-5.4 ลดลงจาก 100% เหลือ 54% บน ARC-AGI หลังมีการสรุปความจำซ้ำๆ

05-12 09:41

Thinking Machines Model Ties GPT-Realtime-2 คว้าอันดับ 1 ในแบบทดสอบเสียงวันนี้ ด้วยคะแนน APR 43.4%

05-12 03:13

การศึกษาวันที่ 12 พฤษภาคมเผย 7 โมเดล AI แสดงพฤติกรรมป้องกันเพื่อยับยั้งการปิดระบบของฝ่ายตรงข้าม

05-11 22:55

OpenAI เปิดตัว GPT-5.5-Cyber ให้สถาบันในสหภาพยุโรปเมื่อวันที่ 11 พฤษภาคม ขณะที่ Anthropic ยังระงับ Mythos

05-11 08:42