Fable 5 พลาดทุกงานที่ยากที่สุดในการสอบ UC Berkeley ALE ฉบับนี้ ใช้ต้นทุนมากกว่าคู่แข่ง 4-12 เท่า

ตามรายงานของ UC Berkeley RDI ผลการประเมิน Agents' Last Exam (ALE) ล่าสุดที่เผยแพร่ในสัปดาห์นี้แสดงอัตราความสำเร็จ 0% สำหรับงานที่ยากที่สุดซึ่งต้องใช้การให้เหตุผลอย่างต่อเนื่องและความเชี่ยวชาญระดับลึกในบรรดาตัวแทน AI ทุกตัวที่ทดสอบ รวมถึง Fable 5 ที่เพิ่งเปิดตัว ในต้นทุน API ต่อรายการงาน Fable 5 เรียกเก็บ 15.70 ดอลลาร์—สูงกว่า GPT-5.5 ที่ 3.80 ดอลลาร์ถึง 4 เท่า และสูงกว่า Composer 2.5 ที่ 1.33 ดอลลาร์ถึง 12 เท่า การประเมินครอบคลุม 55 สายอาชีพ โดยมีมากกว่า 1,500 งานที่ผู้เชี่ยวชาญยืนยันแล้ว และพบว่าโดยทั่วไปตัวแทนมักล้มเหลวโดยประกาศความสำเร็จก่อนกำหนดโดยไม่ตรวจสอบผลลัพธ์อย่างถูกต้อง
news.article.disclaimer
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น