Claude Fable 5 กลับมาให้บริการอีกครั้งในวันที่ 1 กรกฎาคม ทำให้เกิดการประเมินประสิทธิภาพที่ขัดแย้งกันจากแพลตฟอร์มวัดประสิทธิภาพ AI สองแห่ง BridgeBench รายงานว่าคะแนนการดีบักลดลงจาก 86.2 เหลือ 25.9 ขณะที่ Arena.AI พบว่าประสิทธิภาพส่วนใหญ่ไม่เปลี่ยนแปลงผ่านคะแนนโหวตแบบไม่เปิดเผยตัวจากมนุษย์หลายพันครั้ง ความแตกต่างนี้เกิดจากตัวจำแนกความปลอดภัยใหม่ของ Anthropic ที่จัดเส้นทางงานเขียนโค้ดส่วนใหญ่ไปยัง Claude Opus 4.8 แทนที่จะเป็นการลดลงของความสามารถของโมเดลจริง ตามการวิเคราะห์ที่เผยแพร่เมื่อวันที่ 2 กรกฎาคม ตัวจำแนกถูกนำมาใช้เป็นเงื่อนไขในการคืนสถานะหลังจากนักวิจัย Amazon สาธิตเทคนิคการเจลเบรกในเดือนมิถุนายน ซึ่งกระตุ้นให้รัฐบาลสหรัฐฯ เข้าแทรกแซงด้วยเหตุผลด้านความมั่นคงของชาติ
BridgeMind รันชุดทดสอบการเขียนโค้ดทั้งหมดกับ Fable 5 เวอร์ชันวันที่ 1 กรกฎาคมในวันที่มันกลับมา BridgeBench ทดสอบงานเขียนโค้ดในโลกจริงในหมวดต่างๆ รวมถึงการดีบัก การปรับโครงสร้างโค้ด และการต้านทานการหลอน โดยให้คะแนน 0–100 ตามที่โมเดลทำงานในแต่ละหมวดได้ดีเพียงใด การดีบักลดลงจาก 86.2 เหลือ 25.9 การปรับโครงสร้างโค้ดจาก 73.6 เหลือ 38.4 และการต้านทานการหลอนจาก 75.9 เหลือ 61.7
จากงานดีบัก TypeScript 12 งาน มีเพียงสามงานเท่านั้นที่ไปถึง Fable 5 ส่วนที่เหลืออีกเก้างานถูกสกัดกั้นโดยตัวจำแนกความปลอดภัยใหม่ของ Anthropic และเปลี่ยนเส้นทางไปยัง Claude Opus 4.8 BridgeBench ให้คะแนนทุกการสำรองเป็นศูนย์ เนื่องจากโมเดลที่ตอบไม่ใช่โมเดลที่กำลังถูกประเมิน ตัวจำแนกถูกฝึกให้บล็อกเทคนิคการเจลเบรกที่ Amazon รายงาน—เทคนิคที่ทำให้ Fable 5 ระบุและสาธิตช่องโหว่ของซอฟต์แวร์ การดีบัก TypeScript ดูเหมือนงานด้านความปลอดภัยสำหรับตัวจำแนกมากพอจนการสำรองเกิดขึ้นอย่างต่อเนื่อง
Arena.AI รันคำถามเดียวกันผ่านมุมมองที่แตกต่าง แพลตฟอร์มรวบรวมคะแนนโหวตแบบไม่เปิดเผยตัวจากมนุษย์หลายพันครั้งในหลายหมวด—ข้อความ ภาพ เอกสาร โค้ด และเอเจนต์—และจัดอันดับโมเดลโดยใช้คะแนน Elo เมื่อสองโมเดลเผชิญหน้ากันแบบไม่เปิดเผยตัวและมนุษย์เลือกผู้ชนะ คะแนนจะสะท้อนถึงคุณภาพที่รับรู้ได้จริง ไม่ใช่การจัดเส้นทางโครงสร้างพื้นฐาน
การเปรียบเทียบก่อนและหลังแสดงให้เห็นว่า Fable 5 ยังคงรักษาตำแหน่งไว้ได้เป็นส่วนใหญ่ โค้ดฟร้อนต์เอนด์ลดลงจาก 1650 เหลือ 1623 Elo—ซึ่ง Arena ระบุว่าอยู่ในช่วงความเชื่อมั่นเมื่อข้อมูลยังคงสะสมอยู่ ประสิทธิภาพด้านเอกสารดีขึ้น 34 จุด ข้อความระดับผู้เชี่ยวชาญเพิ่มขึ้น 25 จุด การเขียนเชิงสร้างสรรค์เพิ่มขึ้นเล็กน้อย 9 จุด หมวดที่ลดลง—การเขียนโค้ดที่ -18 พรอมต์ที่ยากที่ -3—คือจุดที่ตัวจำแนกมีแนวโน้มสูงที่สุดที่จะสกัดกั้นพรอมต์ก่อนที่ Fable จะตอบ
ผู้ใช้ทั่วไปที่ทำงานเขียนเชิงสร้างสรรค์ วิเคราะห์เอกสาร วิจัย และคำค้นหาข้อความระดับผู้เชี่ยวชาญจะสังเกตเห็นความแตกต่างเพียงเล็กน้อยหรือไม่มีเลย เหล่านี้คือหมวดที่ Arena.AI แสดงประสิทธิภาพที่คงที่หรือดีขึ้น นักเขียน นักวิจัย และนักวิเคราะห์จะได้รับ Fable 5 ตามที่คาดหวัง
ใครก็ตามที่ทำงานในด้านที่เกี่ยวข้องกับความปลอดภัย—การเขียนโค้ดจัดการหน่วยความจำ สิ่งใดก็ตามที่แตะคำเช่น vulnerability, exploit, hook หรือแม้แต่ fix—จะเจอการสำรองเป็นประจำ ช่องว่างระหว่างการล่มสลายของ BridgeBench และความเสถียรของ Arena ขึ้นอยู่กับประเภทงาน BridgeBench โหลดชุดทดสอบด้วยพรอมต์ประเภทการซ่อมแซมโค้ดและการดีบักที่กระตุ้นตัวจำแนกใหม่พอดี ผู้ใช้ที่โหวตของ Arena ถามสิ่งที่หลากหลายกว่ามาก และส่วนใหญ่แล้วสิ่งเหล่านั้นดูไม่เหมือนโค้ดที่ใช้ประโยชน์จากช่องโหว่สำหรับชั้นความปลอดภัย
Anthropic กล่าวว่าตัวจำแนกจะดีขึ้นเมื่อเวลาผ่านไป โดยยอมรับว่าปัจจุบันมันวางอวนกว้างเกินไป การแบนครั้งแรกเกิดขึ้นหลังจากนักวิจัย Amazon พบเทคนิคที่ทำให้ Fable ระบุและสาธิตช่องโหว่ของซอฟต์แวร์—และรัฐบาลสหรัฐฯ ถือว่าเป็นภัยคุกคามความมั่นคงของชาติ วิธีแก้คือทำให้ตัวจำแนกระมัดระวังพอที่จะจับสิ่งนั้นและทุกสิ่งที่เกี่ยวข้อง จากนั้นค่อยปรับลดความเข้มงวดลงภายหลัง Anthropic ไม่ได้ระบุวันที่เป้าหมายว่าจะเกิดขึ้นเมื่อใด
ทำไมคะแนนการดีบักของ Claude Fable 5 บน BridgeBench จึงลดลงจาก 86.2 เหลือ 25.9?
ตัวจำแนกความปลอดภัยจัดเส้นทางงานดีบัก TypeScript เก้าจากสิบสองงานไปยัง Claude Opus 4.8 แทน Fable 5 BridgeBench ให้คะแนนทุกการสำรองเป็นศูนย์ เพราะโมเดลที่ถูกประเมินไม่ได้จัดการงานนั้น ทำให้คะแนนลดลงอย่างรุนแรงแม้ว่าความสามารถจริงของ Fable 5 จะไม่เปลี่ยนแปลง
Arena.AI พบอะไรเกี่ยวกับประสิทธิภาพของ Fable 5 หลังการคืนสถานะในวันที่ 1 กรกฎาคม?
Arena.AI รวบรวมคะแนนโหวตแบบไม่เปิดเผยตัวจากมนุษย์หลายพันครั้ง และพบว่าประสิทธิภาพของ Fable 5 ส่วนใหญ่คงที่เมื่อเทียบกับเวอร์ชันเดือนมิถุนายน ประสิทธิภาพด้านเอกสารดีขึ้น 34 จุด และข้อความระดับผู้เชี่ยวชาญดีขึ้น 25 จุด ในขณะที่โค้ดฟร้อนต์เอนด์ลดลงจาก 1650 เหลือ 1623 Elo—ความแตกต่างที่อยู่ในช่วงความเชื่อมั่น
news.related.news
Microsoft เปิดตัวบริษัท Frontier ด้วยการลงทุนด้าน AI มูลค่า 2.5 พันล้านดอลลาร์
快手「可靈 AI」即將完成 30 億美元融資,騰訊與阿里列潛在投資人名單
หุ้น Meta รุกเข้าสู่คลาวด์คอมพิวติ้ง จุดชนวนให้หุ้น AI ฮาร์ดแวร์ร่วงหนักเป็นลูกโซ่
สหรัฐฯ ยกเลิกข้อจำกัดการส่งออกโมเดล AI Fable 5 และ Mythos 5 ของ Anthropic