Claude Fable 5 แสดงผลการทดสอบมาตรฐานที่ขัดแย้งกันหลังจากการคืนสถานะในวันที่ 1 กรกฎาคม

Claude Fable 5 กลับมาให้บริการอีกครั้งในวันที่ 1 กรกฎาคม ทำให้เกิดการประเมินประสิทธิภาพที่ขัดแย้งกันจากแพลตฟอร์มวัดประสิทธิภาพ AI สองแห่ง BridgeBench รายงานว่าคะแนนการดีบักลดลงจาก 86.2 เหลือ 25.9 ขณะที่ Arena.AI พบว่าประสิทธิภาพส่วนใหญ่ไม่เปลี่ยนแปลงผ่านคะแนนโหวตแบบไม่เปิดเผยตัวจากมนุษย์หลายพันครั้ง ความแตกต่างนี้เกิดจากตัวจำแนกความปลอดภัยใหม่ของ Anthropic ที่จัดเส้นทางงานเขียนโค้ดส่วนใหญ่ไปยัง Claude Opus 4.8 แทนที่จะเป็นการลดลงของความสามารถของโมเดลจริง ตามการวิเคราะห์ที่เผยแพร่เมื่อวันที่ 2 กรกฎาคม ตัวจำแนกถูกนำมาใช้เป็นเงื่อนไขในการคืนสถานะหลังจากนักวิจัย Amazon สาธิตเทคนิคการเจลเบรกในเดือนมิถุนายน ซึ่งกระตุ้นให้รัฐบาลสหรัฐฯ เข้าแทรกแซงด้วยเหตุผลด้านความมั่นคงของชาติ

BridgeBench บันทึกคะแนนที่ลดลงอย่างรุนแรงในหมวดการเขียนโค้ด

BridgeMind รันชุดทดสอบการเขียนโค้ดทั้งหมดกับ Fable 5 เวอร์ชันวันที่ 1 กรกฎาคมในวันที่มันกลับมา BridgeBench ทดสอบงานเขียนโค้ดในโลกจริงในหมวดต่างๆ รวมถึงการดีบัก การปรับโครงสร้างโค้ด และการต้านทานการหลอน โดยให้คะแนน 0–100 ตามที่โมเดลทำงานในแต่ละหมวดได้ดีเพียงใด การดีบักลดลงจาก 86.2 เหลือ 25.9 การปรับโครงสร้างโค้ดจาก 73.6 เหลือ 38.4 และการต้านทานการหลอนจาก 75.9 เหลือ 61.7

จากงานดีบัก TypeScript 12 งาน มีเพียงสามงานเท่านั้นที่ไปถึง Fable 5 ส่วนที่เหลืออีกเก้างานถูกสกัดกั้นโดยตัวจำแนกความปลอดภัยใหม่ของ Anthropic และเปลี่ยนเส้นทางไปยัง Claude Opus 4.8 BridgeBench ให้คะแนนทุกการสำรองเป็นศูนย์ เนื่องจากโมเดลที่ตอบไม่ใช่โมเดลที่กำลังถูกประเมิน ตัวจำแนกถูกฝึกให้บล็อกเทคนิคการเจลเบรกที่ Amazon รายงาน—เทคนิคที่ทำให้ Fable 5 ระบุและสาธิตช่องโหว่ของซอฟต์แวร์ การดีบัก TypeScript ดูเหมือนงานด้านความปลอดภัยสำหรับตัวจำแนกมากพอจนการสำรองเกิดขึ้นอย่างต่อเนื่อง

การโหวตของมนุษย์จาก Arena.AI แสดงประสิทธิภาพที่เสถียรในหมวดส่วนใหญ่

Arena.AI รันคำถามเดียวกันผ่านมุมมองที่แตกต่าง แพลตฟอร์มรวบรวมคะแนนโหวตแบบไม่เปิดเผยตัวจากมนุษย์หลายพันครั้งในหลายหมวด—ข้อความ ภาพ เอกสาร โค้ด และเอเจนต์—และจัดอันดับโมเดลโดยใช้คะแนน Elo เมื่อสองโมเดลเผชิญหน้ากันแบบไม่เปิดเผยตัวและมนุษย์เลือกผู้ชนะ คะแนนจะสะท้อนถึงคุณภาพที่รับรู้ได้จริง ไม่ใช่การจัดเส้นทางโครงสร้างพื้นฐาน

การเปรียบเทียบก่อนและหลังแสดงให้เห็นว่า Fable 5 ยังคงรักษาตำแหน่งไว้ได้เป็นส่วนใหญ่ โค้ดฟร้อนต์เอนด์ลดลงจาก 1650 เหลือ 1623 Elo—ซึ่ง Arena ระบุว่าอยู่ในช่วงความเชื่อมั่นเมื่อข้อมูลยังคงสะสมอยู่ ประสิทธิภาพด้านเอกสารดีขึ้น 34 จุด ข้อความระดับผู้เชี่ยวชาญเพิ่มขึ้น 25 จุด การเขียนเชิงสร้างสรรค์เพิ่มขึ้นเล็กน้อย 9 จุด หมวดที่ลดลง—การเขียนโค้ดที่ -18 พรอมต์ที่ยากที่ -3—คือจุดที่ตัวจำแนกมีแนวโน้มสูงที่สุดที่จะสกัดกั้นพรอมต์ก่อนที่ Fable จะตอบ

ผลกระทบต่อผู้ใช้แตกต่างกันไปตามหมวดงาน

ผู้ใช้ทั่วไปที่ทำงานเขียนเชิงสร้างสรรค์ วิเคราะห์เอกสาร วิจัย และคำค้นหาข้อความระดับผู้เชี่ยวชาญจะสังเกตเห็นความแตกต่างเพียงเล็กน้อยหรือไม่มีเลย เหล่านี้คือหมวดที่ Arena.AI แสดงประสิทธิภาพที่คงที่หรือดีขึ้น นักเขียน นักวิจัย และนักวิเคราะห์จะได้รับ Fable 5 ตามที่คาดหวัง

ใครก็ตามที่ทำงานในด้านที่เกี่ยวข้องกับความปลอดภัย—การเขียนโค้ดจัดการหน่วยความจำ สิ่งใดก็ตามที่แตะคำเช่น vulnerability, exploit, hook หรือแม้แต่ fix—จะเจอการสำรองเป็นประจำ ช่องว่างระหว่างการล่มสลายของ BridgeBench และความเสถียรของ Arena ขึ้นอยู่กับประเภทงาน BridgeBench โหลดชุดทดสอบด้วยพรอมต์ประเภทการซ่อมแซมโค้ดและการดีบักที่กระตุ้นตัวจำแนกใหม่พอดี ผู้ใช้ที่โหวตของ Arena ถามสิ่งที่หลากหลายกว่ามาก และส่วนใหญ่แล้วสิ่งเหล่านั้นดูไม่เหมือนโค้ดที่ใช้ประโยชน์จากช่องโหว่สำหรับชั้นความปลอดภัย

Anthropic รับทราบผลบวกปลอมโดยไม่มีกรอบเวลาสำหรับการปรับปรุง

Anthropic กล่าวว่าตัวจำแนกจะดีขึ้นเมื่อเวลาผ่านไป โดยยอมรับว่าปัจจุบันมันวางอวนกว้างเกินไป การแบนครั้งแรกเกิดขึ้นหลังจากนักวิจัย Amazon พบเทคนิคที่ทำให้ Fable ระบุและสาธิตช่องโหว่ของซอฟต์แวร์—และรัฐบาลสหรัฐฯ ถือว่าเป็นภัยคุกคามความมั่นคงของชาติ วิธีแก้คือทำให้ตัวจำแนกระมัดระวังพอที่จะจับสิ่งนั้นและทุกสิ่งที่เกี่ยวข้อง จากนั้นค่อยปรับลดความเข้มงวดลงภายหลัง Anthropic ไม่ได้ระบุวันที่เป้าหมายว่าจะเกิดขึ้นเมื่อใด

FAQ

ทำไมคะแนนการดีบักของ Claude Fable 5 บน BridgeBench จึงลดลงจาก 86.2 เหลือ 25.9?
ตัวจำแนกความปลอดภัยจัดเส้นทางงานดีบัก TypeScript เก้าจากสิบสองงานไปยัง Claude Opus 4.8 แทน Fable 5 BridgeBench ให้คะแนนทุกการสำรองเป็นศูนย์ เพราะโมเดลที่ถูกประเมินไม่ได้จัดการงานนั้น ทำให้คะแนนลดลงอย่างรุนแรงแม้ว่าความสามารถจริงของ Fable 5 จะไม่เปลี่ยนแปลง

Arena.AI พบอะไรเกี่ยวกับประสิทธิภาพของ Fable 5 หลังการคืนสถานะในวันที่ 1 กรกฎาคม?
Arena.AI รวบรวมคะแนนโหวตแบบไม่เปิดเผยตัวจากมนุษย์หลายพันครั้ง และพบว่าประสิทธิภาพของ Fable 5 ส่วนใหญ่คงที่เมื่อเทียบกับเวอร์ชันเดือนมิถุนายน ประสิทธิภาพด้านเอกสารดีขึ้น 34 จุด และข้อความระดับผู้เชี่ยวชาญดีขึ้น 25 จุด ในขณะที่โค้ดฟร้อนต์เอนด์ลดลงจาก 1650 เหลือ 1623 Elo—ความแตกต่างที่อยู่ในช่วงความเชื่อมั่น

news.article.disclaimer
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น