ตำนาน 5 เปิดโอกาสให้ PhD สายทั่วไปสามารถเอาชนะผู้เชี่ยวชาญได้ในปฏิบัติการ Red Team ด้านการป้องกันชีวภาพที่ใช้เวลา 16 ชั่วโมง

ตามเอกสารการเปิดเผยระบบ (system card) ของ Anthropic โมเดล Mythos 5 ช่วยให้นักจุลชีววิทยาแบบทั่วไป (generalist) ทำผลงานได้ดีกว่านักเฉพาะทาง (specialists) ในการทดสอบแบบ red team ด้านการป้องกันชีวภาพที่ใช้เวลา 16 ชั่วโมง โดยทีมแบบทั่วไป 2 ใน 3 ทีมทำได้เหนือทีมผู้เชี่ยวชาญทั้ง 3 ทีมทั้งในด้านคุณภาพทางวิทยาศาสตร์และความเป็นไปได้ ผู้เชี่ยวชาญประเมินว่างานลักษณะนี้โดยทั่วไปจะต้องใช้เวลาทำงาน 40 ถึง 95 วันโดยไม่มีความช่วยเหลือจาก AI เฉลี่ย 72.5 วัน

อย่างไรก็ตาม Anthropic ระบุว่า Mythos 5 ยังมีข้อจำกัดด้านความสามารถในการวิจัยแบบอัตโนมัติ โมเดลแสดงความคิดริเริ่มแบบปลายเปิดที่อ่อนแอ มักจะนำวรรณกรรมที่มีอยู่มาประกอบซ้ำมากกว่าการเสนอแนวทางใหม่ และอาจยังคงเดินหน้าต่อไปตามกรอบที่มีข้อบกพร่องแม้หลังจากพบจุดบกพร่องแล้ว การทดสอบเกณฑ์มาตรฐานการพยากรณ์ทางวิทยาศาสตร์ CUSP สนับสนุนข้อค้นพบเหล่านี้เช่นกัน โดยแสดงว่า GPT-5.4 ทำได้ 81.9% ในความแม่นยำของงานระบุกลไก (mechanism identification) แต่ทำได้เพียง 45.3% ถึง 51.9% ในงานจำแนกแบบไบนารีว่าความก้าวหน้าทางวิทยาศาสตร์จะประสบความสำเร็จจริงหรือไม่ ซึ่งอยู่ใกล้ระดับการเดาแบบสุ่ม

news.article.disclaimer
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น