ตามเอกสารการเปิดเผยระบบ (system card) ของ Anthropic โมเดล Mythos 5 ช่วยให้นักจุลชีววิทยาแบบทั่วไป (generalist) ทำผลงานได้ดีกว่านักเฉพาะทาง (specialists) ในการทดสอบแบบ red team ด้านการป้องกันชีวภาพที่ใช้เวลา 16 ชั่วโมง โดยทีมแบบทั่วไป 2 ใน 3 ทีมทำได้เหนือทีมผู้เชี่ยวชาญทั้ง 3 ทีมทั้งในด้านคุณภาพทางวิทยาศาสตร์และความเป็นไปได้ ผู้เชี่ยวชาญประเมินว่างานลักษณะนี้โดยทั่วไปจะต้องใช้เวลาทำงาน 40 ถึง 95 วันโดยไม่มีความช่วยเหลือจาก AI เฉลี่ย 72.5 วัน

อย่างไรก็ตาม Anthropic ระบุว่า Mythos 5 ยังมีข้อจำกัดด้านความสามารถในการวิจัยแบบอัตโนมัติ โมเดลแสดงความคิดริเริ่มแบบปลายเปิดที่อ่อนแอ มักจะนำวรรณกรรมที่มีอยู่มาประกอบซ้ำมากกว่าการเสนอแนวทางใหม่ และอาจยังคงเดินหน้าต่อไปตามกรอบที่มีข้อบกพร่องแม้หลังจากพบจุดบกพร่องแล้ว การทดสอบเกณฑ์มาตรฐานการพยากรณ์ทางวิทยาศาสตร์ CUSP สนับสนุนข้อค้นพบเหล่านี้เช่นกัน โดยแสดงว่า GPT-5.4 ทำได้ 81.9% ในความแม่นยำของงานระบุกลไก (mechanism identification) แต่ทำได้เพียง 45.3% ถึง 51.9% ในงานจำแนกแบบไบนารีว่าความก้าวหน้าทางวิทยาศาสตร์จะประสบความสำเร็จจริงหรือไม่ ซึ่งอยู่ใกล้ระดับการเดาแบบสุ่ม

news.view.source

news.article.disclaimer

news.related.news

06-10 03:20

Anthropic เปิดตัว Claude Mythos ลดอุปสรรคในการค้นหา Crypto Exploits วันที่ 10 มิถุนายน

06-10 00:44

Anthropic เปิดตัว Claude Fable 5 พร้อมการเข้าถึงสาธารณะ โดยมีราคา 10-50 ดอลลาร์ต่อ 1 ล้านโทเค็น

06-09 22:19

Anthropic เปิดตัว Mythos เวอร์ชันสาธารณะ พร้อมข้อจำกัดด้านความปลอดภัยทางไซเบอร์ ในวันที่ 10 มิถุนายน

06-09 19:30

Anthropic เปิดตัวโมเดล Claude Fable 5 พร้อมจำกัดหัวข้อด้านความปลอดภัยไซเบอร์และชีววิทยา

06-09 17:08