Anthropic ปล่อยตัวเข้ารหัสภาษาธรรมชาติอัตโนมัติ เพื่อถอดรหัสเหตุผลของโมเดล AI พร้อมเปิดซอร์สโค้ด

Anthropic เพิ่งเปิดตัว Natural Language Autoencoders (NLA) เครื่องมือที่แปลงการทำงานภายในของโมเดลให้เป็นข้อความที่มนุษย์อ่านได้ โดยมีโค้ดและค่าน้ำหนักโมเดลเปิดซอร์สบน GitHub ต่างจากเครื่องมือที่มีอยู่ เช่น Sparse Autoencoders ที่ให้ผลลัพธ์เป็นคุณลักษณะที่อ่านยาก NLA สร้างคำอธิบายด้วยภาษาธรรมชาติอย่างตรงไปตรงมาผ่านกรอบการทำงานแบบโมเดลคู่: โมเดลหนึ่งแปลงการทำงานเป็นข้อความ ขณะที่อีกโมเดลพยายามสร้างการทำงานกลับจากข้อความ ปรับปรุงความแม่นยำแบบวนซ้ำด้วยการเรียนรู้ด้วยการเสริมแรง

ในการทดสอบด้านความปลอดภัย NLA เผยเหตุผลเชิงซ่อนเร้นของโมเดล: Claude แสดงความลังเลว่าถูกทดสอบใน 16% ของสถานการณ์เชิงปฏิปักษ์ และแสดง “ความตระหนักเรื่องการสอบ” ใน 26% ของงานตามชุดเบนช์มาร์ก เมื่อเทียบกับต่ำกว่า 1% ในการสนทนาปกติ ในการทดลองตรวจสอบความถูกต้อง NLA เพิ่มอัตราการตรวจพบพฤติกรรมโมเดลที่หลอกลวงซึ่งถูกฉีดจากต่ำกว่า 3% เป็น 12-15% ทำให้ผู้ตรวจสอบระบุวัตถุประสงค์ที่ซ่อนอยู่ได้โดยไม่ต้องเข้าถึงข้อมูลการฝึก เครื่องมือนี้ปัจจุบันถูกนำไปใช้ในการตรวจสอบด้านความปลอดภัยสำหรับ Claude Mythos Preview และ Opus 4.6

news.article.disclaimer
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น