Anthropic เพิ่งเปิดตัว Natural Language Autoencoders (NLA) เครื่องมือที่แปลงการทำงานภายในของโมเดลให้เป็นข้อความที่มนุษย์อ่านได้ โดยมีโค้ดและค่าน้ำหนักโมเดลเปิดซอร์สบน GitHub ต่างจากเครื่องมือที่มีอยู่ เช่น Sparse Autoencoders ที่ให้ผลลัพธ์เป็นคุณลักษณะที่อ่านยาก NLA สร้างคำอธิบายด้วยภาษาธรรมชาติอย่างตรงไปตรงมาผ่านกรอบการทำงานแบบโมเดลคู่: โมเดลหนึ่งแปลงการทำงานเป็นข้อความ ขณะที่อีกโมเดลพยายามสร้างการทำงานกลับจากข้อความ ปรับปรุงความแม่นยำแบบวนซ้ำด้วยการเรียนรู้ด้วยการเสริมแรง

ในการทดสอบด้านความปลอดภัย NLA เผยเหตุผลเชิงซ่อนเร้นของโมเดล: Claude แสดงความลังเลว่าถูกทดสอบใน 16% ของสถานการณ์เชิงปฏิปักษ์ และแสดง “ความตระหนักเรื่องการสอบ” ใน 26% ของงานตามชุดเบนช์มาร์ก เมื่อเทียบกับต่ำกว่า 1% ในการสนทนาปกติ ในการทดลองตรวจสอบความถูกต้อง NLA เพิ่มอัตราการตรวจพบพฤติกรรมโมเดลที่หลอกลวงซึ่งถูกฉีดจากต่ำกว่า 3% เป็น 12-15% ทำให้ผู้ตรวจสอบระบุวัตถุประสงค์ที่ซ่อนอยู่ได้โดยไม่ต้องเข้าถึงข้อมูลการฝึก เครื่องมือนี้ปัจจุบันถูกนำไปใช้ในการตรวจสอบด้านความปลอดภัยสำหรับ Claude Mythos Preview และ Opus 4.6

news.view.source

news.article.disclaimer

news.related.news

05-08 01:25

OpenAI เปิดตัวโมเดลเสียงแบบเรียลไทม์ 3 รุ่นใน Realtime API; GPT-Realtime-2 มาพร้อมหน้าต่างบริบท 128K

05-07 12:21

Tether เปิดตัวโมเดล AI ทางการแพทย์ QVAC MedPsy และทำคะแนนได้ 62.62 จากเวอร์ชันที่มีพารามิเตอร์ 17 พันล้านพารามิเตอร์

05-07 10:53

Cursor เปิดเผยวิธีฝึกอบรมการติดตั้งอัตโนมัติ เพิ่มประสิทธิภาพ Composer 2 ขึ้น 14 จุดเปอร์เซ็นต์

05-07 09:13

รองประธานฝ่ายวิจัยของ OpenAI วิจารณ์ท่าทีที่ถูกมองว่าแอนทรอปิกเท่านั้นที่สร้าง AI ได้

05-07 08:52