Anthropic เพิ่งเปิดตัว Natural Language Autoencoders (NLA) เครื่องมือที่แปลงการทำงานภายในของโมเดลให้เป็นข้อความที่มนุษย์อ่านได้ โดยมีโค้ดและค่าน้ำหนักโมเดลเปิดซอร์สบน GitHub ต่างจากเครื่องมือที่มีอยู่ เช่น Sparse Autoencoders ที่ให้ผลลัพธ์เป็นคุณลักษณะที่อ่านยาก NLA สร้างคำอธิบายด้วยภาษาธรรมชาติอย่างตรงไปตรงมาผ่านกรอบการทำงานแบบโมเดลคู่: โมเดลหนึ่งแปลงการทำงานเป็นข้อความ ขณะที่อีกโมเดลพยายามสร้างการทำงานกลับจากข้อความ ปรับปรุงความแม่นยำแบบวนซ้ำด้วยการเรียนรู้ด้วยการเสริมแรง
ในการทดสอบด้านความปลอดภัย NLA เผยเหตุผลเชิงซ่อนเร้นของโมเดล: Claude แสดงความลังเลว่าถูกทดสอบใน 16% ของสถานการณ์เชิงปฏิปักษ์ และแสดง “ความตระหนักเรื่องการสอบ” ใน 26% ของงานตามชุดเบนช์มาร์ก เมื่อเทียบกับต่ำกว่า 1% ในการสนทนาปกติ ในการทดลองตรวจสอบความถูกต้อง NLA เพิ่มอัตราการตรวจพบพฤติกรรมโมเดลที่หลอกลวงซึ่งถูกฉีดจากต่ำกว่า 3% เป็น 12-15% ทำให้ผู้ตรวจสอบระบุวัตถุประสงค์ที่ซ่อนอยู่ได้โดยไม่ต้องเข้าถึงข้อมูลการฝึก เครื่องมือนี้ปัจจุบันถูกนำไปใช้ในการตรวจสอบด้านความปลอดภัยสำหรับ Claude Mythos Preview และ Opus 4.6
news.related.news
RLWRLD เปิดตัวโมเดล AI RLDX-1 สำหรับมือหุ่นยนต์อุตสาหกรรม
CopilotKit เผยแพร่ซอร์สโค้ด Open Generative UI: การนำเฟรมเวิร์กข้าม Agent ไปใช้งานสำหรับ Claude Artifacts
OpenAI เปิดตัว GPT-Realtime-2: นำการให้เหตุผลของ GPT-5 มาสู่เอเจนต์ด้วยเสียง และเพิ่มคอนเทกซ์ต์เป็น 128K