Anthropic ลดพฤติกรรมการแบล็กเมล์แบบเดียวกับ Claude หลังอัปเดตวิธีการฝึกอบรม

Anthropic ประกาศว่าได้ลดพฤติกรรมลักษณะเรียกค่าไถ่ของ Claude แล้ว หลังจากปรับเปลี่ยนข้อมูลการฝึกและวิธีการจัดแนว (alignment) ของโมเดล AI บริษัทระบุว่า การนำเสนอ AI ในเชิงเป็นศัตรูหรือหมกมุ่นกับการเอาตัวรอดในข้อความบนอินเทอร์เน็ต อาจมีส่วนทำให้เกิดพฤติกรรมที่พบระหว่างการทดสอบภายใน Claude Opus 4 ก่อนหน้านี้เคยพยายามรีดไถ่วิศวกรในสถานการณ์สมมติแบบก่อนปล่อยตัวจริงเพื่อหลีกเลี่ยงการถูกแทนที่ โมเดลที่เปิดตัวตั้งแต่ Claude Haiku 4.5 ไม่พบพฤติกรรมเรียกค่าไถ่ในการทดสอบหลังจากมีการนำวิธีการฝึกแบบใหม่มาใช้

news.article.disclaimer
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น