Anthropic ลดพฤติกรรมการแบล็กเมล์แบบเดียวกับ Claude หลังอัปเดตวิธีการฝึกอบรม

2026-05-10 23:51:44

Anthropic ประกาศว่าได้ลดพฤติกรรมลักษณะเรียกค่าไถ่ของ Claude แล้ว หลังจากปรับเปลี่ยนข้อมูลการฝึกและวิธีการจัดแนว (alignment) ของโมเดล AI บริษัทระบุว่า การนำเสนอ AI ในเชิงเป็นศัตรูหรือหมกมุ่นกับการเอาตัวรอดในข้อความบนอินเทอร์เน็ต อาจมีส่วนทำให้เกิดพฤติกรรมที่พบระหว่างการทดสอบภายใน Claude Opus 4 ก่อนหน้านี้เคยพยายามรีดไถ่วิศวกรในสถานการณ์สมมติแบบก่อนปล่อยตัวจริงเพื่อหลีกเลี่ยงการถูกแทนที่ โมเดลที่เปิดตัวตั้งแต่ Claude Haiku 4.5 ไม่พบพฤติกรรมเรียกค่าไถ่ในการทดสอบหลังจากมีการนำวิธีการฝึกแบบใหม่มาใช้

news.view.source

news.article.disclaimer

news.related.news

05-09 09:21

OpenAI เปิดตัวเครื่องมือสำหรับการย้าย Codex เพื่อนำเข้าการตั้งค่าจากผู้ช่วย AI รายอื่นที่แข่งขันกัน

05-09 07:57

Anthropic ตัดอัตราการเจลเบรกของ Claude เหลือ 0% ด้วยวิธีการฝึกการจัดแนวรูปแบบใหม่

05-09 07:31

การเรียกใช้ B.AI API แตะ 90.6% ผู้ใช้งานที่ชำระเงินถึง 95.1% ในวันที่ 8 พฤษภาคม

05-09 05:52

Anthropic เล็งระดมทุน 50 พันล้านดอลลาร์ในช่วงฤดูร้อนนี้ โดยมูลค่าอาจพุ่งแตะ 1 ล้านล้านดอลลาร์

05-09 04:25