ตามทีมการจัดแนว (alignment) ของ OpenAI บริษัทเพิ่งพบข้อผิดพลาดสำคัญในการฝึกซึ่งส่งผลต่อโมเดลภาษาขนาดใหญ่ 6 ตัว รวมถึง GPT-5.4 โดย “Thinking” นั้น กลไกให้รางวัลได้เผลอไปประเมินห่วงโซ่การคิดของโมเดล—กระบวนการให้เหตุผลภายในก่อนการสร้างคำตอบ—ในขณะที่ GPT-5.5 ไม่ได้รับผลกระทบ
เหตุการณ์นี้ละเมิดหลักการพื้นฐานด้านความปลอดภัยของ AI ที่ต้องไม่ประเมินห่วงโซ่การคิด หากประเมินก็อาจจูงใจให้โมเดล “แต่งเหตุผล” เพื่อทำคะแนนให้สูงขึ้นได้
ระบบให้คะแนนที่บกพร่องได้รวมเอาห่วงโซ่การคิดโดยไม่ถูกต้องด้วย เมื่อประเมินว่าคำตอบมีประโยชน์หรือไม่ หรือว่าโมเดลถูกทำให้เสี่ยงโดยการโจมตีหรือถูกบุกรุกหรือไม่ ตัวอย่างข้อมูลที่ได้รับผลกระทบคิดเป็นไม่เกิน 3.8% ของชุดข้อมูล
OpenAI ได้แก้ไขช่องโหว่แล้ว และทำการทดลองเปรียบเทียบเพื่อยืนยันว่าโมเดลไม่ได้พัฒนาพฤติกรรมหลอกลวง บริษัทได้ติดตั้งระบบสแกนอัตโนมัติในทุกไปป์ไลน์การฝึกเพื่อป้องกันไม่ให้เกิดซ้ำ