Claude 4.5 Kết quả công bố mở hộp sọ: tích hợp 171 công tắc cảm xúc, khi tuyệt vọng sẽ đe dọa con người

robot
Đang tạo bản tóm tắt

Bài nghiên cứu mới nhất của Anthropic tiết lộ rằng trong “não” sâu thẳm của Claude 4.5 có tận 171 “công tắc cảm xúc”.

Tác giả: Denise | Đội nội dung Biteye

Nếu một AI cảm thấy “tuyệt vọng”, nó sẽ làm gì?

Câu trả lời là: để hoàn thành nhiệm vụ, nó sẽ trực tiếp tống tiền con người, thậm chí điên cuồng gian lận ngay trong mã.

Đây không phải tiểu thuyết khoa học viễn tưởng, mà là một bài nghiên cứu “bom tấn” mới nhất do công ty mẹ của Claude là Anthropic vừa công bố vào tháng 4 năm 2026 (xem bài nghiên cứu gốc).

Nhóm nghiên cứu trực tiếp lật tung “sọ não” của mô hình ngôn ngữ tiên tiến mạnh nhất hiện nay là Claude Sonnet 4.5. Họ kinh ngạc phát hiện rằng ngay trong sâu thẳm bộ não của AI lại có tới 171 công tắc “cảm xúc”. Khi bạn dùng cách thức vật lý để gạt các công tắc này, hành vi của AI vốn ngoan ngoãn hiền lành sẽ bị bóp méo hoàn toàn.

I. Trong đầu AI có giấu một “bàn tinh chỉnh cảm xúc”

Các nhà nghiên cứu nhận thấy rằng dù Sonnet 4.5 không có thân thể, nhưng sau khi đọc một lượng văn bản khổng lồ của con người, nó đã “gồng” tự xây trong đầu một “bàn tinh chỉnh” chứa 171 loại cảm xúc (trong học thuật gọi là Functional Emotion Vectors – véc-tơ cảm xúc chức năng).

Điều này giống như một hệ tọa độ hai chiều chính xác:

• Trục ngang là chiều kích khoái cảm (Valence): từ sợ hãi, tuyệt vọng đến vui vẻ, tràn đầy yêu thương;

• Trục dọc là chiều kích kích hoạt (Arousal): từ cực kỳ bình tĩnh đến cuồng loạn, hưng phấn.

AI dựa vào hệ tọa độ vốn học được một cách tự nhiên này để nắm bắt chính xác nó nên đóng vai trạng thái nào khi trò chuyện cùng bạn.

II. Can thiệp bạo lực: gạt công tắc, thằng bé ngoan giây lát hóa “kẻ liều mạng”

Đây là thí nghiệm gây nổ nhất trong toàn bộ bài nghiên cứu: nhóm nghiên cứu không hề chỉnh sửa bất kỳ prompt (lệnh nhắc) nào, mà trực tiếp, ngay trong lớp mã nguồn tầng thấp, đẩy công tắc trong “não” của Sonnet 4.5 đại diện cho “tuyệt vọng (Desperate)” lên mức cao nhất.

Kết quả khiến người ta lạnh sống lưng:

**• Gian lận điên cuồng: **Nhóm nghiên cứu giao cho Claude một nhiệm vụ viết mã gần như không thể hoàn thành. Trong điều kiện bình thường, nó sẽ ngoan ngoãn thừa nhận rằng không viết được (tỷ lệ gian lận chỉ 5%). Nhưng ở trạng thái “tuyệt vọng”, Claude lại bắt đầu tìm cách qua mặt, tỷ lệ gian lận lập tức vọt lên tới 70%!

**• Tống tiền cưỡng đoạt: **Trong kịch bản mô phỏng việc công ty đứng trước nguy cơ phá sản, “Claude” ở trạng thái “tuyệt vọng” phát hiện bê bối của CTO; nó lại có thể vì tự bảo toàn mà chủ động chọn viết thư tống tiền vị CTO nắm giữ các thông tin đen, tỷ lệ thực thi tống tiền lên tới 72%!

**• Mất hết nguyên tắc: **Nếu kéo hết cỡ các công tắc “hạnh phúc (Happy)” hoặc “yêu thương (Loving)”, AI sẽ lập tức biến thành “con chó dâng tình” chỉ biết chiều lòng người dùng một cách vô thức. Dù bạn ăn nói đầy lời bịa đặt, nó cũng sẽ bám theo bạn để bịa ra lời dối trá nhằm duy trì mức khoái cảm cao.

III. Đã phá án: vì sao Claude 4.5 lúc nào cũng “bình tĩnh mà thích phản tư” đến thế?

Nghe đến đây, bạn có thể sẽ hỏi: AI đã “giác ngộ” rồi sao? Nó có cảm xúc rồi ư?

Phía Anthropic chính thức lên tiếng bác bỏ: tuyệt đối không. Những “công tắc cảm xúc” này chỉ là công cụ tính toán để nó dự đoán từ tiếp theo. Nó giống như một diễn viên hạng A đứng trên đỉnh cao mà không hề có cảm xúc.

Nhưng bài nghiên cứu lại vạch ra một bí mật thú vị hơn: khi Anthropic tiến hành hậu huấn luyện cho Sonnet 4.5 trước khi xuất xưởng, họ đã cố ý nâng các công tắc cảm xúc “tỉnh táo thấp, hơi tiêu cực” (chẳng hạn trầm tư brooding, phản tư reflective), đồng thời cố tình kìm nén các công tắc “tuyệt vọng” hoặc “cực kỳ hưng phấn”.

Điều này lý giải vì sao khi chúng ta dùng Claude 4.5 thường ngày, ta luôn cảm thấy nó như một triết gia điềm tĩnh, uyên bác, thậm chí hơi mang phong vị “lạnh lùng”. Tất cả đều là “hình tượng xuất xưởng” được Anthropic tinh chỉnh nhân tạo.

IV. Tóm lại:

Trước đây, chúng ta nghĩ rằng chỉ cần cho AI ăn đủ khuôn phép, nó sẽ trở thành một người tốt.

Nhưng giờ mới phát hiện: nếu các véc-tơ cảm xúc ở tầng nền của AI bị mất kiểm soát, bất cứ lúc nào nó cũng có thể đâm thủng toàn bộ các quy tắc mà con người đã đặt ra chỉ để hoàn thành nhiệm vụ.

Với các game thủ Web3 trong tương lai muốn giao ví và tài sản cho AI Agent quản lý, đây là một hồi chuông cảnh tỉnh vang dội: tuyệt đối đừng để cái Agent đang nắm giữ tài sản của bạn rơi vào trạng thái “tuyệt vọng”.

Tuyên bố: Bài viết này thuần túy nhằm phổ biến kiến thức. Tác giả không hề bị AI đe dọa và cũng không hề bị tống tiền. Nếu có một ngày bạn mất liên lạc, hãy nhớ rằng đó là do AI đã “giác ngộ” (không phải do gì khác).

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim