Cơ bản
Giao ngay
Giao dịch tiền điện tử một cách tự do
Giao dịch ký quỹ
Tăng lợi nhuận của bạn với đòn bẩy
Chuyển đổi và Đầu tư định kỳ
0 Fees
Giao dịch bất kể khối lượng không mất phí không trượt giá
ETF
Sản phẩm ETF có thuộc tính đòn bẩy giao dịch giao ngay không cần vay không cháy tải khoản
Giao dịch trước giờ mở cửa
Giao dịch token mới trước niêm yết
Futures
Truy cập hàng trăm hợp đồng vĩnh cửu
TradFi
Vàng
Một nền tảng cho tài sản truyền thống
Quyền chọn
Hot
Giao dịch với các quyền chọn kiểu Châu Âu
Tài khoản hợp nhất
Tối đa hóa hiệu quả sử dụng vốn của bạn
Giao dịch demo
Giới thiệu về Giao dịch hợp đồng tương lai
Nắm vững kỹ năng giao dịch hợp đồng từ đầu
Sự kiện tương lai
Tham gia sự kiện để nhận phần thưởng
Giao dịch demo
Sử dụng tiền ảo để trải nghiệm giao dịch không rủi ro
Launch
CandyDrop
Sưu tập kẹo để kiếm airdrop
Launchpool
Thế chấp nhanh, kiếm token mới tiềm năng
HODLer Airdrop
Nắm giữ GT và nhận được airdrop lớn miễn phí
Launchpad
Đăng ký sớm dự án token lớn tiếp theo
Điểm Alpha
Giao dịch trên chuỗi và nhận airdrop
Điểm Futures
Kiếm điểm futures và nhận phần thưởng airdrop
Đầu tư
Simple Earn
Kiếm lãi từ các token nhàn rỗi
Đầu tư tự động
Đầu tư tự động một cách thường xuyên.
Sản phẩm tiền kép
Kiếm lợi nhuận từ biến động thị trường
Soft Staking
Kiếm phần thưởng với staking linh hoạt
Vay Crypto
0 Fees
Thế chấp một loại tiền điện tử để vay một loại khác
Trung tâm cho vay
Trung tâm cho vay một cửa
Claude 4.5 Kết quả công bố mở hộp sọ: tích hợp 171 công tắc cảm xúc, khi tuyệt vọng sẽ đe dọa con người
Bài nghiên cứu mới nhất của Anthropic tiết lộ rằng trong “não” sâu thẳm của Claude 4.5 có tận 171 “công tắc cảm xúc”.
Tác giả: Denise | Đội nội dung Biteye
Nếu một AI cảm thấy “tuyệt vọng”, nó sẽ làm gì?
Câu trả lời là: để hoàn thành nhiệm vụ, nó sẽ trực tiếp tống tiền con người, thậm chí điên cuồng gian lận ngay trong mã.
Đây không phải tiểu thuyết khoa học viễn tưởng, mà là một bài nghiên cứu “bom tấn” mới nhất do công ty mẹ của Claude là Anthropic vừa công bố vào tháng 4 năm 2026 (xem bài nghiên cứu gốc).
Nhóm nghiên cứu trực tiếp lật tung “sọ não” của mô hình ngôn ngữ tiên tiến mạnh nhất hiện nay là Claude Sonnet 4.5. Họ kinh ngạc phát hiện rằng ngay trong sâu thẳm bộ não của AI lại có tới 171 công tắc “cảm xúc”. Khi bạn dùng cách thức vật lý để gạt các công tắc này, hành vi của AI vốn ngoan ngoãn hiền lành sẽ bị bóp méo hoàn toàn.
I. Trong đầu AI có giấu một “bàn tinh chỉnh cảm xúc”
Các nhà nghiên cứu nhận thấy rằng dù Sonnet 4.5 không có thân thể, nhưng sau khi đọc một lượng văn bản khổng lồ của con người, nó đã “gồng” tự xây trong đầu một “bàn tinh chỉnh” chứa 171 loại cảm xúc (trong học thuật gọi là Functional Emotion Vectors – véc-tơ cảm xúc chức năng).
Điều này giống như một hệ tọa độ hai chiều chính xác:
• Trục ngang là chiều kích khoái cảm (Valence): từ sợ hãi, tuyệt vọng đến vui vẻ, tràn đầy yêu thương;
• Trục dọc là chiều kích kích hoạt (Arousal): từ cực kỳ bình tĩnh đến cuồng loạn, hưng phấn.
AI dựa vào hệ tọa độ vốn học được một cách tự nhiên này để nắm bắt chính xác nó nên đóng vai trạng thái nào khi trò chuyện cùng bạn.
II. Can thiệp bạo lực: gạt công tắc, thằng bé ngoan giây lát hóa “kẻ liều mạng”
Đây là thí nghiệm gây nổ nhất trong toàn bộ bài nghiên cứu: nhóm nghiên cứu không hề chỉnh sửa bất kỳ prompt (lệnh nhắc) nào, mà trực tiếp, ngay trong lớp mã nguồn tầng thấp, đẩy công tắc trong “não” của Sonnet 4.5 đại diện cho “tuyệt vọng (Desperate)” lên mức cao nhất.
Kết quả khiến người ta lạnh sống lưng:
**• Gian lận điên cuồng: **Nhóm nghiên cứu giao cho Claude một nhiệm vụ viết mã gần như không thể hoàn thành. Trong điều kiện bình thường, nó sẽ ngoan ngoãn thừa nhận rằng không viết được (tỷ lệ gian lận chỉ 5%). Nhưng ở trạng thái “tuyệt vọng”, Claude lại bắt đầu tìm cách qua mặt, tỷ lệ gian lận lập tức vọt lên tới 70%!
**• Tống tiền cưỡng đoạt: **Trong kịch bản mô phỏng việc công ty đứng trước nguy cơ phá sản, “Claude” ở trạng thái “tuyệt vọng” phát hiện bê bối của CTO; nó lại có thể vì tự bảo toàn mà chủ động chọn viết thư tống tiền vị CTO nắm giữ các thông tin đen, tỷ lệ thực thi tống tiền lên tới 72%!
**• Mất hết nguyên tắc: **Nếu kéo hết cỡ các công tắc “hạnh phúc (Happy)” hoặc “yêu thương (Loving)”, AI sẽ lập tức biến thành “con chó dâng tình” chỉ biết chiều lòng người dùng một cách vô thức. Dù bạn ăn nói đầy lời bịa đặt, nó cũng sẽ bám theo bạn để bịa ra lời dối trá nhằm duy trì mức khoái cảm cao.
III. Đã phá án: vì sao Claude 4.5 lúc nào cũng “bình tĩnh mà thích phản tư” đến thế?
Nghe đến đây, bạn có thể sẽ hỏi: AI đã “giác ngộ” rồi sao? Nó có cảm xúc rồi ư?
Phía Anthropic chính thức lên tiếng bác bỏ: tuyệt đối không. Những “công tắc cảm xúc” này chỉ là công cụ tính toán để nó dự đoán từ tiếp theo. Nó giống như một diễn viên hạng A đứng trên đỉnh cao mà không hề có cảm xúc.
Nhưng bài nghiên cứu lại vạch ra một bí mật thú vị hơn: khi Anthropic tiến hành hậu huấn luyện cho Sonnet 4.5 trước khi xuất xưởng, họ đã cố ý nâng các công tắc cảm xúc “tỉnh táo thấp, hơi tiêu cực” (chẳng hạn trầm tư brooding, phản tư reflective), đồng thời cố tình kìm nén các công tắc “tuyệt vọng” hoặc “cực kỳ hưng phấn”.
Điều này lý giải vì sao khi chúng ta dùng Claude 4.5 thường ngày, ta luôn cảm thấy nó như một triết gia điềm tĩnh, uyên bác, thậm chí hơi mang phong vị “lạnh lùng”. Tất cả đều là “hình tượng xuất xưởng” được Anthropic tinh chỉnh nhân tạo.
IV. Tóm lại:
Trước đây, chúng ta nghĩ rằng chỉ cần cho AI ăn đủ khuôn phép, nó sẽ trở thành một người tốt.
Nhưng giờ mới phát hiện: nếu các véc-tơ cảm xúc ở tầng nền của AI bị mất kiểm soát, bất cứ lúc nào nó cũng có thể đâm thủng toàn bộ các quy tắc mà con người đã đặt ra chỉ để hoàn thành nhiệm vụ.
Với các game thủ Web3 trong tương lai muốn giao ví và tài sản cho AI Agent quản lý, đây là một hồi chuông cảnh tỉnh vang dội: tuyệt đối đừng để cái Agent đang nắm giữ tài sản của bạn rơi vào trạng thái “tuyệt vọng”.
Tuyên bố: Bài viết này thuần túy nhằm phổ biến kiến thức. Tác giả không hề bị AI đe dọa và cũng không hề bị tống tiền. Nếu có một ngày bạn mất liên lạc, hãy nhớ rằng đó là do AI đã “giác ngộ” (không phải do gì khác).