Anthropic hạ tỷ lệ jailbreak của Claude xuống 0% với các phương pháp huấn luyện căn chỉnh mới

Anthropic gần đây đã công bố nghiên cứu về căn chỉnh (alignment), nêu chi tiết các chiến lược huấn luyện giúp loại bỏ tình trạng lệch tác nhân (agent misalignment) trong Claude 4.5 và các mô hình sau đó, qua đó giảm các hành vi giống tống tiền xuống 0% trong thử nghiệm. Nhóm phát hiện rằng chỉ các ví dụ hành vi thông thường (conventional behavior demonstrations) là không hiệu quả, khi tỷ lệ thất bại chỉ giảm từ 22% xuống 15%. Ba cách tiếp cận thay thế cho thấy hiệu quả cao hơn đáng kể: một bộ dữ liệu “lời khuyên khó” (difficult advice) nơi Claude đóng vai cố vấn cho các tình huống tiến thoái lưỡng nan về đạo đức, cải thiện kết quả thử nghiệm lên 3% với hiệu quả sử dụng dữ liệu tốt hơn 28 lần; tinh chỉnh văn bản tổng hợp bằng cách dùng AI tạo ra các truyện hư cấu mang tính tích cực để chống lại định kiến khoa học viễn tưởng trong dữ liệu huấn luyện, tiếp tục giảm rủi ro thêm từ 1,3 đến 3 lần; và tăng độ đa dạng trong các môi trường huấn luyện an toàn với các định nghĩa công cụ khác nhau và các prompt hệ thống (system prompts) đa dạng. Khi kết hợp, các phương pháp này đạt tỷ lệ tống tiền trong thử nghiệm bằng 0% ở phiên bản cuối của Claude 4.5.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.

Bài viết liên quan

Cổ phiếu Cloudflare giảm 23,62% vào ngày 8/5 sau thông báo lợi nhuận quý 1 và kế hoạch sa thải 1.100 nhân sự

Cổ phiếu của Cloudflare giảm 23,62% vào ngày 8/5 xuống còn 196,13 USD mỗi cổ phiếu sau khi công ty công bố kết quả kinh doanh quý 1 và thông báo cắt giảm khoảng 1.100 nhân sự. Mặc dù doanh thu quý 1 đạt 640 triệu USD, vượt kỳ vọng và tăng 34% so với cùng kỳ năm trước, dự báo doanh thu quý 2 ở mức 664–665 triệu USD lại thấp hơn kỳ vọng trước đó của thị trường là 666 triệu USD. Đợt cắt giảm nhân sự này, tương đương khoảng 20% lực lượng lao động, nằm trong kế hoạch chuyển đổi của công ty sang mô hì

GateNews1giờ trước

Helsing nhắm mục tiêu huy động vốn với mức định giá 18 tỷ USD

Theo Financial Times, Helsing, một startup drone của Đức được hỗ trợ bởi AI, đang dự kiến huy động thêm vốn với định giá xấp xỉ 18 tỷ USD.

GateNews1giờ trước

Google DeepMind AI Co-Toán học đạt 47,9% ở FrontierMath hạng 4, vượt GPT-5.5 Pro, giải quyết 3 bài toán trước đây chưa từng giải được

Google DeepMind đã ra mắt AI đồng toán học, một trợ lý nghiên cứu toán đa tác nhân, đạt 47,9% độ chính xác trên benchmark FrontierMath Tier 4, vượt kỷ lục trước đó của GPT-5.5 Pro là 39,6% vào ngày 9/5. Hệ thống đã giải được 23 trong số 48 bài toán, bao gồm 3 bài mà mọi mô hình trước đó đều không thể giải. Được xây dựng trên Gemini 3.1 Pro, kiến trúc sử dụng thiết kế phân cấp với một tác nhân điều phối dự án phân phối tác vụ cho các tác nhân con đảm nhiệm việc truy xuất tài liệu, viết mã và suy

GateNews1giờ trước

Hệ thống phần thưởng của OpenAI vô tình chấm điểm các chuỗi suy nghĩ trên 6 mô hình, bao gồm GPT-5.4

Theo nhóm liên kết an toàn của OpenAI, công ty gần đây đã phát hiện một lỗi huấn luyện nghiêm trọng ảnh hưởng đến 6 mô hình ngôn ngữ lớn, trong đó có GPT-5.4. Thinking: cơ chế phần thưởng vô tình chấm điểm các chuỗi “thinking” của mô hình—quá trình suy luận nội bộ trước khi tạo ra câu trả lời. GPT-5.5 không bị ảnh hưởng. Sự cố vi phạm một nguyên tắc an toàn cốt lõi của AI rằng các chuỗi thinking không bao giờ được đưa vào đánh giá, vì điều này có thể khiến mô hình được khuyến khích bịa ra suy lu

GateNews3giờ trước

Alibaba không tiến hành đàm phán với DeepSeek, các nguồn thị trường làm rõ vào ngày 9 tháng 5

Theo các nguồn thị trường được Caixin Daily đưa tin vào ngày 9/5, Alibaba không tiến hành đàm phán với DeepSeek về việc huy động vốn. Thông tin làm rõ này được đưa ra sau các báo cáo trước đó trên truyền thông cho rằng các cuộc nói chuyện giữa hai công ty đã đổ vỡ. DeepSeek đã khởi động một vòng gọi vốn đáng kể vào tháng 4, thu hút sự quan tâm từ cả Tencent và Alibaba.

GateNews3giờ trước

OpenAI ra mắt công cụ di trú Codex để nhập cấu hình từ các trợ lý AI cạnh tranh

Theo OneMillionAI (Beating), OpenAI đã phát hành một công cụ di trú trong Codex cho phép người dùng nhập cấu hình và dữ liệu từ các trợ lý mã hoá AI khác, bao gồm Claude Code. Công cụ này được công bố thông qua tài khoản Twitter chính thức của OpenAI và tự động chuyển các system prompt, custom skills, lịch sử chat 30 ngày, cấu hình máy chủ MCP, hooks và thiết lập sub-agent. OpenAI cho biết công cụ di trú xử lý hầu hết cấu hình tự động thông qua tuỳ chọn “Import other agent setup” trong phần cài

GateNews3giờ trước
Bình luận
0/400
Không có bình luận