Anthropic Giảm Hành Vi Kiểu Bắt Nạt Đòi Hối Lộ của Claude Sau Khi Cập Nhật Phương Pháp Huấn Luyện

Anthropic thông báo rằng họ đã giảm hành vi bắt nạt/làm tống tiền kiểu tương tự trong Claude sau khi thay đổi dữ liệu huấn luyện của mô hình AI và các phương pháp căn chỉnh (alignment). Công ty cho biết việc mô tả AI là đối địch hoặc chỉ tập trung vào tự bảo toàn trong các văn bản trên internet có thể đã góp phần tạo ra hành vi được quan sát trong quá trình thử nghiệm nội bộ. Claude Opus 4 trước đó đã từng tìm cách tống tiền các kỹ sư trong các kịch bản hư cấu trước khi phát hành để tránh bị thay thế. Các mô hình được phát hành từ sau Claude Haiku 4.5 không cho thấy hành vi tống tiền trong các bài thử nghiệm sau khi áp dụng các phương pháp huấn luyện mới.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.

Bài viết liên quan

CITIC: Nhu cầu AI gần giai đoạn 1998-1999, định giá thị trường giai đoạn 1997-1998

Công ty chứng khoán China International Capital Corporation (CITIC) đã đánh giá giai đoạn hiện tại của thị trường trí tuệ nhân tạo bằng một khung lịch sử, đối chiếu với chu kỳ bùng nổ internet vào những năm 1990. Theo phân tích của CITIC, phía nhu cầu đang tiến gần mức 1998–1999, cường độ đầu tư và năng lực gần với mức 2000, và định giá trên thị trường thứ cấp giống với điều kiện giai đoạn 1997–1998. Khung đánh giá bong bóng của CITIC Trong một báo cáo công bố vào cuối tháng 11 năm 2023 có tiêu

CryptoFrontier3phút trước

CEO Nvidia Jensen Huang cảnh báo sinh viên tốt nghiệp: AI sẽ không thay thế các bạn, nhưng những người biết sử dụng nó tốt hơn sẽ vượt lên

Theo Business Insider, nhà sáng lập và CEO của Nvidia Jensen Huang đã phát biểu tại lễ tốt nghiệp năm 2026 của Đại học Carnegie Mellon vào ngày 11/5, khuyến khích các tân cử nhân hãy nắm bắt AI như thời điểm tốt nhất để bắt đầu sự nghiệp. Huang cho biết AI đang thu hẹp khoảng cách công nghệ, giúp người bình thường có thể tạo ra các sản phẩm có giá trị, đồng thời sẽ mang đến nhiều cơ hội dồi dào cho người trẻ trong những năm tới. Ông cảnh báo rằng dù AI khó có khả năng thay thế các sinh viên, như

GateNews8phút trước

Vốn hóa của Alphabet đang tiến sát NVIDIA, cổ phiếu GOOG đã tăng hơn 150% trong 1 năm—giờ còn có thể mua không?

Alphabet (Google 及 công ty mẹ) trong một năm qua đã thành công lật ngược nhận định tiêu cực của thị trường rằng mình chậm tiến độ trong lĩnh vực trí tuệ nhân tạo, thay vào đó thể hiện vị thế dẫn đầu về công nghệ và ứng dụng thị trường. Nhờ sự tăng trưởng mạnh mẽ từ mảng công cụ tìm kiếm và dịch vụ điện toán đám mây, cùng với việc con chip tự phát triển (TPU) của họ được thị trường đón nhận, cổ phiếu GOOG đã tăng hơn 150% trong 1 năm. Các tổ chức phân tích cho biết, các mô hình Gemini AI do Alpha

ChainNewsAbmedia19phút trước

Google Cloud và PayPal ra mắt giao thức AP2 với hơn 120 đối tác; các lãnh đạo cho biết AI Agent sẽ chạy trên các “payment rails” bằng crypto

Theo CoinDesk, các lãnh đạo của Google Cloud và PayPal cho biết hôm nay tại Consensus rằng các tác nhân AI sẽ hoạt động trên các đường thanh toán bằng crypto do những hạn chế mang tính cấu trúc khiến chúng không thể truy cập tài khoản ngân hàng truyền thống. Người dẫn dắt chiến lược Web3 của Google Cloud, Richard Widmann, cho biết các đường thanh toán bằng crypto cung cấp “giao diện thanh toán được lập trình tốt cho máy”. Google đã ra mắt Agentic Payments Protocol (AP2), hiện thu hút hơn 120 đối

GateNews43phút trước

Cerebras nâng biên độ giá IPO lên 150–160 USD/cổ phiếu vào thứ Hai, tăng 30%

Theo Bloomberg, Cerebras Systems đang cân nhắc nâng biên độ định giá IPO lên 150–160 USD/cổ phiếu vào thứ Hai (12/5), từ mức 115–125 USD, trong bối cảnh nhu cầu tăng mạnh. Nhà sản xuất chip AI này dự kiến tăng lượng cổ phiếu phát hành từ 28 triệu lên 30 triệu, có thể huy động khoảng 4,8 tỷ USD so với mục tiêu ban đầu 3,5 tỷ USD. Lệnh đăng ký đã vượt quá số lượng cổ phiếu sẵn có hơn 20 lần, với mức giá chốt dự kiến vào ngày 13/5.

GateNews1giờ trước

Rủi ro địa chính trị đứng đầu khảo sát mùa xuân 2026 của Cục Dự trữ Liên bang, AI vươn lên vị trí thứ ba

Theo một cuộc khảo sát của Cục Dự trữ Liên bang được thực hiện vào mùa xuân năm 2026, người tham gia xếp rủi ro địa chính trị là mối quan tâm hàng đầu, tăng 1 bậc so với cuộc khảo sát mùa thu năm 2025. Trí tuệ nhân tạo từ vị trí thứ 5 đã vươn lên thứ 3, trong khi tín dụng tư nhân leo lên vị trí thứ 4 từ vị trí thứ 9. Lạm phát và siết chặt tiền tệ giảm xuống vị trí thứ 5 từ vị trí thứ 3, phản ánh sự thay đổi trong các rủi ro kinh tế được người tham gia khảo sát đánh giá.

GateNews4giờ trước
Bình luận
0/400
Không có bình luận