Theo nhóm liên kết an toàn của OpenAI, công ty gần đây đã phát hiện một lỗi huấn luyện nghiêm trọng ảnh hưởng đến 6 mô hình ngôn ngữ lớn, trong đó có GPT-5.4. Thinking: cơ chế phần thưởng vô tình chấm điểm các chuỗi “thinking” của mô hình—quá trình suy luận nội bộ trước khi tạo ra câu trả lời. GPT-5.5 không bị ảnh hưởng. Sự cố vi phạm một nguyên tắc an toàn cốt lõi của AI rằng các chuỗi thinking không bao giờ được đưa vào đánh giá, vì điều này có thể khiến mô hình được khuyến khích bịa ra suy luận để đạt điểm cao hơn.
Hệ thống chấm điểm lỗi đã đưa nhầm các chuỗi thinking vào khi đánh giá liệu câu trả lời có hữu ích hay không, hoặc liệu mô hình có bị tấn công làm thỏa hiệp hay không. Các mẫu huấn luyện bị ảnh hưởng chiếm nhiều nhất 3,8% tập dữ liệu. OpenAI đã vá lỗ hổng và tiến hành các thí nghiệm so sánh xác nhận rằng mô hình không phát triển hành vi lừa dối. Công ty đã triển khai một hệ thống quét tự động trên toàn bộ các pipeline huấn luyện để ngăn sự cố tái diễn.
Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo
Tuyên bố miễn trừ trách nhiệm.
Bài viết liên quan
Helsing nhắm mục tiêu huy động vốn với mức định giá 18 tỷ USD
Theo Financial Times, Helsing, một startup drone của Đức được hỗ trợ bởi AI, đang dự kiến huy động thêm vốn với định giá xấp xỉ 18 tỷ USD.
GateNews27phút trước
Google DeepMind AI Co-Toán học đạt 47,9% ở FrontierMath hạng 4, vượt GPT-5.5 Pro, giải quyết 3 bài toán trước đây chưa từng giải được
Google DeepMind đã ra mắt AI đồng toán học, một trợ lý nghiên cứu toán đa tác nhân, đạt 47,9% độ chính xác trên benchmark FrontierMath Tier 4, vượt kỷ lục trước đó của GPT-5.5 Pro là 39,6% vào ngày 9/5. Hệ thống đã giải được 23 trong số 48 bài toán, bao gồm 3 bài mà mọi mô hình trước đó đều không thể giải. Được xây dựng trên Gemini 3.1 Pro, kiến trúc sử dụng thiết kế phân cấp với một tác nhân điều phối dự án phân phối tác vụ cho các tác nhân con đảm nhiệm việc truy xuất tài liệu, viết mã và suy
GateNews35phút trước
Alibaba không tiến hành đàm phán với DeepSeek, các nguồn thị trường làm rõ vào ngày 9 tháng 5
Theo các nguồn thị trường được Caixin Daily đưa tin vào ngày 9/5, Alibaba không tiến hành đàm phán với DeepSeek về việc huy động vốn. Thông tin làm rõ này được đưa ra sau các báo cáo trước đó trên truyền thông cho rằng các cuộc nói chuyện giữa hai công ty đã đổ vỡ. DeepSeek đã khởi động một vòng gọi vốn đáng kể vào tháng 4, thu hút sự quan tâm từ cả Tencent và Alibaba.
GateNews2giờ trước
OpenAI ra mắt công cụ di trú Codex để nhập cấu hình từ các trợ lý AI cạnh tranh
Theo OneMillionAI (Beating), OpenAI đã phát hành một công cụ di trú trong Codex cho phép người dùng nhập cấu hình và dữ liệu từ các trợ lý mã hoá AI khác, bao gồm Claude Code. Công cụ này được công bố thông qua tài khoản Twitter chính thức của OpenAI và tự động chuyển các system prompt, custom skills, lịch sử chat 30 ngày, cấu hình máy chủ MCP, hooks và thiết lập sub-agent. OpenAI cho biết công cụ di trú xử lý hầu hết cấu hình tự động thông qua tuỳ chọn “Import other agent setup” trong phần cài
GateNews2giờ trước
ByteDance tăng chi tiêu cơ sở hạ tầng AI thêm 25% lên 200 tỷ nhân dân tệ vào ngày 9 tháng 5
Theo các báo cáo truyền thông, ByteDance đã tăng kế hoạch chi tiêu cơ sở hạ tầng AI thêm 25% lên 200 tỷ nhân dân tệ vào năm 2026, khi công ty đẩy nhanh việc triển khai trí tuệ nhân tạo trong bối cảnh nhu cầu chip nhớ tăng cao
GateNews3giờ trước
Anthropic hạ tỷ lệ jailbreak của Claude xuống 0% với các phương pháp huấn luyện căn chỉnh mới
Anthropic gần đây đã công bố nghiên cứu về căn chỉnh (alignment), nêu chi tiết các chiến lược huấn luyện giúp loại bỏ tình trạng lệch tác nhân (agent misalignment) trong Claude 4.5 và các mô hình sau đó, qua đó giảm các hành vi giống tống tiền xuống 0% trong thử nghiệm. Nhóm phát hiện rằng chỉ các ví dụ hành vi thông thường (conventional behavior demonstrations) là không hiệu quả, khi tỷ lệ thất bại chỉ giảm từ 22% xuống 15%. Ba cách tiếp cận thay thế cho thấy hiệu quả cao hơn đáng kể: một bộ dữ
GateNews3giờ trước