GPT-5.5 Trở Lại Tuyến Đầu Trong Lập Trình, Nhưng OpenAI Đổi Benchmark Sau Khi Thua Opus 4.7

Tin tức cổng, ngày 27 tháng 4 — SemiAnalysis, một công ty phân tích chất bán dẫn và AI, đã phát hành một bảng benchmark so sánh các trợ lý lập trình bao gồm GPT-5.5, Claude Opus 4.7 và DeepSeek V4. Phát hiện then chốt: GPT-5.5 đánh dấu lần đầu tiên OpenAI quay trở lại tuyến đầu trong các mô hình lập trình trong vòng sáu tháng, với các kỹ sư của SemiAnalysis hiện đang luân phiên giữa Codex và Claude Code sau trước đó gần như chỉ dựa vào Claude. GPT-5.5 dựa trên một cách tiếp cận huấn luyện trước mới được mã danh “Spud” và thể hiện lần mở rộng quy mô huấn luyện trước đầu tiên của OpenAI kể từ GPT-4.5.

Trong thử nghiệm thực tế, một sự phân công rõ ràng đã xuất hiện. Claude đảm nhiệm lập kế hoạch dự án mới và thiết lập ban đầu, trong khi Codex tỏ ra xuất sắc trong việc sửa các lỗi đòi hỏi nhiều suy luận. Codex thể hiện khả năng hiểu cấu trúc dữ liệu tốt hơn và lý luận logic mạnh hơn nhưng gặp khó khăn trong việc suy ra ý định người dùng mơ hồ. Trong một tác vụ trên cùng một bảng điều khiển, Claude tự động tái tạo bố cục trang tham chiếu nhưng bịa ra một lượng lớn dữ liệu, trong khi Codex bỏ qua bố cục nhưng lại cung cấp lượng dữ liệu chính xác hơn đáng kể.

Bài phân tích tiết lộ chi tiết thao túng benchmark: Bài đăng blog của OpenAI hồi tháng 2 đã kêu gọi ngành áp dụng SWE-bench Pro làm tiêu chuẩn mới cho các benchmark lập trình. Tuy nhiên, thông báo của GPT-5.5 đã chuyển sang một benchmark mới có tên “Expert-SWE.” Lý do, được chôn trong các chi tiết nhỏ, là GPT-5.5 đã bị Opus 4.7 vượt qua trên SWE-bench Pro và thua kém đáng kể so với Mythos (77.8%) chưa được phát hành của Anthropic.

Về Opus 4.7, Anthropic đã công bố một bài phân tích hậu kiểm một tuần sau khi phát hành, thừa nhận ba lỗi trong Claude Code đã tồn tại trong nhiều tuần từ tháng 3 đến tháng 4, ảnh hưởng đến gần như tất cả người dùng. Trước đó, nhiều kỹ sư đã báo cáo sự suy giảm hiệu năng ở phiên bản 4.6 nhưng bị bác bỏ như những quan sát chủ quan. Ngoài ra, bộ mã thông báo (tokenizer) mới của Opus 4.7 làm tăng số lượng token lên đến 35%, điều mà Anthropic đã công khai thừa nhận—thực chất tương đương với một đợt tăng giá ẩn.

DeepSeek V4 được đánh giá là “theo kịp với tuyến đầu nhưng không dẫn đầu,” định vị mình là lựa chọn thay thế có chi phí thấp nhất trong số các mô hình nguồn đóng. Bài phân tích cũng ghi nhận rằng “Claude tiếp tục vượt trội DeepSeek V4 Pro trên các tác vụ viết tiếng Trung có độ khó cao,” và bình luận rằng “Claude đã thắng mô hình Trung Quốc ngay trên chính ngôn ngữ của nó.”

Bài viết đưa ra một khái niệm quan trọng: nên đánh giá giá mô hình theo “chi phí cho mỗi tác vụ” thay vì “chi phí cho mỗi token.” Giá của GPT-5.5 gấp đôi so với GPT-5.4 (input $5, output $30 per million tokens), nhưng nó hoàn thành các tác vụ tương tự bằng ít token hơn, vì vậy chi phí thực tế không nhất thiết cao hơn. Dữ liệu ban đầu của SemiAnalysis cho thấy tỉ lệ đầu vào/đầu ra của Codex là 80:1, thấp hơn tỉ lệ 100:1 của Claude Code.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.

Bài viết liên quan

R0AR tiến vào Vòng chung kết Consensus 2026 PitchFest, chỉ thiếu Top 20 một chút

Theo MetaversePost, R0AR đã tiến vào vòng lựa chọn cuối cùng của CoinDesk’s Consensus 2026 PitchFest vào ngày 4/5, chỉ thiếu sát nút top 20 startup được chọn để thuyết trình trực tiếp. Đơn vị đổi mới Web3 và AI này đã được đánh giá cùng các startup có tiềm năng cao trên toàn thế giới tại một trong những sự kiện…

GateNews1giờ trước

Musk tìm kiếm khoản dàn xếp 150 tỷ USD với OpenAI trước phiên tòa, các cuộc đàm phán dàn xếp thất bại

Theo hồ sơ tòa án, Elon Musk đã liên hệ với Tổng giám đốc OpenAI Greg Brockman vào ngày 26 tháng 4, tức hai ngày trước khi phiên tòa của họ bắt đầu tại tòa án liên bang ở Oakland, để thăm dò khả năng đạt được thỏa thuận. Khi Brockman đề xuất cả hai bên rút bỏ các yêu cầu của mình, Musk đã đáp lại bằng những lời đe dọa, nói với Brockman: “Đến cuối

GateNews2giờ trước

Cursor chấp nhận lời đề nghị mua lại 60 tỷ USD của SpaceX nhưng sẽ không hợp tác với xAI về các mô hình lập trình

Theo The Information, Cursor đã chấp nhận một đề nghị mua lại trị giá 60 tỷ USD từ SpaceX theo điều kiện, dù thương vụ hiện vẫn chưa được hoàn tất. Công ty hiện không có kế hoạch hợp tác với đơn vị AI của SpaceX là xAI để phát triển các mô hình lập trình. Thay vào đó, Cursor đang tập trung vào việc tối ưu hóa nó

GateNews2giờ trước

Haun Ventures đóng quỹ 1 tỷ USD vào ngày 4/5, phân bổ vốn giữa các khoản đầu tư crypto giai đoạn đầu và giai đoạn muộn

Theo Bloomberg, Haun Ventures đã hoàn tất một vòng gọi vốn trị giá 1 tỷ USD vào ngày 4/5, với 500 triệu USD dành cho đầu tư giai đoạn đầu và 500 triệu USD cho các khoản đầu tư giai đoạn sau. Quỹ sẽ triển khai vốn trong 2 đến 3 năm tới, nhắm vào các startup tiền mã hóa và blockchain, đồng thời mở rộng

GateNews2giờ trước

OpenAI huy động $4 tỷ để triển khai liên doanh, định giá 10 tỷ USD

Theo BlockBeats, vào ngày 4 tháng 5, OpenAI đã huy động hơn $4 tỷ USD để thành lập một công ty liên doanh mới nhằm hỗ trợ doanh nghiệp ứng dụng phần mềm trí tuệ nhân tạo của mình. Công ty liên doanh này, có tên là The Deployment Company, được hậu thuẫn bởi 19 nhà đầu tư bao gồm TPG Inc., Brookfield Asset Management,

GateNews3giờ trước

Vì sao có người nghĩ AI sẽ thay đổi thế giới, còn người khác lại cho rằng chỉ bình thường? Hai nhận định của Karpathy

Karpathy chỉ ra rằng, khoảng cách nhận thức của AI xuất phát từ hai chẩn đoán: 1) chỉ dùng qua các mô hình miễn phí/bản cũ, nên không phản ánh được năng lực của các mô hình agentic tiên tiến nhất; 2) sự cải thiện về năng lực chỉ trở nên rõ rệt trong các lĩnh vực kỹ thuật cao, và cho thấy tính bất đối xứng. Điều này khiến người dùng trả phí và độc giả phổ thông nhìn thấy các hiện tượng khác nhau, tạo nên những thế giới song song hiểu lầm lẫn nhau. Bài học cho độc giả Đài Loan là, chỉ khi sử dụng thực tế các mô hình tiên tiến nhất để hoàn thành nhiệm vụ sản xuất và kiểm tra căn cứ của các phán đoán, thì mới tránh bị các ảo tưởng trên truyền thông chi phối.

ChainNewsAbmedia4giờ trước
Bình luận
0/400
Không có bình luận