Google's Gemini 3 Deep Think lớn nhất từ trước đến nay: khả năng suy luận vượt xa Opus 4.6, GPT-5.2, hướng tới trở thành "AI nghiên cứu khoa học xuất sắc nhất"

動區BlockTempo

2026-02-13 03:05:30

Google đã phát hành một bản cập nhật lớn cho Gemini 3 Deep Think, vượt qua đáng kể Claude Opus 4.6 (68.8%) và GPT-5.2 (52.9%) trong bài kiểm tra ARC-AGI-2 84.6%, đồng thời đạt được thứ hạng “Đại kiện tướng huyền thoại” trong Codeforces.
(Tóm tắt: Mô hình học tập ChatGPT được giới thiệu: hoàng hôn của dạy kèm, hay bình minh của thời kỳ hoàng kim của giáo dục? ）
(Bổ sung nền tảng: Google chính thức ra mắt “Gemini 3”!) Điểm nổi bật khi vươn lên top mô hình AI thông minh nhất thế giới là gì? ）

Mục lục của bài viết này

Không chỉ kiểm tra, mà còn phát hiện sai lầm của con người
Thay đổi lớp vỏ trong thị phần
Hiệu ứng gợn sóng đối với ngành công nghiệp tiền điện tử
Khoa học chỉ mới bắt đầu

Google hôm nay (thứ 13) đã phát hành một bản nâng cấp lớn cho Gemini 3 Deep Think. Trong bài kiểm tra ARC-AGI-2 (một bài kiểm tra lý luận đặc biệt để ngăn AI ghi nhớ các ngân hàng câu hỏi, nó không kiểm tra xem bạn biết bao nhiêu và liệu bạn có thể tự tóm tắt các quy tắc từ một số ví dụ hay không), Gemini 3 Deep Think đạt 84,6%.

Để tham khảo, Claude Opus 4.6 (Chế độ Thinking Max) đạt 68,8%, GPT-5.2 (Chế độ Thinking xhigh) đạt 52,9% và điểm trung bình của con người là khoảng 60%.

Điều đáng kinh ngạc hơn nữa là trên ARC-AGI-1 gốc, Deep Think đạt 96%, về cơ bản đẩy điểm chuẩn này, từng được coi là “một trong những kỳ thi khó nhất trong AI”, lên mức trần.

Deep Think hiện có sẵn cho người đăng ký Google AI Ultra và API dành cho các doanh nghiệp có quyền truy cập sớm.

Không chỉ kỳ thi, mà còn cả sai lầm của con người

Ngoài điểm số đang chạy, Google đã đề cập đến một chi tiết trong thông báo: Deep Think đã xác định thành công một lỗ hổng logic mà trước đây không có nhà phê bình nào phát hiện ra khi xem xét một bài báo toán học đã được con người bình duyệt. Bài báo này đã được xác nhận bởi các nhà toán học tại Đại học Rutgers.

Tầm quan trọng của trường hợp này không nằm ở hiệu suất của mô hình trong các thử nghiệm tiêu chuẩn, mà ở khả năng chứng minh trong các tình huống khoa học thực tế, kết thúc mở. Đánh giá ngang hàng là cơ chế kiểm soát chất lượng cốt lõi trong giới học thuật và nếu AI có thể liên tục cung cấp sự hỗ trợ có giá trị trong quá trình này, hiệu quả tăng tốc của nó đối với nghiên cứu khoa học sẽ vượt xa những gì có thể đo lường bằng bất kỳ điểm chuẩn nào.

Deep Think cũng đã đạt được mức huy chương vàng trong phần thi viết của Olympic Vật lý và Hóa học Quốc tế 2025, với điểm Elo là 3.455 trên Codeforces, tương ứng với cấp độ “Đại kiện tướng huyền thoại”, chỉ là một số ít lập trình viên con người trên thế giới có thể đạt được cấp độ này.

Trong “Kỳ thi cuối cùng của nhân loại”, một điểm chuẩn được thiết kế bởi các chuyên gia trong nhiều lĩnh vực khác nhau và cố tình gây khó khăn cho AI trả lời, Deep Think đạt 48,4% điểm (không sử dụng công cụ), cũng lập kỷ lục mới.

Thay đổi lớp vỏ trong thị phần

Cuộc đua công nghệ của AI Big Three đang thay đổi bối cảnh thị trường. Thị phần của ChatGPT đã giảm từ 87% ở mức đỉnh xuống còn khoảng 68%, trong khi Gemini đã tăng vọt từ dưới 5% lên hơn 18% và Claude của Anthropic đã dần dần làm xói mòn thị trường cấp doanh nghiệp.

Lợi thế độc đáo của Google trong cuộc đua này là khả năng phân phối. Gemini được tích hợp vào Android, trình duyệt Chrome, Google Workspace và các công cụ tìm kiếm, có nghĩa là ngay cả khi nó bị ràng buộc với các đối thủ cạnh tranh về khả năng mô hình, Google vẫn có thể giành được người dùng thông qua lợi thế của kênh.

Nhưng lợi thế phân phối là con dao hai lưỡi. Nếu trải nghiệm của Gemini không đủ tốt, nó có thể mất niềm tin của người dùng nhanh hơn bất kỳ đối thủ cạnh tranh nào vì người dùng “tham gia thụ động” thay vì “chủ động lựa chọn”. Người dùng OpenAI đang tích cực trả tiền và đương nhiên có khả năng chịu đựng và gắn bó cao hơn.

Hiệu ứng gợn sóng đối với ngành công nghiệp tiền điện tử

Mọi nâng cấp trong cuộc chạy đua vũ trang AI đang thúc đẩy nhu cầu về cơ sở hạ tầng máy tính. Chi phí của các cụm GPU cần thiết để đào tạo một mô hình tiên tiến đã tăng từ hàng trăm triệu đô la vào năm 2024 lên hàng tỷ đô la vào năm 2026. Điều này cũng ảnh hưởng trực tiếp đến hai điều.

**Đầu tiên, con đường chuyển đổi của các thợ đào Bitcoin.**Khi lợi nhuận khai thác bị nén (JPMorgan Chase & Co. ước tính rằng chi phí sản xuất BTC giảm xuống còn 7,7 triệu đô la trong tuần này, trong khi giá tiền tệ là khoảng 6,6 triệu), các thợ đào với cơ sở hạ tầng điện toán quy mô lớn đang đẩy nhanh quá trình chuyển đổi sang các dịch vụ điện toán AI.

Các công ty khai thác chi phí cao không “thoát” mà “thay đổi nghề nghiệp”, từ khai thác Bitcoin đến thu nhập hợp đồng cung cấp sức mạnh tính toán AI.

**Thứ hai, câu chuyện về mã thông báo AI.**Bất cứ khi nào Google, OpenAI hoặc Anthropic phát hành bản nâng cấp lớn, các token liên quan đến AI trên chuỗi như các giao thức điện toán phi tập trung thường bị thổi phồng trong ngắn hạn.

Nhưng vấn đề cơ bản của các token này vẫn không thay đổi: điện toán phi tập trung vẫn còn một chặng đường dài so với nhu cầu đào tạo AI cấp doanh nghiệp về độ trễ và thông lượng. Câu chuyện có thể chạy nhanh, nhưng cơ sở hạ tầng không thể theo kịp tốc độ của câu chuyện.

Khoa học chỉ mới bắt đầu

Việc nâng cấp lên Deep Think đẩy Google trở lại vị trí dẫn đầu trong cuộc đua AI, ít nhất là trong lĩnh vực lý luận và khoa học. Nhưng nếu bạn nhìn kỹ vào từ ngữ trong thông báo của Google, bạn sẽ nhận thấy một sự thay đổi tinh tế trong định vị: thay vì nhấn mạnh “AI đa năng thông minh nhất”, nó liên tục đề cập đến “được tạo ra cho khoa học”.

Khi các điểm chuẩn AI có mục đích chung trở nên đông đúc hơn và khó phân biệt, “AI của tôi có thể giúp bạn thực hiện nghiên cứu khoa học” là một đề xuất giá trị thuyết phục hơn so với “AI của tôi có điểm số cao nhất”. Nếu Deep Think thực sự có thể hỗ trợ đáng tin cậy trong việc đánh giá ngang hàng, đẩy nhanh quá trình khám phá thuốc hoặc tìm ra các giải pháp mà con người bỏ lỡ trong các mô phỏng vật lý, nó sẽ có ý nghĩa hơn bất kỳ danh sách điểm chuẩn nào.

Vấn đề là khoảng cách giữa “có thể đạt điểm cao về điểm chuẩn” đến “có thể hỗ trợ con người một cách đáng tin cậy trong các kịch bản khoa học thực tế” có thể xa hơn Google gợi ý, xét cho cùng, điểm chuẩn có câu trả lời tiêu chuẩn, khoa học thì không.

Xem bản gốc

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.

Bài viết liên quan

BlackRock mua 1,7万 Bitcoin trong vòng một tuần với số tiền 12,8 tỷ USD! Polymarket dự đoán BTC sẽ vượt 7,5万 trong tháng này

bitcoin news Biến động giá Dòng vốn Dự đoán thị trường Thị trường thế giới Dữ liệu trên chuỗi

BlackRock gần đây đã tích lũy hơn 17.000 Bitcoin, thúc đẩy giá vượt qua 73.000 USD, kỳ vọng của thị trường về việc Bitcoin quay trở lại 75.000 USD vào tháng 3 đạt 80%. Dòng vốn tổ chức chảy vào cho thấy các nhà đầu tư lạc quan về dài hạn đối với Bitcoin, tâm lý thị trường tổng thể chuyển sang tích cực.

動區BlockTempo43phút trước

ETH 15 phút tăng 1.09%：Các cá mập mua vào trên chuỗi và dòng vốn ETF thúc đẩy giá phục hồi

ethereum news Phân tích thị trường Biến động giá Dòng vốn Dữ liệu phái sinh Thị trường thế giới Địa chính trị Dữ liệu trên chuỗi

Trong khoảng thời gian từ 2026-03-04 15:45 đến 2026-03-04 16:00（UTC）, giá ETH đã có biến động rõ rệt, lợi nhuận của nến đạt +1.09%, phạm vi biến động giá từ 2126.16 đến 2158.9 USDT, biên độ dao động 1.54%. Khoảng thời gian này, biến động ngắn hạn gia tăng, gây chú ý trên thị trường, khối lượng giao dịch và tâm lý cùng tăng. Nguyên nhân chính của sự biến động này là do các cá mập lớn mua vào trên chuỗi và dòng vốn ETF liên tục chảy ròng. Cụ thể, vào ngày 3 tháng 3, các cá mập lớn đã đổi 99.5 BTC thành 33

GateNews55phút trước

Rockefeller Capital Management Tăng Tỷ Trọng Đầu Tư vào Công Ty Quản Lý Kho Bitcoin với Tăng 146% - U.Today

bitcoin news Dòng vốn Thị trường thế giới

Việc chấp nhận Bitcoin của các tổ chức đang tăng mạnh, với Rockefeller Capital tăng vị thế trong MicroStrategy lên 146% lên 198,283 cổ phiếu. Các nhà đầu tư khác, như Amundi và NPS của Hàn Quốc, cũng đang tăng mạnh lượng nắm giữ của họ, phản ánh sự quan tâm ngày càng tăng đối với Bitcoin trong bối cảnh đợt tăng giá gần đây.

UToday57phút trước

BlackRock kể từ ngày 24 tháng 2 đã rót vào 17.642 BTC, tương đương khoảng 1.28 tỷ USD

bitcoin news Thị trường thế giới Dữ liệu trên chuỗi

ChainCatcher tin tức, theo tin thị trường, BlackRock gần đây liên tục mua vào Bitcoin, kể từ ngày 24 tháng 2 đã ròng chảy 17,642 BTC (khoảng 1.28 tỷ USD). Trong cùng kỳ, giá Bitcoin đã tăng gần 12%.

GateNews1giờ trước

Iran mạnh mẽ phủ nhận bí mật đàm phán hòa bình với Mỹ! Chiến tranh Mỹ-Iran có thể kéo dài lâu, Bitcoin vượt 73.000 USD, Ethereum đứng trên 2100 USD

ethereum news Tin tức tiền điện tử hàng ngày Biến động giá Thị trường thế giới Địa chính trị

Chính phủ Iran phủ nhận đã liên lạc đàm phán ngừng chiến tranh với Mỹ, gọi đó là "chiến tranh tâm lý" và lời dối trá. Báo cáo chỉ ra rằng, Cục tình báo Iran đã liên lạc qua các kênh với CIA, nhưng bị phủ nhận. Sau đó, giá dầu quốc tế tạm thời tăng rồi giảm trở lại, do kế hoạch hộ tống tàu dầu của quân đội Mỹ. Ngoài ra, xung đột Trung Đông tiếp tục gây thiệt hại về người và đẩy giá năng lượng tăng, Bitcoin cũng theo đó tăng vọt vượt qua 73.000 USD.

動區BlockTempo1giờ trước

Nhà phân tích Wintermute: Vốn đã bắt đầu chuyển hướng theo giai đoạn sang tài sản mã hóa, BTC vượt trội hơn thị trường chứng khoán Mỹ có thể do dòng vốn luân chuyển

bitcoin news Phân tích thị trường Dòng vốn Kinh tế vĩ mô Thị trường thế giới

Nhà phân tích Wintermute Jasper De Maere chỉ ra rằng, trong hai tháng gần đây, hiệu suất của tài sản mã hóa kém hơn so với các loại tài sản khác, nhưng trong bối cảnh thị trường hiện tại, tài sản số có thể có lợi thế nhờ tính tương đối độc lập với các yếu tố vĩ mô. Ông cảnh báo rằng, hiệu suất trong tương lai có thể yếu đi do áp lực lạm phát gây ra bởi căng thẳng địa chính trị, thị trường trong ngắn hạn vẫn sẽ có biến động cao.

GateNews1giờ trước

Bình luận

0/400

Không có bình luận