Vision Banana của Google: Mô hình thị giác hợp nhất vượt trội các mô hình chuyên cho từng tác vụ trong phân đoạn và hình học 3D

Tin tức từ Gate, ngày 23 tháng 4 — Các nhà nghiên cứu của Google, bao gồm He Kaiming và Xie Saining, đã công bố một bài báo giới thiệu Vision Banana, một mô hình hiểu thị giác đa dụng được tạo ra thông qua tinh chỉnh hướng dẫn nhẹ của mô hình tạo ảnh Nano Banana Pro (Gemini 3 Pro Image) của công ty. Điểm đổi mới cốt lõi là hợp nhất đầu ra của mọi tác vụ thị giác dưới dạng các ảnh RGB, cho phép phân đoạn, ước lượng độ sâu và dự đoán pháp tuyến bề mặt thông qua tạo ảnh mà không cần kiến trúc hoặc hàm mất mát chuyên cho từng tác vụ.

Trong phân đoạn ngữ nghĩa, Vision Banana vượt trội mô hình chuyên biệt SAM 3 thêm 4,7 điểm phần trăm trên Cityscapes; trong phân đoạn theo biểu thức tham chiếu, nó vượt qua SAM 3 Agent. Tuy nhiên, nó chậm hơn SAM 3 trong phân đoạn theo thể hiện (instance segmentation). Với các tác vụ 3D, ước lượng độ sâu theo chuẩn metric đạt độ chính xác trung bình 0,929 trên bốn bộ dữ liệu chuẩn, vượt Depth Anything V3 ở mức 0,918, chỉ sử dụng dữ liệu tổng hợp mà không cần thông tin độ sâu thực hay tham số camera trong khi suy luận. Ước lượng pháp tuyến bề mặt đạt kết quả hiện đại nhất trên ba bộ benchmark trong nhà.

Việc tinh chỉnh liên quan đến dữ liệu tác vụ thị giác tối thiểu pha trộn vào quá trình huấn luyện tạo ảnh gốc, giữ lại năng lực tạo của mô hình—hiệu năng khớp với Nano Banana Pro ban đầu trong các bài kiểm tra chất lượng tạo ảnh. Bài báo đề xuất rằng việc tiền huấn luyện tạo ảnh trong thị giác song song với việc tiền huấn luyện tạo văn bản trong ngôn ngữ: các mô hình học các biểu diễn bên trong cần thiết cho hiểu ảnh trong quá trình tạo, và việc tinh chỉnh hướng dẫn chỉ đơn giản là mở khóa năng lực này.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.

Bài viết liên quan

Sierra hoàn tất vòng gọi vốn Series E với $950M ở mức định giá 15,8B USD, được dẫn dắt bởi Tiger Global và GV

Theo ChainCatcher, Sierra, một startup AI doanh nghiệp được thành lập bởi Bret Taylor, chủ tịch hội đồng OpenAI, và Clay Bavor, cựu giám đốc điều hành Google, đã hoàn tất vòng gọi vốn Series E trị giá 950 triệu USD với định giá sau vòng là 15,8 tỷ USD. Vòng này do Tiger Global và nhánh đầu tư mạo hiểm của Alphabet là G dẫn dắt

GateNews5phút trước

OpenAI huy động $4 tỷ USD cho dự án triển khai AI doanh nghiệp

Theo Bloomberg, OpenAI đã huy động hơn $4 tỷ đô la cho The Deployment Company, một dự án mới mà công ty sẽ tự kiểm soát để giúp các doanh nghiệp áp dụng phần mềm AI của mình. Dự án này được định giá 10 tỷ USD trước khi nhận thêm vốn mới và được hậu thuẫn bởi 19 nhà đầu tư do TPG và Brookfield Asset Management dẫn dắt, cùng

GateNews12phút trước

Đồng sáng lập OpenAI Brokeman Xác nhận $30B Holdings trong lời khai tại tòa vào thứ Hai

Vào thứ Hai, trong phiên tòa khi làm chứng trong tranh chấp pháp lý giữa OpenAI và Elon Musk, đồng sáng lập và chủ tịch OpenAI, Greg Brokeman, đã xác nhận rằng phần nắm giữ của ông trong công ty có trị giá gần 30 tỷ USD. Khi được hỏi liệu giá trị đó có “gần 30 tỷ USD” hay không, Brokeman đã trả lời khẳng định.

GateNews12phút trước

Nhà Trắng đang cân nhắc quy trình rà soát của chính phủ đối với các mô hình AI mới, tuần trước đã gặp và brief các lãnh đạo công nghệ

Theo The New York Times, Nhà Trắng đang thảo luận một lệnh hành pháp nhằm thành lập một lực lượng đặc nhiệm về trí tuệ nhân tạo, quy tụ lãnh đạo các công ty công nghệ và quan chức chính phủ để nghiên cứu các quy trình điều tiết tiềm năng. Tuần trước, các quan chức Nhà Trắng đã briefed

GateNews17phút trước

Các nhà lập pháp Colorado đề xuất thay thế luật AI nhằm giải quyết mối lo ngại của ngành

Các nhà lập pháp Colorado đang tiến hành bãi bỏ và thay thế luật trí tuệ nhân tạo (AI) năm 2024 của bang, SB24-205, bằng các quy định mới nhằm thu hẹp phạm vi quản lý AI trong khi giải quyết các lo ngại của ngành về gánh nặng tuân thủ. Đề xuất mới, SB26-189, sẽ điều chỉnh các hệ thống AI được sử dụng trong

CryptoFrontier5giờ trước

R0AR tiến vào Vòng chung kết Consensus 2026 PitchFest, chỉ thiếu Top 20 một chút

Theo MetaversePost, R0AR đã tiến vào vòng lựa chọn cuối cùng của CoinDesk’s Consensus 2026 PitchFest vào ngày 4/5, chỉ thiếu sát nút top 20 startup được chọn để thuyết trình trực tiếp. Đơn vị đổi mới Web3 và AI này đã được đánh giá cùng các startup có tiềm năng cao trên toàn thế giới tại một trong những sự kiện…

GateNews9giờ trước
Bình luận
0/400
Không có bình luận