Gate News 訊息,4 月 23 日——Google 研究人員(包含 He Kaiming 和 Xie Saining)發表了一篇論文,介紹 Vision Banana:一款通用型視覺理解模型。該模型是透過對該公司的 Nano Banana Pro (Gemini 3 Pro Image) 影像生成模型進行輕量指令微調所打造。這項關鍵創新將所有視覺任務的輸出統一為 RGB 影像,使得能夠在不使用任務特定架構或損失函數的情況下,透過影像生成來完成分割、深度估計與表面法向預測。
在語意分割方面,Vision Banana 在 Cityscapes 上相較專用模型 SAM 3 領先 4.7 個百分點;在指代表達式分割(referring expression segmentation)方面,它超越了 SAM 3 Agent。不過在實例分割(instance segmentation)上,它落後於 SAM 3。對於 3D 任務,度量深度估計在四個標準資料集上達到 0.929 的平均準確率,超過 Depth Anything V3 的 0.918。推論時僅使用合成資料,沒有任何真實深度資訊或相機參數。表面法向估計在三個室內基準測試中取得了最先進的結果。
微調涉及將極少量的視覺任務資料混入原始影像生成訓練,同時保留模型的生成能力——在生成品質測試中的表現與原始 Nano Banana Pro 相同。論文提出:視覺中的影像生成預訓練與語言中的文字生成預訓練相類似;模型在生成過程中學習用於影像理解的內部表徵,而指令微調只是釋放這種能力。
免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見
聲明。
相關文章
IREN 透過全股票併購案取得 Mirantis,$625M 用於擴展 AI 雲端平台
根據 BlockBeats,IREN Limited 同意在 5 月 5 日以全股票交易方式,約 6.25 億美元收購雲端基礎設施軟體公司 Mirantis。此次收購旨在透過引入軟體與編排能力,來強化 IREN 的 AI 雲端能力,並……
GateNews2小時前
Anthropic 執行長:美國正考慮簡化 AI 模型發布流程,競爭對手落後 1-3 個月
根據 金十,Anthropic 的執行長在 5 月 5 日透露,美國政府似乎正在考慮簡化發布人工智慧模型的流程。執行長指出,其他大型 AI 實驗室的能力可能會比 Anthropic 落後 1 到 3
GateNews3小時前
SGLang 團隊完成 $100M 種子輪融資,估值為 $400M ,Accel 領投
根據 Beating,開源推理引擎 SGLang 背後的團隊已正式成立 RadixArk,並完成一輪 1 億美元種子融資,投後估值為 4 億美元。Accel 領投此輪,Spark Capital 共同擔任領投方投資人。半導體競爭對手 Nvidia(透過
GateNews3小時前
OpenAI 賦予 8,000 名開發者 10 倍 Codex 速率限制提升,直到 6 月 5 日
根據 Beating,OpenAI 向在舊金山報名 GPT-5.5 離線活動的 8,000 多名開發者寄出了電子郵件,授予他們自即日起至 6 月 5 日止的 Codex 速率限制 10 倍提升。所有申請者都會獲得該獎勵,不論他們是否參加了該活動
GateNews3小時前
OpenAI 與安以捺匹克的合資企業正在洽談,以在 5 月 5 日收購三家 AI 服務公司
根據 Jin 10,OpenAI 與 Anthropic 的合資企業正在洽談於 5 月 5 日收購三家 AI 服務公司。據報導,目標公司包括專注於工程的 AI 服務公司
GateNews3小時前
Anthropic 週二推出 10 個用於金融服務的 AI 代理
Anthropic 於週二推出了十個新的 AI 代理程式,旨在處理金融服務任務,包括起草客戶會議簡報、審閱財務報表,以及將案件升級以供法規遵循審查。這些工具鎖定銀行、保險、資產管理與金融科技領域的專業人士
GateNews3小時前