Vision Banana milik Google: Model Visi Terpadu Mengungguli Model yang Spesifik Tugas dalam Segmentasi dan Geometri 3D

Pesan Berita Gate, 23 April — Peneliti Google, termasuk He Kaiming dan Xie Saining, menerbitkan sebuah makalah yang memperkenalkan Vision Banana, model pemahaman visi serbaguna yang dibuat melalui fine-tuning instruksi ringan dari model pembuatan gambar Nano Banana Pro (Gemini 3 Pro Image) milik perusahaan. Inovasi utamanya menyatukan output dari semua tugas visi sebagai gambar RGB, sehingga memungkinkan segmentasi, estimasi kedalaman, dan prediksi normal permukaan melalui pembuatan gambar tanpa arsitektur atau fungsi rugi yang spesifik tugas.

Dalam semantic segmentation, Vision Banana mengungguli model khusus SAM 3 sebesar 4,7 poin persentase pada Cityscapes; dalam referring expression segmentation, ia melampaui SAM 3 Agent. Namun, ia tertinggal di belakang SAM 3 untuk instance segmentation. Untuk tugas 3D, estimasi kedalaman metrik mencapai akurasi rata-rata 0,929 di empat kumpulan data standar, melampaui Depth Anything V3 sebesar 0,918, dengan hanya data sintetis tanpa informasi kedalaman nyata atau parameter kamera saat inferensi. Estimasi normal permukaan mencapai hasil state-of-the-art pada tiga benchmark indoor.

Fine-tuning melibatkan data tugas visi yang minimal dicampurkan ke pelatihan pembuatan gambar asli, sambil mempertahankan kemampuan generasi model—kinerjanya menyamai Nano Banana Pro yang asli dalam uji kualitas generasi. Makalah tersebut mengusulkan bahwa pretraining pembuatan gambar dalam visi sejajar dengan pretraining pembuatan teks dalam bahasa: model mempelajari representasi internal yang dibutuhkan untuk pemahaman gambar selama proses generasi, sementara fine-tuning instruksi hanya melepaskan kemampuan ini.

Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke Penafian.

Artikel Terkait

IREN Mengakuisisi Mirantis untuk $625M dalam Kesepakatan Saham Seluruhnya untuk Memperluas Platform Cloud AI

Menurut BlockBeats, IREN Limited menyetujui untuk mengakuisisi perusahaan perangkat lunak infrastruktur cloud Mirantis dengan nilai sekitar $625 juta dalam transaksi seluruhnya berbasis saham pada 5 Mei. Akuisisi ini bertujuan untuk meningkatkan kapabilitas cloud AI IREN dengan menghadirkan kemampuan perangkat lunak dan orkestrasi untuk

GateNews2jam yang lalu

CEO Anthropic: AS Mempertimbangkan Proses Rilis Model AI yang Disederhanakan, Pesaing Tertinggal 1-3 Bulan

Menurut 金十, CEO Anthropic mengungkapkan pada 5 Mei bahwa pemerintah AS tampaknya sedang mempertimbangkan penyederhanaan proses untuk merilis model kecerdasan buatan. CEO tersebut mencatat bahwa kemampuan lab-lab AI besar lainnya mungkin tertinggal dari Anthropic sekitar satu hingga tiga

GateNews2jam yang lalu

Tim SGLang Menyelesaikan Putaran Pendanaan Benih $100M Senilai $400M , Accel Memimpin

Menurut Beating, tim di balik mesin inferensi open-source SGLang telah secara resmi membentuk RadixArk dan menyelesaikan putaran pendanaan seed senilai 100 juta dolar AS dengan valuasi post-money 400 juta dolar AS. Accel memimpin putaran tersebut, dengan Spark Capital sebagai investor co-lead. Pesaing semikonduktor Nvidia (melalui

GateNews3jam yang lalu

OpenAI Memberi Hibah kepada 8.000 Pengembang untuk Meningkatkan Batas Kecepatan Codex hingga 10x sampai 5 Juni

Menurut Beating, OpenAI mengirim email kepada lebih dari 8.000 pengembang yang mendaftar untuk acara offline GPT-5.5 di San Francisco, memberi mereka peningkatan 10x pada batas laju Codex yang berlaku segera hingga 5 Juni. Semua pelamar menerima hadiah apa pun terlepas dari apakah mereka mendapat undangan acara.

GateNews3jam yang lalu

Patungan OpenAI dengan Anthropic dalam pembicaraan untuk mengakuisisi tiga perusahaan layanan AI pada 5 Mei

Menurut Jin 10, usaha patungan OpenAI dengan Anthropic sedang dalam pembicaraan untuk mengakuisisi tiga perusahaan layanan AI pada 5 Mei. Perusahaan yang ditargetkan dilaporkan mencakup perusahaan yang berfokus pada rekayasa dalam layanan AI

GateNews3jam yang lalu

Anthropic Meluncurkan Sepuluh Agen AI untuk Layanan Keuangan pada Hari Selasa

Anthropic meluncurkan sepuluh agen AI baru pada Selasa yang dirancang untuk menangani tugas layanan keuangan, termasuk menyusun presentasi rapat klien, meninjau laporan keuangan, dan mengeskalasi kasus untuk ditinjau kepatuhan. Alat tersebut menargetkan para profesional di perbankan, asuransi, manajemen aset, dan fintech

GateNews3jam yang lalu
Komentar
0/400
Tidak ada komentar