Pesan Berita Gate, 23 April — Peneliti Google, termasuk He Kaiming dan Xie Saining, menerbitkan sebuah makalah yang memperkenalkan Vision Banana, model pemahaman visi serbaguna yang dibuat melalui fine-tuning instruksi ringan dari model pembuatan gambar Nano Banana Pro (Gemini 3 Pro Image) milik perusahaan. Inovasi utamanya menyatukan output dari semua tugas visi sebagai gambar RGB, sehingga memungkinkan segmentasi, estimasi kedalaman, dan prediksi normal permukaan melalui pembuatan gambar tanpa arsitektur atau fungsi rugi yang spesifik tugas.
Dalam semantic segmentation, Vision Banana mengungguli model khusus SAM 3 sebesar 4,7 poin persentase pada Cityscapes; dalam referring expression segmentation, ia melampaui SAM 3 Agent. Namun, ia tertinggal di belakang SAM 3 untuk instance segmentation. Untuk tugas 3D, estimasi kedalaman metrik mencapai akurasi rata-rata 0,929 di empat kumpulan data standar, melampaui Depth Anything V3 sebesar 0,918, dengan hanya data sintetis tanpa informasi kedalaman nyata atau parameter kamera saat inferensi. Estimasi normal permukaan mencapai hasil state-of-the-art pada tiga benchmark indoor.
Fine-tuning melibatkan data tugas visi yang minimal dicampurkan ke pelatihan pembuatan gambar asli, sambil mempertahankan kemampuan generasi model—kinerjanya menyamai Nano Banana Pro yang asli dalam uji kualitas generasi. Makalah tersebut mengusulkan bahwa pretraining pembuatan gambar dalam visi sejajar dengan pretraining pembuatan teks dalam bahasa: model mempelajari representasi internal yang dibutuhkan untuk pemahaman gambar selama proses generasi, sementara fine-tuning instruksi hanya melepaskan kemampuan ini.
Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke
Penafian.
Artikel Terkait
IREN Mengakuisisi Mirantis untuk $625M dalam Kesepakatan Saham Seluruhnya untuk Memperluas Platform Cloud AI
Menurut BlockBeats, IREN Limited menyetujui untuk mengakuisisi perusahaan perangkat lunak infrastruktur cloud Mirantis dengan nilai sekitar $625 juta dalam transaksi seluruhnya berbasis saham pada 5 Mei. Akuisisi ini bertujuan untuk meningkatkan kapabilitas cloud AI IREN dengan menghadirkan kemampuan perangkat lunak dan orkestrasi untuk
GateNews2jam yang lalu
CEO Anthropic: AS Mempertimbangkan Proses Rilis Model AI yang Disederhanakan, Pesaing Tertinggal 1-3 Bulan
Menurut 金十, CEO Anthropic mengungkapkan pada 5 Mei bahwa pemerintah AS tampaknya sedang mempertimbangkan penyederhanaan proses untuk merilis model kecerdasan buatan. CEO tersebut mencatat bahwa kemampuan lab-lab AI besar lainnya mungkin tertinggal dari Anthropic sekitar satu hingga tiga
GateNews2jam yang lalu
Tim SGLang Menyelesaikan Putaran Pendanaan Benih $100M Senilai $400M , Accel Memimpin
Menurut Beating, tim di balik mesin inferensi open-source SGLang telah secara resmi membentuk RadixArk dan menyelesaikan putaran pendanaan seed senilai 100 juta dolar AS dengan valuasi post-money 400 juta dolar AS. Accel memimpin putaran tersebut, dengan Spark Capital sebagai investor co-lead. Pesaing semikonduktor Nvidia (melalui
GateNews3jam yang lalu
OpenAI Memberi Hibah kepada 8.000 Pengembang untuk Meningkatkan Batas Kecepatan Codex hingga 10x sampai 5 Juni
Menurut Beating, OpenAI mengirim email kepada lebih dari 8.000 pengembang yang mendaftar untuk acara offline GPT-5.5 di San Francisco, memberi mereka peningkatan 10x pada batas laju Codex yang berlaku segera hingga 5 Juni. Semua pelamar menerima hadiah apa pun terlepas dari apakah mereka mendapat undangan acara.
GateNews3jam yang lalu
Patungan OpenAI dengan Anthropic dalam pembicaraan untuk mengakuisisi tiga perusahaan layanan AI pada 5 Mei
Menurut Jin 10, usaha patungan OpenAI dengan Anthropic sedang dalam pembicaraan untuk mengakuisisi tiga perusahaan layanan AI pada 5 Mei. Perusahaan yang ditargetkan dilaporkan mencakup perusahaan yang berfokus pada rekayasa dalam layanan AI
GateNews3jam yang lalu
Anthropic Meluncurkan Sepuluh Agen AI untuk Layanan Keuangan pada Hari Selasa
Anthropic meluncurkan sepuluh agen AI baru pada Selasa yang dirancang untuk menangani tugas layanan keuangan, termasuk menyusun presentasi rapat klien, meninjau laporan keuangan, dan mengeskalasi kasus untuk ditinjau kepatuhan. Alat tersebut menargetkan para profesional di perbankan, asuransi, manajemen aset, dan fintech
GateNews3jam yang lalu