Vision Banana ของ Google: โมเดลวิสัยทัศน์แบบรวมศูนย์ที่ทำได้ดีกว่าโมเดลเฉพาะงานในการแบ่งส่วนและเรขาคณิต 3D

ข้อความ Gate News ประจำวันที่ 23 เมษายน — นักวิจัยของ Google รวมถึง He Kaiming และ Xie Saining ได้เผยแพร่บทความที่นำเสนอ Vision Banana ซึ่งเป็นโมเดลความเข้าใจด้านภาพอเนกประสงค์ที่สร้างขึ้นผ่านการปรับจูนคำสั่งแบบน้ำหนักเบาของโมเดลสร้างภาพ Nano Banana Pro (Gemini 3 Pro Image) ของบริษัท นวัตกรรมหลักคือการรวมผลลัพธ์ของงานวิชันทั้งหมดให้เป็นภาพ RGB ทำให้สามารถทำการแบ่งส่วน การประมาณความลึก และการคาดการณ์เวกเตอร์ปกผิวได้ผ่านการสร้างภาพ โดยไม่ต้องใช้สถาปัตยกรรมหรือฟังก์ชันการสูญเสียที่เฉพาะเจาะจง

ในการแบ่งส่วนเชิงความหมาย Vision Banana ทำได้ดีกว่าโมเดลเฉพาะทาง SAM 3 ด้วยคะแนนที่มากกว่า 4.7 จุดเปอร์เซ็นต์บน Cityscapes; ในการแบ่งส่วนด้วยการอ้างอิง (referring expression segmentation) มันทำได้เหนือกว่า SAM 3 Agent อย่างไรก็ตาม มันยังตามหลัง SAM 3 ในการแบ่งส่วนแบบแยกเป็นอินสแตนซ์ สำหรับงาน 3D การประมาณความลึกแบบเมตริกทำได้ค่าเฉลี่ยความแม่นยำ 0.929 จากชุดข้อมูลมาตรฐาน 4 ชุด และสูงกว่า Depth Anything V3 ที่ 0.918 โดยใช้เพียงข้อมูลสังเคราะห์โดยไม่มีข้อมูลความลึกจริงหรือพารามิเตอร์ของกล้องในระหว่างการอนุมาน การประมาณค่าเวกเตอร์ปกผิวทำผลงานล้ำสมัยบนเกณฑ์ทดสอบในร่ม 3 รายการ

การปรับจูนทำโดยนำข้อมูลงานด้านภาพเพียงเล็กน้อยมาผสมกับการฝึกการสร้างภาพดั้งเดิม โดยรักษาความสามารถในการสร้างของโมเดลไว้—ผลการทดสอบด้านคุณภาพการสร้างเทียบเคียงกับ Nano Banana Pro รุ่นเดิม บทความเสนอว่า pretraining สำหรับการสร้างภาพในด้านภาพนั้นเทียบได้กับ pretraining สำหรับการสร้างข้อความในภาษา: โมเดลเรียนรู้การแทนภายในที่จำเป็นสำหรับความเข้าใจภาพระหว่างการสร้าง โดยการปรับจูนคำสั่งเพียงแค่ปลดล็อกความสามารถนี้ออกมาเท่านั้น

news.article.disclaimer

btc.bar.articles

R0AR ก้าวสู่รอบชิงชนะเลิศของ Consensus 2026 PitchFest ก่อนจะพลาดท็อป 20 อย่างหวุดหวิด

ตามรายงานของ MetaversePost, R0AR ได้ผ่านเข้าสู่รอบคัดเลือกรอบสุดท้ายของ CoinDesk's Consensus 2026 PitchFest ในวันที่ 4 พฤษภาคม โดยพลาดโอกาสเข้ารอบท็อป 20 สตาร์ทอัปสำหรับการนำเสนอสดอย่างหวุดหวิด ผู้สร้างสรรค์นวัตกรรมด้าน Web3 และ AI รายนี้ถูกประเมินร่วมกับสตาร์ทอัปที่มีศักยภาพสูงทั่วโลกในหนึ่งในมุมมองของอุตสาหกรรมที่

GateNews38 นาที ที่แล้ว

มัสก์เรียกร้องข้อตกลงมูลค่า 150 พันล้านดอลลาร์จาก OpenAI ก่อนการพิจารณาคดี ขณะที่การเจรจาข้อตกลงล้มเหลว

ตามเอกสารยื่นต่อศาล อีลอน มัสก์ ติดต่อเกร็ก บร็อคแมน ประธานของ OpenAI เมื่อวันที่ 26 เมษายน ซึ่งเป็นเวลาสองวันก่อนที่การพิจารณาคดีของทั้งคู่จะเริ่มขึ้นในศาลรัฐบาลกลางเขตโอ๊คแลนด์ เพื่อหารือเรื่องการยุติข้อพิพาท เมื่อบร็อคแมนเสนอให้ทั้งสองฝ่ายยกเลิกคำกล่าวอ้างของตน มัสก์ตอบกลับด้วยคำข่มขู่ โดยบอกบร็อคแมนว่า: "ภายในสิ้น

GateNews47 นาที ที่แล้ว

Cursor ยอมรับข้อเสนอซื้อกิจการของ SpaceX มูลค่า 60 พันล้านดอลลาร์ แต่ไม่จับมือกับ xAI สำหรับโมเดลการเขียนโค้ด

ตามรายงานของ The Information, Cursor ได้ตอบรับข้อเสนอซื้อกิจการแบบมีเงื่อนไขมูลค่า 60 พันล้านดอลลาร์จาก SpaceX แล้ว แม้ว่าดีลยังไม่ได้ข้อสรุปในตอนนี้ บริษัทในขณะนี้ยังไม่มีแผนที่จะร่วมมือกับหน่วย AI ของ SpaceX อย่าง xAI ในการพัฒนาโมเดลด้านการเขียนโค้ด โดยแทนที่จะเป็นเช่นนั้น Cursor กำลังมุ่งเน้นไปที่การปรับปรุงประสิทธิภาพของมัน

GateNews1 ชั่วโมง ที่แล้ว

Haun Ventures ปิดกองทุนมูลค่า 1 พันล้านดอลลาร์ในวันที่ 4 พฤษภาคม โดยแบ่งเงินลงทุนระหว่างกลุ่มคริปโตก่อนเข้าสู่ตลาดและระยะหลังของการลงทุน

ตามรายงานของ Bloomberg Haun Ventures ได้ปิดดีลระดมทุน 1 พันล้านดอลลาร์สหรัฐ เมื่อวันที่ 4 พฤษภาคม โดยจัดสรร 500 ล้านดอลลาร์สหรัฐ สำหรับการลงทุนระยะเริ่มต้น และ 500 ล้านดอลลาร์สหรัฐ สำหรับการลงทุนระยะปลาย กองทุนจะนำเงินไปลงทุนในอีก 2 ถึง 3 ปีข้างหน้า โดยมุ่งเป้าไปที่สตาร์ทอัพด้านสกุลเงินดิจิทัลและบล็อกเชน ขณะเดียวกันจะขยาย

GateNews1 ชั่วโมง ที่แล้ว

OpenAI ระดมทุน $4 พันล้านดอลลาร์สำหรับบริษัทร่วมทุนด้านการปรับใช้ มูลค่า 10 พันล้านดอลลาร์

ตามรายงานของ BlockBeats เมื่อวันที่ 4 พฤษภาคม OpenAI ระดมทุนได้มากกว่า $4 พันล้านดอลลาร์ เพื่อจัดตั้งบริษัทร่วมทุนแห่งใหม่ โดยมุ่งเน้นการช่วยเหลือองค์กรต่างๆ ในการนำซอฟต์แวร์ปัญญาประดิษฐ์ของบริษัทไปปรับใช้ การร่วมทุนดังกล่าวมีชื่อว่า The Deployment Company และได้รับการสนับสนุนจากนักลงทุน 19 ราย รวมถึง TPG Inc., Brookfield Asset Management,

GateNews2 ชั่วโมง ที่แล้ว

เหตุใดบางคนจึงเชื่อว่า AI จะเปลี่ยนโลก ขณะที่บางคนมองว่าเป็นเรื่องธรรมดา? การวินิจฉัย 2 ประการของ Karpathy

Karpathy ชี้ว่า ช่องว่างด้านความเข้าใจของ AI มีต้นตอมาจากการวินิจฉัย 2 ประการ: 1) ใช้แค่โมเดลฟรี/เวอร์ชันเก่าเท่านั้น ทำให้ไม่สะท้อนขีดความสามารถของโมเดลยุคใหม่แบบ agentic อย่างแท้จริง; 2) การพัฒนาความสามารถจะเด่นชัดในสาขาที่เชิงเทคนิคสูง และมีลักษณะไม่สมมาตร สิ่งนี้ทำให้ผู้ใช้ที่จ่ายเงินและผู้อ่านทั่วไปเห็นปรากฏการณ์ที่แตกต่างกัน เกิดความเข้าใจผิดซึ่งกันและกันในโลกคู่ขนาน บทเรียนสำหรับผู้อ่านในไต้หวันคือ การใช้งานโมเดลที่ล้ำสมัยที่สุดจริงเพื่อทำงานการผลิต ตรวจสอบเหตุผลและหลักฐานของการตัดสินใจเท่านั้น จึงจะหลีกเลี่ยงไม่ให้ถูกความลุ่มหลงของสื่อชักจูง

ChainNewsAbmedia2 ชั่วโมง ที่แล้ว
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น