Vision Banana من Google: نموذج رؤية موحد يتفوق على النماذج المخصصة في التقطيع والتعامد الهندسي ثلاثي الأبعاد

بوابة الأخبار، 23 أبريل — نشر باحثون من Google، من بينهم He Kaiming وXie Saining، ورقة بحثية تقدم Vision Banana، نموذج عام لفهم الرؤية تم إنشاؤه عبر ضبط تعليمي خفيف لتعليمات نموذج (Gemini 3 Pro Image) image generation model Nano Banana Pro من الشركة. تتمثل الابتكار الرئيسي في توحيد مخرجات جميع مهام الرؤية كصور RGB، ما يتيح إجراء التقطيع وتقدير العمق والتنبؤ بالاتجاهات السطحية عبر توليد الصور دون الحاجة إلى بنى أو دوال خسارة خاصة بكل مهمة.

في التقطيع الدلالي، تفوق Vision Banana على النموذج المتخصص SAM 3 بنسبة 4.7 نقطة مئوية على Cityscapes؛ وفي تجزئة تعبيرات الإحالة، تفوق على SAM 3 Agent. ومع ذلك، تراجع عن SAM 3 في تجزئة الحالات. بالنسبة لمهام ثلاثية الأبعاد، حقق تقدير العمق بمقياس متوسط دقة 0.929 عبر أربعة مجموعات بيانات معيارية، متجاوزًا 0.918 لدى Depth Anything V3، باستخدام بيانات صناعية فقط دون معلومات عمق حقيقية أو معلمات كاميرا أثناء الاستدلال. حقق تقدير الاتجاهات السطحية نتائج على مستوى الأفضل في ثلاثة اختبارات داخلية.

اشتمل الضبط الدقيق على بيانات مهام رؤية قليلة يتم مزجها في تدريب توليد الصور الأصلي، مع الحفاظ على قدرات التوليد لدى النموذج—كانت الأداء مطابقًا لـ Nano Banana Pro الأصلي في اختبارات جودة التوليد. تقترح الورقة أن ما قبل تدريب توليد الصور في مجال الرؤية يتوازي مع ما قبل تدريب توليد النص في اللغة: تتعلم النماذج التمثيلات الداخلية اللازمة لفهم الصور أثناء التوليد، فيما يقتصر الضبط التعليمي للتعليمات على إطلاق هذه القدرة.

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة من مصادر خارجية ولا تمثل آراء أو مواقف Gate. المحتوى المعروض في هذه الصفحة هو لأغراض مرجعية فقط ولا يشكّل أي نصيحة مالية أو استثمارية أو قانونية. لا تضمن Gate دقة أو اكتمال المعلومات، ولا تتحمّل أي مسؤولية عن أي خسائر ناتجة عن استخدام هذه المعلومات. تنطوي الاستثمارات في الأصول الافتراضية على مخاطر عالية وتخضع لتقلبات سعرية كبيرة. قد تخسر كامل رأس المال المستثمر. يرجى فهم المخاطر ذات الصلة فهمًا كاملًا واتخاذ قرارات مدروسة بناءً على وضعك المالي وقدرتك على تحمّل المخاطر. للتفاصيل، يرجى الرجوع إلى إخلاء المسؤولية.

مقالات ذات صلة

تستحوذ IREN على Mirantis مقابل $625M في صفقة أسهم بالكامل لتوسيع منصة سحابة الذكاء الاصطناعي

بحسب BlockBeats، وافقت شركة IREN Limited على الاستحواذ على شركة برامج البنية التحتية السحابية Mirantis مقابل ما يقارب 625 مليون دولار في صفقة أسهم بالكامل في 5 مايو. يهدف الاستحواذ إلى تعزيز قدرات IREN السحابية للذكاء الاصطناعي عبر إدخال قدرات البرمجيات والتنسيق إلى

GateNewsمنذ 2 س

الرئيس التنفيذي لشركة Anthropic: الولايات المتحدة تدرس عملية إصدار نموذج ذكاء اصطناعي مبسطة، والمنافسون متأخرون بما بين 1 إلى 3 أشهر

وفقًا لـ 金十، كشف الرئيس التنفيذي لشركة Anthropic في 5 مايو أن حكومة الولايات المتحدة تبدو أنها تفكر في تبسيط عملية إصدار نماذج الذكاء الاصطناعي. وأشار الرئيس التنفيذي إلى أن قدرات مختبرات الذكاء الاصطناعي الكبرى الأخرى قد تتأخر عن Anthropic بمقدار سنة إلى ثلاث سنوات

GateNewsمنذ 2 س

فريق SGLang ينجز جولة تمويل البذور $100M بتقييم $400M ، تقودها Accel

ووفقاً لما ذكرته Beating، فقد قامت مجموعة SGLang، وهي الفريق وراء محرك الاستدلال مفتوح المصدر، بإنشاء RadixArk رسمياً واكتملت جولة تمويل أولية بقيمة 100 مليون دولار بتقييم ما بعد التمويل قدره 400 مليون دولار. قادت Accel الجولة، مع شركة Spark Capital كمستثمر مشارك في القيادة. منافسو أشباه الموصلات Nvidia (عبر

GateNewsمنذ 3 س

منحت OpenAI 8,000 مطور زيادة حدّ معدل Codex بمقدار 10 أضعاف حتى 5 يونيو

وبحسب Beating، أرسلت OpenAI رسائل بريد إلكتروني إلى أكثر من 8,000 مطور ممن سجلوا للاشتراك في حدث GPT-5.5 غير المتصل في سان فرانسيسكو، وذلك بهدف منحهم زيادة بمقدار 10 أضعاف في حدود معدل Codex بدءًا من الآن وحتى 5 يونيو. ويتلقى جميع المتقدمين المكافأة بغض النظر عما إذا كانوا قد تلقوا دعوة للحدث.

GateNewsمنذ 3 س

تجري OpenAI محادثات مع شركة Anthropic بشأن مشروع مشترك للاستحواذ على ثلاث شركات لخدمات الذكاء الاصطناعي في 5 مايو

يقال إن جين 10 أفاد بأن مشروع OpenAI المشترك مع Anthropic يجري محادثات للاستحواذ على ثلاث شركات لخدمات الذكاء الاصطناعي في 5 مايو. ويُذكر أن الشركات المستهدفة تشمل شركات تركز على هندسة أنظمة الذكاء الاصطناعي ضمن خدمات الذكاء الاصطناعي

GateNewsمنذ 3 س

أطلقت شركة Anthropic عشرة وكلاء ذكاء اصطناعي لخدمات مالية يوم الثلاثاء

أطلقت شركة Anthropic يوم الثلاثاء 10 وكلاء ذكاء اصطناعي جددًا مصممين للقيام بمهام الخدمات المالية، بما في ذلك إعداد عروض تقديمية لاجتماعات العملاء، ومراجعة القوائم المالية، وتصعيد الحالات لمراجعتها من منظور الامتثال. تستهدف هذه الأدوات المتخصصين في قطاعات البنوك والتأمين وإدارة الأصول والتقنيات المالية

GateNewsمنذ 3 س
تعليق
0/400
لا توجد تعليقات