داخل قفزة الذكاء الاصطناعي في الصور: كيف تتفوق أحدث نماذج جوجل و ByteDance

Decrypt

باختصار

  • كلا النموذجين يقدمان تفكيرًا متعدد الخطوات قبل توليد الصورة، مما يتيح معالجة أكثر موثوقية للمطالبات المعقدة، والصور المرجعية، وسير عمل التعديل الممتد مقارنة بأنظمة الانتشار السابقة.
  • Seedream يتفوق على Google من حيث السعر ويسمح بالتنفيذ المحلي وتحرير الصور الحقيقية، بينما Nano Banana مدمج بشكل وثيق عبر نظام Google للمستهلكين والمؤسسات.
  • أظهرت الاختبارات أن Seedream يحافظ بشكل أفضل على هوية الشخصية والتناسق المكاني عبر عدة جولات من التعديلات، بينما قدم Nano Banana نتائج أسرع وجودة أعلى في عرض النصوص داخل الصور.

أطلقت اثنين من أكثر نماذج الذكاء الاصطناعي لتوليد الصور قدرةً الآن خلال أيام من بعضهما البعض هذا الأسبوع، مما يعد بإعادة تشكيل طريقة إنشاء المستخدمين للمحتوى. Nano Banana 2 — الاسم الداخلي من Google لـ Gemini 3.1 Flash Image — صدر في 26 فبراير وسيطر على النقاش حول الذكاء الاصطناعي تقريبًا على الفور. وهو خليفة Nano Banana Pro، النموذج الذي أصبح المعيار الذهبي لتحرير الصور بالذكاء الاصطناعي بعد إطلاقه في نوفمبر 2025. Seedream 5 Lite، أحدث إصدار من ByteDance في خط إنتاج الصور، صدر قبل بضعة أيام. بينما جاء الأول مع الكثير من الضجة من آلة التسويق الخاصة بـ Google، مرّ الثاني بدون بيان صحفي تقريبًا. على الرغم من الفجوة الكبيرة في التغطية، كانت الفروق في القدرات أضيق. 

ما أهمية الأمر؟ كلا النموذجين مبنيان على نفس الفكرة المعمارية الأساسية المتمثلة في إعطاء مولد الصور القدرة على التفكير قبل الرسم. وهذا يعني دمج البحث عبر الإنترنت في الوقت الحقيقي قبل بدء التوليد، بالإضافة إلى التفكير متعدد الخطوات لفهم المطالبات المعقدة أو الغامضة، والقدرة على التعامل مع الصور المرجعية عبر سير عمل التعديل الممتد. وهذا يمثل تحولًا حقيقيًا عن نماذج التوليد قبل عام، حين كانت Stable Diffusion تعتبر ثورية على نطاق واسع. كلاهما يخرج بدقة تصل إلى 4K. يدعمان إدخالات مرجعية متعددة للصور لضمان التناسق في سير العمل. ويمكنهما الحفاظ على التماسك البصري بين الشخصيات والأشياء داخل جلسة واحدة.

كلاهما يمكنه توليد نصوص أنيقة وسهلة القراءة داخل الصور، رغم أن الأداء ليس متساويًا. وكلاهما دخل سوقًا يضم بالفعل GPT Image 1.5 من OpenAI، Flux.2 من Black Forest Labs، وكاتالوج سريع النمو من النماذج الصينية التي تتنافس بقوة على السعر والمرونة. لكن أي خيار هو الأفضل للمستخدم النهائي؟ اختبرنا كلا النموذجين للمساعدة في إيجاد الإجابة. مقارنة تقنية وسعرية الفجوة السعرية هي أول شيء يجب فهمه. تسعر Google Nano عبر واجهة برمجة التطبيقات Gemini بـ 60 دولارًا لكل مليون رمز صورة ناتج. عمليًا، هذا يعادل حوالي 0.045 دولار لصورة 512 بكسل، 0.067 دولار بدقة 1K، 0.101 دولار بدقة 2K، و0.151 دولار بدقة 4K. أما Seedream فتفرض سعر ثابت قدره 0.035 دولار لكل صورة، بغض النظر عن الدقة، لذا فهي أرخص عند أي حجم فوق 512 بكسل. عند 4K، يكلف Nano أكثر من أربعة أضعاف السعر لكل صورة. وهذا يتراكم بسرعة في خطوط الإنتاج ذات الحجم الكبير. تتبع التوافر مسارات توزيع مختلفة تمامًا. Nano متاح عبر كامل نظام Google للمستهلكين والمطورين، تطبيق Gemini، وضع AI في Google Search، Google Lens، AI Studio، Vertex AI، وGoogle Flow لإنشاء الفيديو. وهو مدمج في البنية التحتية التي يستخدمها مئات الملايين يوميًا. أما Seedream فيصل إلى المستخدمين عبر تطبيقات ByteDance الإبداعية CapCut وJianying، ومن خلال منصات تجميع API من طرف ثالث، وعبر Dreamina، واجهة توليد الصور المخصصة من ByteDance. ميزة رئيسية: يمكن تشغيل Seedream محليًا. Google لا تسمح بذلك.

تجربة المنصة تعتبر فرقًا آخر يجب أخذه في الاعتبار. Gemini هو روبوت دردشة أولاً، ومولد صور ثانيًا. يولد الصور بشكل جيد جدًا وبسرعة؛ ادعاءات سرعة Google تثبت صحتها عمليًا. لكنك تعمل داخل واجهة محادثة لم تُصمم لخطوات تكرارية في سير العمل البصري. تم بناء Dreamina خصيصًا لإنشاء الصور. يحتوي على أدوات مخصصة لإدارة المراجع، والتعديل متعدد الخطوات، والتحكم في التكوين. أيضًا، يستغرق انتظار التوليد في Dreamina وقتًا أطول بشكل ملحوظ من Nano عبر واجهة Gemini. للاختبار السريع أو صورة واحدة، يصل بك Gemini إلى الهدف بشكل أسرع. لكن لجلسات تعديل متعددة مستمرة، يكون هيكل Dreamina أكثر تماسكًا. فيما يخص الرقابة على المحتوى، ترفض Gemini العمل مع الأشخاص الحقيقيين في معظم السيناريوهات — إذا طلبت تعديلًا يشبه شخصًا معينًا، أو تعديل صورة يتضمن شخصية عامة، أو شيء يحمل إيحاءات مع موضوع يمكن التعرف عليه، فهي ترفض. أما Seedream فعمل وفق قواعد أكثر تساهلاً. تسمح ByteDance بتحرير الصور الحقيقية والعمل مع شخصيات يمكن التعرف عليها بطريقة لا تتعامل معها Google، وهو ما يفسر جزءًا كبيرًا من جمهور Seedream بين منشئي المحتوى. بالنسبة لواجهة برمجة التطبيقات تحديدًا، يدعم كلا النموذجين عمق التفكير القابل للتكوين. يتيح Nano للمطورين ضبط مستويات التفكير من Minimal إلى High أو Dynamic، مما يسمح للنموذج بالتفكير في المطالبات المعقدة قبل الالتزام بالتوليد. أما Seedream فتنفذ إشراف سلسلة الأفكار في هيكله، مما يحسن دقة المطالبات لمهام التوليد ذات القيود المتعددة والمكانية المعقدة.

لا يوضح أي من النموذجين تمامًا عملية التفكير للمطور، لكن كلاهما يتفوق على سابقيه في التعامل مع المطالبات الصعبة.

ثبات الشخصية: اختبار الحملة الصغيرة

يختبر هذا ما إذا كانت النماذج قادرة على الحفاظ على هوية معروفة عبر عدة تكرارات معدلة لصورة حقيقية. كانت الصورة الأصلية لزوجين حقيقيين تم تصويرهما في مركز تسوق. الهدف كان استبدال ملابسهما وعناصر أخرى في الصورة عبر خمس جولات، مع الحفاظ على الوجوه والبنية والهوية البصرية معروفة طوال الوقت. رفضت روبوت الدردشة Gemini التفاعل مع الصورة الحقيقية مباشرة — وهو أمر يتوافق مع سياستها المحتوى. أما اختبار Nano Banana 2 فاستلزم المرور عبر API مباشرة. Nano:

نتائج Nano، رغم أنها كانت مصقولة بصريًا، أظهرت انحرافًا كبيرًا في الهوية في التكرارات الأخيرة.

ظل التكوين العام للمشهد ثابتًا — نفق LED، منظور الممشى المبلط، وموقع اللافتة في الخلفية بقيت متماسكة. لكن الأشخاص أنفسهم تم إعادة تشكيلهم بشكل فعلي. في نهاية التكرارات، لم تعد المرأة هي الأصلية. الرجل تم استبداله تقريبًا تمامًا عبر التكرارات: عمر مختلف، بنية مختلفة، شكل وجه مختلف، شعر مختلف. النموذج أنتج شيئًا جميلًا، لكنه ليس الأشخاص الحقيقيين. يمكن تصحيح ذلك جزئيًا إذا تم رفع المراجع المستخدمة للتحرير بدون وجوه قد تشتت النموذج. Seedream:

أظهر Seedream أداءً أفضل بشكل ملحوظ في الحفاظ على الهوية عبر نفس سير العمل. حافظت بنية وجه المرأة، وابتسامتها، وميل رأسها على مرجع الصورة الأصلية عبر عدة جولات. أما الرجل فاحتفظ ببنيته ووجوده الفيزيائي بشكل أكبر. كما تم الحفاظ على استمرارية الوضعية بين الشخصين — وضع الذراعين، القرب، ومحاذاة الوقفة بقيت ثابتة، وهو أمر مهم لأي مشهد يجب أن يشعر بأنه نفس المشهد وليس مشهدًا جديدًا. كانت هناك علامات بسيطة، مثل تنعيم البشرة بشكل خفيف، وإعادة تشكيل الخصر بشكل طفيف، وتدهور الجودة بشكل عام في الشخصين.

لكن الزوجين ظلا قابلين للتعرف عليهما كزوجين. بالنسبة لخط عمل الحملة الذي يتطلب ظهور نفس الأشخاص عبر مخرجات إبداعية متعددة، فإن هذا الاختلاف ليس بسيطًا. توسيع الصورة وتكبير اللوحة اختبار التوسيع كان يتطلب من كلا النموذجين تمديد صورة غرفة معيشة حديثة وبسيطة إلى نسبة 16:9، مع توسيع المشهد بشكل طبيعي إلى اليسار واليمين مع الحفاظ على توازن الإضاءة والمنطق المكاني. المطالبة كانت تتضمن جدران بيضاء، أريكة بيج، طاولة قهوة خشبية، ونباتات داخلية — مهمة مباشرة بمعايير معمارية واضحة. Nano:

انتج Nano Banana 2 نتائج نظيفة وسلسة بدون عيوب واضحة في التوصيل أو تدرجات لونية عند حدود القص الأصلية. ظل لون الجدران، توازن الضوء النهاري، ومواد الأرضية متسقًا عبر التوسعة. اتجه اتجاه الإضاءة من النافذة المفترضة بشكل معقول إلى الإطار الموسع. من الناحية التقنية، كانت الدمج شبه خالية من العيوب. لكن النموذج أدخل بعض العناصر غير الموجودة في المشهد، مثل سلة على اليمين ومبنى في الخلفية. ومع ذلك، فهو مثير للإعجاب مقارنة بالنماذج السابقة.

Seedream:

كان Seedream أكثر بساطة في الناتج الأصلي، مما جعل التعديلات أسهل. أدخل التوسيع على الجانب الأيسر نباتًا كبيرًا آخر وسترًا كاملاً يتدفق بشكل منطقي بالنسبة لمصدر النافذة المفترض. أما الجانب الأيمن فتم توسيعه ليشمل حائطًا ثانويًا، وفنًا مؤطرًا، ووحدة خشبية منخفضة، مع الحفاظ على لغة المواد البسيطة — الخشب الفاتح، الألوان الحيادية، وعدم وجود ما يتعارض مع قواعد الجمالية الأصلية. بقيت الإضاءة متماسكة من حيث الاتجاه عبر الإطار الموسع. ظل مستوى السقف، وموقع المصباح المعلق، ونمط الأرضية المربعي منطقيًا ومتسقًا. بدا أن الغرفة أوسع بشكل معقول، وليس مجرد مفهوم معاد تشكيله. لم نلاحظ أي عيب واضح أو خطأ. بالنسبة لبيئات الإنتاج التي تهم فيها الدقة المكانية والأمانة المعمارية، فإن Seedream 5 Lite هو الأداة الأكثر موثوقية هنا. وإذا كانت الواقعية أكثر أهمية من الدقة، فإن Nano Banana 2 قد يكون الخيار الأفضل. توليد الصور غير الواقعية: اختبار صورة مصغرة ليوتيوب انتقل هذا الاختبار من التعديل والتوسيع إلى مجال التوليد الخالص بمطلب محدد جدًا: صورة مصغرة ليوتيوب تحمل عنوان “حرب الصور بالذكاء الاصطناعي” مع عنوان فرعي يذكر كلا النموذجين، وتخطيط شاشة مقسمة مع نص عنوان كبير وجريء على اليسار، وألوان عالية الطاقة متباينة، وإطار بنسبة 16:9.

توليد الصورة المصغرة يتطلب دقة في الطباعة، وترتيبًا مقصودًا، وطاقة بصرية فورية — كل ذلك معًا. Nano:

فهم Nano قواعد الصورة المصغرة بشكل مثالي. انتج تركيبًا مع نص كبير ومتباين على اليسار، ومواجهة درامية على الشاشة المقسمة على اليمين، وتباين ألوان نيون مشبع بين برتقالي دافئ وأزرق كهربائي، وفاصل برق مركزي يعزز ديناميكية المواجهة. كانت هرمية العنوان واضحة — “حرب الصور بالذكاء الاصطناعي” تهيمن بصريًا مع تأثيرات حدود وخ glow التي تظل واضحة حتى على الشاشات الصغيرة. كانت دقة النص ممتازة، بدون أخطاء إملائية، أو حروف مشوشة، مع تباعد موحد عبر النص. الوجوه كانت مفصلة بشكل فائق ومليئة بالعاطفة. كانت الطاقة البصرية عالية. بدا كأنه صورة مصغرة مصممة لجذب النقر.

Seedream:

اتبع Seedream نهجًا مختلفًا. بدلاً من الوجوه الواقعية الدرامية، أنتج شخصيات رمزية بأسلوب مبسط — شخصية موزة وكرّة عصب متوهجة لتمثيل كل نموذج، مما أعطى المقارنة طابعًا رسوميًا وأيقونيًا أكثر. كان الترتيب أنيقًا ومنظمًا جيدًا، مع العنوان المسيطر، والعنوان الفرعي المقروء بوضوح، واسم كل نموذج داخل إطار لسهولة التمييز. كانت الطباعة قوية: سمك حدود واضح، قابلة للقراءة على مقياس كبير، بدون عيوب رئيسية. بينما مال Nano Banana إلى الإثارة والعاطفة، أنتج Seedream شيئًا أقل انفجارًا، وأكثر تميزًا، وقابلًا للتكرار كهوية بصرية متكررة. قد يكون هذا خيارًا أسلوبيًا، لكن برأي شخصي، من أجل تحسين معدل النقر الفيروسي بشكل عدواني، فإن كثافة Nano Banana السينمائية لها الأفضلية. توليد الصور الواقعية: دقة متعددة القيود الاختبار النهائي قيّم مدى دقة كل نموذج في اتباع مطالبة مفصلة متعددة العناصر دون انتهاك أو تفسير خاطئ لأي من القيود. المطلب: صورة بورتريه سينمائية لامرأة معمارية تبلغ من العمر 32 عامًا على سطح مبنى في غروب الشمس، ترتدي معطف خندق بيج ونظارات دائرية، وتمسك بمخططات ملفوفة في يدها اليسرى تحديدًا، مع أفق المدينة غير واضح في الخلفية، وإضاءة ساعة الذهب مع إضاءة حافة ناعمة، وعمق ميدان ضحل يحاكي عدسة 50 ملم، بنسبة عمودية 4:5، وملمس بشرة واقعي، ورقشة فيلم خفيفة. كل عنصر من هذه القائمة هو قيد يمكن أن يفشل بشكل مستقل.

Nano:

انتج Nano صورة لامرأة قوقازية تنظر بعيدًا عن الكاميرا — خيار سردي غير محدد في المطالبة، ويميل إلى التفسير الإبداعي أكثر من الالتزام الصارم بالقيود. تمت معالجة معطف الخندق البيج، والنظارات الدائرية، والمخططات الملفوفة بشكل صحيح. كانت السطحية على السطح موجودة، والسماء الضبابية كانت حاضرة ومقنعة مكانيًا. كانت إضاءة ساعة الذهب موجودة، لكنها كانت أكثر برودة قليلاً من الألوان الدافئة التي طلبتها المطالبة. كانت إضاءة الحافة غير واضحة بشكل حاسم. تم تنفيذ عمق الميدان بشكل جيد، لكن الانضغاط المكاني بدا أقرب إلى محاكاة 35-40 ملم بدلاً من 50 ملم الحقيقي. كانت حبوب الفيلم قليلة جدًا لدرجة يصعب ملاحظتها. كانت نسيج البشرة واقعيًا، لكن مع تحيّز التنعيم الخفيف الذي يميز أنظمة الانتشار المدربة على الجمال. بشكل عام، كانت التنفيذ جيدًا، مع بعض الاختيارات الهادئة التي اتخذها النموذج بنفسه. Seedream:

انتج Seedream صورة لامرأة آسيوية تنظر مباشرة إلى الكاميرا — الافتراض الافتراضي غير المحدد للمطالبة التي لم تحدد اتجاه النظرة. كانت جميع العناصر المحددة موجودة ومطبقة بشكل صحيح. كانت حرارة ساعة الذهب أكثر حضورًا (وربما مبالغًا فيها)، مع إضاءة حافة واضحة تفصل الموضوع عن الخلفية، مما يتوافق مع نية المطالبة. كان تنفيذ عمق الميدان وضغط البؤرة أكثر تشابهًا لمحاكاة حقيقية لـ 50 ملم، مع نسب طبيعية بين الموضوع والخلفية. كانت نسيج البشرة دقيقًا مع احتفاظ أفضل بالتباين الدقيق وتقليل عيوب التنعيم مقارنة بنتائج Nano Banana. ومع ذلك، تم توليد مخطط واحد بشكل غير صحيح، ويبدو أكثر كأنه أثر غير مقصود من عنصر صحيح في الصورة. من الناحية التركيبية، كانت نتيجة Seedream أكثر تمركزًا ودقة فنية، مع تقليل الإضافات التفسيرية، لكن Nano Banana أنتج صورة أكثر واقعية. خطأ في التناسق قد ترغب في أخذه بعين الاعتبار على مدى جلسات API الممتدة التي تتضمن حجمًا كبيرًا من التوليدات المتسلسلة، أظهر كلا النموذجين تدهورًا لم يكن موجودًا في بداية سير العمل. بدأ Seedream في إنتاج وجوه غير واضحة على أشخاص كانت واضحة في التوليدات السابقة. وبدأ Nano يفقد هوية الشخص تمامًا، مولدًا شخصيات لا علاقة لها بشكل ثابت مع الأشخاص الذين تم تحديدهم في بداية الجلسة. كما أن كلا النموذجين بدا أنه يقلل من عمق التفكير مع زيادة مدة الجلسة — كأنهما يقضيان وقتًا أقل على كل توليد، كلما زاد عددها. لا يتضح من الخارج ما إذا كان هذا تقييدًا حسابيًا متعمدًا، أو سلوك توازن عبء تحت ضغط حركة API، أو شيء في الهيكلية. لكن الأمر ثابت بما يكفي للتخطيط حوله في أي خط إنتاج يمتد لسلسلة توليد طويلة. كلا النموذجين يعملان بشكل أفضل في بداية الجلسة. ويتدهوران مع الحجم المستمر. من الأفضل، بدلًا من إجراء تكرارات متتالية، أن تطلب من النموذج عددًا معقولًا من التعديلات في تكرار واحد لتجنب التدهور. لكن الأمر فن. الكثير من التعديلات في جولة واحدة يؤدي إلى ضعف الالتزام بالمطالبات؛ وقليل جدًا يتطلب تكرارات متتالية، مما يضعف التناسق. الخلاصة: من الفائز؟ Nano يتفوق في عرض النص، وسرعة التوليد الخام، والتكامل مع النظام البيئي، وكفاءة التوليد. دقة النص هي ميزته الأكثر وضوحًا — لا حروف مشوشة، ولا خطوط غير متناسقة، ولا تكرار غير ضروري. يولد بسرعة. ويعمل عبر منتجات يستخدمها مليارات الناس بالفعل. ودمج معرفته العالمية، حيث يبحث في الويب قبل اتخاذ قرار التوليد، ينتج مخرجات تبدو مدعومة تحريرياً أكثر من كونها جمالية عامة. إذا كان سير عملك داخل نظام Google، وإذا كانت دقة النص داخل الصور غير قابلة للتفاوض، أو إذا كنت بحاجة إلى تكرار سريع دون العمل مع أشخاص حقيقيين، فإن Nano هو الأداة الأقوى في تلك الظروف المحددة. أما Seedream فيفوز من حيث التكلفة، وتصميم المنصة، ومرونة المحتوى، والانضباط الهيكلي في المهام المكانية، والحفاظ على الهوية عبر التعديلات المتعددة.

السعر الثابت 0.035 دولار يجعلها الخيار الافتراضي العملي لأي خط إنتاج يولد الصور بكميات كبيرة. واجهة Dreamina المخصصة أكثر تماسكًا لجلسات إبداعية مستمرة من واجهة روبوت الدردشة Gemini. سياسة المحتوى التسهيلية تفتح مجالات لا تتعامل معها Google. وللسير العمل الذي يتطلب الحفاظ على هوية متسقة عبر تكرارات متعددة للأشخاص الحقيقيين — وهو الطلب الأساسي في الحملات — كان أداء Seedream أفضل في كل اختبار أجريناه.

شاهد النسخة الأصلية
إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة من مصادر خارجية ولا تمثل آراء أو مواقف Gate. المحتوى المعروض في هذه الصفحة هو لأغراض مرجعية فقط ولا يشكّل أي نصيحة مالية أو استثمارية أو قانونية. لا تضمن Gate دقة أو اكتمال المعلومات، ولا تتحمّل أي مسؤولية عن أي خسائر ناتجة عن استخدام هذه المعلومات. تنطوي الاستثمارات في الأصول الافتراضية على مخاطر عالية وتخضع لتقلبات سعرية كبيرة. قد تخسر كامل رأس المال المستثمر. يرجى فهم المخاطر ذات الصلة فهمًا كاملًا واتخاذ قرارات مدروسة بناءً على وضعك المالي وقدرتك على تحمّل المخاطر. للتفاصيل، يرجى الرجوع إلى إخلاء المسؤولية.
تعليق
0/400
لا توجد تعليقات