أصدرت جوجل تحديثا كبيرا لبرنامج Gemini 3 Deep Think، متجاوزة بشكل كبير كلود أوبوس 4.6 (68.8٪) وGPT-5.2 (52.9٪) في اختبار ARC-AGI-2 بنسبة 84.6٪، مع تحقيق تصنيف “السيد الكبير الأسطوري” في Codeforces.
(الملخص: تم تقديم نموذج التعلم في ChatGPT: هل هو غروب الدروس الخصوصية، أم فجر العصر الذهبي للتعليم؟ )
(ملحق خلفي: أطلقت جوجل رسميا “جيميني 3”!) ما هي أبرز إنجازات الوصول إلى قمة أذكى نموذج ذكاء اصطناعي في العالم؟ )
جدول محتويات هذا المقال
أصدرت جوجل اليوم (الثالث عشر) ترقية كبيرة لجيميني 3 ديب ثينك. في اختبار ARC-AGI-2 (وهو اختبار استدلالي مخصص لمنع الذكاء الاصطناعي من حفظ بنوك الأسئلة، ولا يختبر مدى معرفتك، وما إذا كان بإمكانك تلخيص القواعد بنفسك من عدة أمثلة)، حصل اختبار Gemini 3 Deep Think على نسبة 84.6٪.
للمعلومية، حصل Claude Opus 4.6 (وضع التفكير الأكسي) على 68.8٪، وGPT-5.2 (وضع التفكير xhigh) على 52.9٪، ومتوسط الدرجة البشرية حوالي 60٪.
وما هو أكثر إثارة للدهشة هو أنه في اختبار ARC-AGI-1 الأصلي، حصلت Deep Think على 96٪، مما دفع هذا المعيار، الذي كان يعتبر سابقا “أحد أصعب الاختبارات في الذكاء الاصطناعي”، إلى أقصى حد.
Deep Think متاح حاليا لمشتركي Google AI Ultra، وواجهة برمجة التطبيقات مفتوحة للمؤسسات في مرحلة الوصول المبكر.
بالإضافة إلى النتائج المستمرة، ذكرت جوجل تفصيلا في الإعلان: نجح Deep Think في تحديد ثغرة منطقية لم يكتشفها أي من المراجعين سابقا عند مراجعة ورقة رياضية تمت مراجعتها من قبل البشر. تم تأكيد هذه الورقة من قبل علماء الرياضيات في جامعة روتجرز.
تكمن أهمية هذه الحالة ليس في أداء النموذج في الاختبارات الموحدة، بل في قدرته على إثبات النتائج في سيناريوهات علمية حقيقية ومفتوحة النهاية. المراجعة من الأقران هي آلية التحكم الأساسية في الجودة في الأوساط الأكاديمية، وإذا تمكن الذكاء الاصطناعي من تقديم مساعدة قيمة باستمرار في هذه العملية، فإن تأثيره التسريع على البحث العلمي سيكون أبعد بكثير مما يمكن قياسه بأي معيار.
كما حقق ديب ثينك مستوى الميدالية الذهبية في قسم الاختبار التحريري من أولمبياد الفيزياء والكيمياء الدولي لعام 2025، بدرجة إيلو 3,455 في كودفورس، وهو ما يعادل مستوى “المعلم الكبير الأسطوري”، وهو عدد قليل فقط من المبرمجين البشر في العالم يمكنهم الوصول إلى هذا المستوى.
في “الامتحان الأخير للبشرية”، وهو معيار صممه خبراء في مجالات مختلفة وجعل الذكاء الاصطناعي متعمدا صعبا على الإجابة، حصل Deep Think على 48.4٪ (دون استخدام الأدوات)، محققا رقما قياسيا جديدا أيضا.
السباق التقني في الثلاثي الكبار للذكاء الاصطناعي يغير مشهد السوق. انخفضت حصة ChatGPT السوقية من 87٪ في ذروتها إلى حوالي 68٪، بينما ارتفعت Gemini من أقل من 5٪ إلى أكثر من 18٪، وقامت شركة Anthropic بتآكل سوق المؤسسات بشكل مستمر.
الميزة الفريدة لجوجل في هذا السباق هي قدرتها على التوزيع. جيميني مدمج في أندرويد، ومتصفح كروم، وجوجل وورك بيس، ومحركات البحث، مما يعني أنه حتى لو كان متساويا مع منافسيه من حيث قدرات النماذج، يمكن لجوجل كسب المستخدمين من خلال مزايا القنوات.
لكن ميزة التوزيع هي سيف ذو حدين. إذا لم تكن تجربة Gemini جيدة بما فيه الكفاية، فقد تفقد ثقة المستخدمين أسرع من أي منافس لأن المستخدمين “يتفاعلون بشكل سلبي” بدلا من “اختيار نشط”. مستخدمو OpenAI يدفعون بنشاط ولديهم تحمل وثبات أعلى بطبيعتهم.
كل ترقية في سباق الذكاء الاصطناعي تدفع الطلب على البنية التحتية للحوسبة. تكلفة عناقيد وحدات معالجة الرسوميات المطلوبة لتدريب نموذج متقدم ارتفعت بشكل كبير من مئات الملايين من الدولارات في عام 2024 إلى مليارات الدولارات في عام 2026. وهذا يؤثر أيضا بشكل مباشر على أمرين.
**أولا، مسار التحول لمعدني البيتكوين.**عندما يتم ضغط أرباح التعدين (تقدر شركة JPMorgan Chase & Co. أن تكاليف إنتاج البيتكوين انخفضت إلى 7.7 مليون دولار هذا الأسبوع، بينما يبلغ سعر العملة حوالي 6.6 مليون)، فإن عمال المناجم الذين يمتلكون بنية تحتية حوسبة واسعة النطاق يسرعون تحولهم نحو خدمات الحوسبة بالذكاء الاصطناعي.
شركات التعدين عالية التكلفة لا “تخرج” بل “تغير مسارها المهني”، من تعدين البيتكوين إلى دخل العقود الذي يوفر قوة حوسبة بالذكاء الاصطناعي.
**ثانيا، سرد رموز الذكاء الاصطناعي.**كلما أصدرت جوجل أو OpenAI أو Anthropic ترقية كبيرة، عادة ما تتعرض الرموز المرتبطة بالذكاء الاصطناعي ضمن السلسلة مثل بروتوكولات الحوسبة اللامركزية لضجة قصيرة الأمد.
لكن المشكلة الأساسية لهذه الرموز لم تتغير: الحوسبة اللامركزية لا تزال بعيدة جدا عن الطلب على تدريب الذكاء الاصطناعي على مستوى المؤسسات من حيث التأخير وسرعة النقل. يمكن أن تسير السردية بسرعة، لكن البنية التحتية لا تستطيع مواكبة سرعة السرد.
الترقية إلى التفكير العميق تدفع جوجل إلى الصدارة في سباق الذكاء الاصطناعي، على الأقل في مجالي التفكير والعلم. لكن إذا نظرت عن كثب إلى صياغة إعلان جوجل، ستلاحظ تحولا طفيفا في التمركز: فبدلا من التركيز على “أذكى ذكاء اصطناعي عام الاستخدام”، يكرر المنشور “مصمم للعلم”.
مع ازدحام معايير الذكاء الاصطناعي العامة وصعوبة التمييز، فإن عبارة “ذكائي الاصطناعي يمكنه مساعدتك في إجراء أبحاث علمية” هي عرض قيمة أكثر إقناعا من “ذكائي الاصطناعي لديه أعلى درجة في التمرير.” إذا كان التفكير العميق قادرا حقا على المساعدة بشكل موثوق في مراجعة الأقران، وتسريع اكتشاف الأدوية، أو إيجاد حلول يغفلها البشر في محاكاة الفيزياء، فسيكون ذلك أكثر منطقية من أي قائمة مرجعية.
المشكلة أن المسافة بين “يمكن الحصول على درجات عالية في المعايير” إلى “يمكنها مساعدة البشر بشكل موثوق في السيناريوهات العلمية الحقيقية” قد تكون أبعد مما تقترحه جوجل، فبعد كل شيء، المعايير لها إجابات قياسية، أما العلم فلا يملكها.
مقالات ذات صلة
ارتفاع أسعار العملات الرقمية بينما تتقلب الأسواق الأخرى وسط نزاع الشرق الأوسط
Ripple Prime انضم إلى NSCC، وتحقيق إنجازات مهمة في مؤسسة XRP
الوضع في إيران متوتر لكنه لا يمنع تدفق الأموال: صندوق ETF للبيتكوين يجمع 4.58 مليار دولار في يوم واحد، وبيتكوين تقترب من 68,000 دولار
'يبدو مهمًا': رد فعل كبير مسؤولي التكنولوجيا السابق في ريبل على أخبار DTCC - U.Today
انخفضت أسعار الفضة الفورية بنسبة 3.00% خلال اليوم، وتُسجل الآن 86.53 دولارًا أمريكيًا للأونصة
عقود مؤشرات ناسداك الآجلة تنخفض بنسبة 1% خلال اليوم، وعقود داو جونز الآجلة تنخفض بنسبة 0.8%