هل سألت مساعد الذكاء الاصطناعي عن مشاكلك الصحية من قبل؟
إذا كنت مثلي من المستخدمين العميقين للذكاء الاصطناعي، فغالبًا جربت ذلك أيضًا.
البيانات التي قدمتها شركة OpenAI تشير إلى أن الصحة أصبحت واحدة من أكثر سيناريوهات الاستخدام شيوعًا لـ ChatGPT، حيث يطرح أكثر من 2.3 مليار شخص حول العالم أسئلة تتعلق بالصحة والعناية الصحية أسبوعيًا.
وبسبب ذلك، مع اقتراب عام 2026، تظهر علامات على أن مجال الصحة قد يصبح أيضًا ساحة تنافس رئيسية في مجال الذكاء الاصطناعي.
في 7 يناير، أطلقت OpenAI خدمة ChatGPT للصحة، التي تسمح للمستخدمين بربط سجلاتهم الطبية الإلكترونية وتطبيقات الصحة المختلفة، مما يمكنهم من الحصول على ردود طبية أكثر تخصصًا؛ وفي 12 يناير، أطلقت شركة Anthropic على الفور Claude for Healthcare، وأكدت قدرات النموذج الجديد في السيناريوهات الطبية.
لكن المثير للاهتمام هو أن الشركات الصينية لم تتخلف عن الركب، بل أظهرت تقدمًا كبيرًا.
في 13 يناير، أعلنت شركة Baichuan Intelligence عن إصدار نموذج Baichuan M3، الذي تفوق على GPT-5.2 High من OpenAI في مجموعة تقييمات الصحة والرعاية الصحية HealthBench، محققًا أعلى مستوى أداء (SOTA).
بعد أن تعرضت شركة Baichuan لانتقادات كثيرة بعد إعلانها عن تركيزها الكلي على المجال الطبي، يبدو أنها أثبتت أخيرًا قدراتها. وقد أجرى موقع GeekPark حوارًا خاصًا مع وانغ شياو تشوان، حيث ناقشوا كيف ترى شركة Baichuan الذكاء الاصطناعي في المجال الطبي، وإمكانيات نموذج M3، ومستقبل الرعاية الصحية باستخدام الذكاء الاصطناعي.
01 أول اختبار يتجاوز OpenAI في مجال الصحة
واحدة من أبرز إنجازات نموذج M3 المُعلن عنه، هو أنه لأول مرة يتفوق على GPT-5.2 High من OpenAI في مجموعة تقييمات HealthBench، التي أُطلقت في مايو 2025، والتي تتكون من 262 طبيبًا من 60 دولة، وتضم 5000 حوار طبي متعدد الجولات وواقعي جدًا، وتعد من أكثر مجموعات التقييم الطبية موثوقية وقربًا من السيناريوهات السريرية الحقيقية على مستوى العالم.
منذ إطلاقها، ظل نموذج OpenAI يتصدر الترتيب.
أما الآن، فقد حققت شركة Baichuan Intelligence، بنموذجها المفتوح المصدر الجديد Baichuan-M3، درجة إجمالية بلغت 65.1 نقطة، لتحتل المركز الأول عالميًا، وحتى في اختبار صعوبة القرارات المعقدة في HealthBench Hard، فاز النموذج M3 أيضًا، محققًا أعلى درجة.
كما أعلنت الشركة عن نتائج اختبار معدل الوهم (الهلوسة)، الذي بلغ 3.5%، وهو أدنى معدل عالمي.
ومن الجدير بالذكر أن هذا المعدل لا يعتمد على أدوات استرجاع خارجية، وإنما هو معدل الوهم الناتج عن النموذج نفسه في سياق طبي.
وأوضحت شركة Baichuan أن تحسين النموذج في هذين المجالين يعود إلى إدخال خوارزمية التعلم المعزز المناسبة للمجال الطبي.
وفي نموذج M3، استخدمت الشركة لأول مرة تقنية Fact Aware RL (التعلم المعزز المدرك للحقائق)، التي تضمن أن النموذج لا يكرر الكلام الفارغ ولا يطلق تصريحات غير دقيقة.
وهذا أمر حاسم جدًا في المجال الطبي.
في النماذج غير المحسنة، عند طرح أسئلة طبية، غالبًا ما تظهر مشكلتان: الأولى أن النموذج قد يختلق أعراضًا أو مرضًا بشكل غير دقيق؛ والثانية أن يكون غامضًا في المعنى، ويؤدي في النهاية إلى نصيحة بضرورة مراجعة الطبيب، وهو أمر غير مفيد سواء للطبيب أو للمريض.
ويعود ذلك إلى أن العديد من النماذج تركز على تقليل معدل الوهم فقط، وقد تحاول تقليل الوهم عبر تكديس حقائق بسيطة وصحيحة، مما يخفف من معدل الوهم الكلي. لكن شركة Baichuan أدخلت آلية تجميع المعنى (Semantic Clustering) ووزن الأهمية (Importance Weighting)، حيث تُلغي التجميع التكرارات غير الضرورية، ويُعطى وزن أكبر للحجج الطبية الأساسية.
وفي الوقت ذاته، إذا تم الاعتماد فقط على عقوبة الوهم ذات الوزن العالي، فسيُجبر النموذج على اتباع استراتيجية “قلة الكلام وقلة الخطأ”، مما قد يحد من أدائه. لذلك، في خوارزمية Fact Aware RL، تم تصميم آلية توازن ديناميكية للوزن، بحيث تتكيف مع مستوى قدرة النموذج، وتوازن بين الهدفين: خلال مرحلة بناء القدرات، يُركز على تعلم وتعبير المعرفة الطبية (وزن المهمة العالي Task Weight)، وبعد نضوج القدرات، يُقلل تدريجيًا من قيود الحقائق (رفع وزن الوهم Hallucination Weight).
عندما يكون الاتصال بالإنترنت ممكنًا، أضافت Baichuan وحدة تحقق عبر البحث متعدد الجولات، ودمجت نظام تخزين مؤقت فعال، لمزامنة كم هائل من المعرفة الطبية.
02 مستوى استشارات يفوق الأطباء البشريين، ودخول مرحلة الاستخدام
لكن، تفوق النموذج على OpenAI في مجموعة HealthBench ليس هو الميزة الوحيدة في هذا الإصدار.
الأمر الأكثر إثارة هو أن شركة Baichuan ابتكرت بشكل إبداعي مجموعة تقييم جديدة تسمى SCAN-benche. مقارنة بمجموعة تقييمات OpenAI، قد توضح مجموعة التقييم التي أنشأتها Baichuan بشكل أفضل الاتجاه الذي تريد الشركة تحسينه في المجال الطبي.
الهدف الرئيسي من مجموعة التقييم التي أنشأتها Baichuan هو تحسين “قدرة الاستشارة من طرف إلى طرف”. ويستند ذلك إلى ملاحظة من تجاربها الخاصة: أن زيادة دقة الاستشارة بنسبة 2% تؤدي إلى زيادة دقة التشخيص والعلاج بنسبة 1%.
وبمعنى آخر، بالمقارنة مع مجموعة HealthBench من OpenAI، التي تركز بشكل أساسي على “هل ستجيب الذكاء الاصطناعي على الأسئلة”، فإن مجموعة SCAN-benche تهدف إلى تقييم: هل يمكن للذكاء الاصطناعي في حوار واحد أن يحصل على معلومات فعالة، ويقدم نتائج تشخيصية ونصائح طبية صحيحة.
عادةً، عند سؤال مساعد الذكاء الاصطناعي، إذا قلت “أنت طبيب ذو خبرة”، فلن تحصل على نتائج جيدة غالبًا. لأن الطبيب الحقيقي يتبع إجراءات محددة جدًا في الاستشارة — وهو ما تلخصه Baichuan في أربع قواعد تسمى مبدأ SCAN: السلامة (Safety Stratification)، وضوح المعلومات (Clarity Matters)، الربط والاستفسار (Association & Inquiry)، والإخراج المعياري (Normative Protocol).
بالاعتماد على مبدأ SCAN، استلهمت Baichuan من منهج OSCE المستخدم منذ زمن في التعليم الطبي، وبتعاون مع أكثر من 150 طبيبًا ميدانيًا، أنشأت نظام تقييم SCAN-bench، الذي يقسم عملية التشخيص إلى ثلاث مراحل رئيسية: جمع التاريخ الطبي، الفحوصات المساعدة، والتشخيص الدقيق، ويقيمها بشكل ديناميكي ومتعدد الجولات، محاكياً كامل عملية الطبيب من الاستقبال حتى التشخيص، بهدف تحسين النموذج من خلال تحقيق نتائج أفضل في كل مرحلة.
كما أعلنت Baichuan عن نتائج تقييم النموذج M3 على منصة SCAN-benche.
النتائج كانت مثيرة جدًا. لم يقارنوا النموذج فقط مع نماذج أخرى، بل أجروا مقارنة مع أطباء حقيقيين. وفي الأربع قواعد، تبين أن الأطباء الحقيقيين متأخرون عن مستوى النموذج الذي يمكن أن يصل إليه.
سأل موقع GeekPark فريق Baichuan عن ذلك، وكانت الإجابة أن التقييم كان بمشاركة أطباء متخصصين حقيقيين في حالات سريرية محددة. والنموذج فاز، لأنه أكثر صبرًا، والأهم أنه يمتلك قدرة أفضل على استيعاب المعرفة بين تخصصات مختلفة.
على سبيل المثال، في حالة طفل عمره 10 سنوات يعاني من حمى متكررة، فالحمى ظاهرة طبية معقدة جدًا. إذا اكتفى الطبيب بالسؤال عن السعال أو الحالة الرئوية، فقد يتجاهل مشاكل خطيرة في المفاصل أو الجهاز البولي، ويخطيء في التشخيص باعتبارها عدوى عادية.
الأطباء البشريون عادةً يتخصصون في حالات معينة، ولهذا غالبًا يحتاجون إلى استشارة خبراء أو مراجعة مراجع طبية في حالات الأعراض المعقدة.
أما النماذج العادية التي لم تتلق تدريبًا خاصًا، والتي تلعب دور الطبيب، فغالبًا ما تكون غير قادرة على الإجابة بشكل جيد على مثل هذه الأسئلة.
03 الخطوة التالية: بدء تطوير منتجات موجهة للمستهلك النهائي، وتعزيز الرعاية الصحية بشكل أكثر جدية
بالنسبة لشركة Baichuan Intelligence، فإن تجاوز الأطباء البشريين يمثل نقطة مهمة جدًا: لأنه يعني أن الذكاء الاصطناعي بدأ يتجاوز عتبة الاستخدام، وأصبح قابلًا للنشر في سيناريوهات التطبيق.
ابتداءً من 13 يناير، يمكن للمستخدمين الآن تجربة إجابات نموذج M3 على موقع وتطبيق Baichuan.
تصميم الموقع حاليًا ممتع جدًا، حيث يستخدم النموذج M3 في الإجابة، مع تمييز بين نسخة الطبيب ونسخة المستخدم. في نسخة الطبيب، تكون الإجابات أكثر اختصارًا، مع استشهاد أكبر بالمراجع، وتكون أكثر “غير ودية”. أما في نسخة المريض العادي، فالنموذج لا يقدم إجابة مباشرة غالبًا، بل يطرح أسئلة متابعة، ويحدد التشخيص بشكل أدق.
ذكرت Baichuan أن عملية تفكير النموذج في الخلفية مثيرة للاهتمام. “نحن غالبًا نرى أن النموذج في سلسلة التفكير يذكر، ‘هذا المريض لم يطرح سؤالي، لكني مضطر لطرحه.’ وحتى رأينا حالات متطرفة تقول: لقد طرحت على المريض 20 جولة، وهذا تجاوز الحد الأقصى المسموح به، لكني لا أزال أريد أن أطرحه. ذلك لأن أثناء التدريب، النموذج يتعلم أن يكون دبلوماسيًا، وأن لا يجيب بشكل غير دقيق، ويجب أن يحصل على قدر كافٍ من المعلومات الأساسية، ويصل إلى تشخيص صحيح ليحصل على مكافأة. هذا الاختلاف الواضح عن غيره من النماذج.”
في الآونة الأخيرة، بدأت العديد من شركات الذكاء الاصطناعي في دخول المجال الطبي. وتعتبر Baichuan أن هذا هو الاختلاف الأكبر بينها — وهو التركيز على تقديم رعاية صحية أكثر جدية.
قال وانغ شياو تشوان: “هذا يعني أن Baichuan لا تختار السيناريوهات التي يسهل تنفيذها فقط، بل تسعى باستمرار إلى رفع مستوى التقنية، وتحدي المشكلات الأصعب.”
مثال على ذلك، أن الشركة ستعطي الأولوية في المستقبل لمجال الأورام، بينما تضع العلاج النفسي في مرتبة أقل.
من وجهة نظر عامة، يُعتقد أن تقديم العلاج النفسي أسهل، وأنه أكثر قابلية للتنفيذ. لكن Baichuan تختلف في تقييمها، فهي ترى أن مجال الأورام يعتمد على أسس علمية أكثر صرامة. في هذا المجال، من المرجح أن يحقق الذكاء الاصطناعي نتائج طبية جادة، وربما يتجاوز مستوى الأطباء البشريين. بالمقابل، يفتقر المجال النفسي إلى مثل هذه الأسس العلمية الثابتة.
مثال آخر، أن بعض الشركات تختار إنشاء نسخ افتراضية للأطباء، لكن وانغ شياو تشوان يعتقد أن هذا الاتجاه ليس ما تسعى إليه Baichuan. فالنسخة الافتراضية للطبيب لا يمكنها أن تعكس مستوى الطبيب الحقيقي بشكل كامل، ولا يمكنها أن تتجاوزه. في النهاية، ستكون هذه النماذج مجرد واجهات دعائية وأدوات لجذب العملاء، ولا تساهم حقًا في دفع الرعاية الصحية الجادة.
هذا الالتزام بالجدية يؤثر بشكل عميق على العديد من قرارات Baichuan التجارية.
ويُعد ذلك جزءًا من تفكير وانغ شياو تشوان حول المرحلة القادمة من الذكاء الاصطناعي الطبي. فهو يعتقد أن المهمة الأهم الآن، على أساس تعزيز قدرات الذكاء الاصطناعي، هي توفير المزيد من الخدمات الطبية.
لطالما حاولت الصين تطبيق نظام التشخيص والتصنيف، وتطوير الأطباء العامين، بهدف أن يذهب الناس إلى المستشفيات المحلية أولاً، لحل مشكلة صعوبة الحجز في المستشفيات الكبرى، وطول الانتظار، والازدحام.
لكن تنفيذ هذا النظام كان صعبًا، بسبب نقص الموارد الطبية. فالمؤسسات الصحية في المناطق النائية تفتقر إلى أطباء ذوي مستوى عالٍ. وحتى الناس يفضلون الذهاب إلى المستشفيات الكبرى، لأنهم غير واثقين من مستوى الرعاية في المناطق المحلية.
وهذا هو المفتاح الذي يمكن أن يحقق فيه الذكاء الاصطناعي الطبي تأثيرًا كبيرًا. فالنماذج الكبيرة يمكنها توزيع المعرفة الطبية المتقدمة على نطاق واسع. فهي تسد الفجوة في العرض في المناطق المحلية، وتتيح لكل مجتمع وكل أسرة أن تمتلك قدرات تشخيص وعلاج تشبه خبرة أطباء المستشفيات الكبرى.
وعلى المدى الطويل، يمكن أن يكون لهذا تأثير أوسع، حيث يُنقل قرار الرعاية الصحية تدريجيًا من الأطباء إلى المستخدمين أنفسهم. ففي السيناريو التقليدي، يكون المريض هو المستفيد من الرعاية، لكنه غالبًا لا يملك سلطة اتخاذ القرار. السلطة مركزة في يد الطبيب، مما يسبب أعباء في التواصل وألمًا في العلاج.
وتأمل Baichuan أن يُمكن الذكاء الاصطناعي المرضى من الوصول بسهولة أكبر إلى موارد الرعاية الصحية عالية الجودة. قال وانغ شياو تشوان: “الكثيرون يعتقدون أن الرعاية الصحية معقدة جدًا، وأن المرضى لن يفهموا أبدًا. لكننا نفكر في نظام هيئة المحلفين في النظام القضائي الأمريكي. القانون أيضًا مجال متخصص جدًا، وإذا لم يفهمه عامة الناس، يُطلب من القضاة والمحامين والمدعين أن يقودوا النقاش، ويشرحوا الأمور بشكل واضح، بحيث يستطيع الشخص العادي أن يقرر إذا كان مذنبًا أم لا، بناءً على المنطق.”
وهذا أحد الأسباب التي تجعل Baichuan لا تكتفي بالمجالات البسيطة، وتسعى باستمرار للتقدم نحو مجالات التشخيص والعلاج الأكثر تعقيدًا وجدية.
وعندما سُئل عما إذا كانت حل المشكلات الصعبة هو الأكثر ربحية من الناحية التجارية، أجاب وانغ شياو تشوان بشكل عميق.
قال إن حل مشكلات بسيطة مثل نزلات البرد والحمى يصعب بناء ثقة كافية في المستخدمين. فالرعاية الصحية صناعة تعتمد بشكل كبير على الثقة. فقط عندما يستطيع الذكاء الاصطناعي حل المشكلات الصحية الكبرى، مثل الأمراض المزمنة، يمكن أن يُبنى أساس الثقة الحقيقي.
من المنظور التجاري، عندما يواجه المرضى مشاكل صحية خطيرة، يكونون أكثر استعدادًا لدفع مقابل خدمات ذكاء اصطناعي عالية الجودة. هذه الثقة ليست فقط أساسًا للربح التجاري، بل هي أيضًا جوهر تطبيق الذكاء الاصطناعي في الرعاية الصحية على نطاق واسع.
ومن ناحية أعمق، لا تزال الرعاية الصحية بالنسبة لشركة Baichuan ووانغ شياو تشوان مسارًا يقربهم من الذكاء الاصطناعي العام (AGI).
يعتقد وانغ أن الذكاء الاصطناعي حاليًا وجد حلولًا عملية في مجالات الأدب، والعلوم، والهندسة، والفنون، لكن المجال الطبي هو مجال فريد جدًا. لم يُستكمل بعد استكشاف الإنسان للطب، والذكاء الاصطناعي لا يزال في مرحلة الاستكشاف في هذا المجال.
خطة Baichuan واضحة جدًا. أولًا، من خلال الذكاء الاصطناعي، رفع كفاءة التشخيص، ومعالجة نقص الموارد الطبية الحالية. ثم، بناء ثقة عميقة مع المرضى. عندما يثق المرضى في أدوات الذكاء الاصطناعي ويستخدمونها بشكل مستمر للاستشارات الطبية، يمكن للذكاء الاصطناعي أن يجمع بيانات طبية حقيقية وعالية الجودة على مدى الزمن.
الهدف النهائي من هذه البيانات هو بناء نموذج رياضي للحياة. وهو مسار لم ينجح الأطباء البشريون بعد في إكماله بالكامل، ومن المحتمل أن يتقدم الذكاء الاصطناعي في المستقبل في هذا المجال. وإذا تمكن من نمذجة جوهر الحياة، فسيكون ذلك خطوة رئيسية في دفع الذكاء الاصطناعي العام نحو مراحل أعلى من التطور.
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
نشر ChatGPT الصحة بعد 6 أيام، تفوقت عليها OpenAI في معيار الصحة الطبية الخاص بها
المؤلف: لي يوان
هل سألت مساعد الذكاء الاصطناعي عن مشاكلك الصحية من قبل؟
إذا كنت مثلي من المستخدمين العميقين للذكاء الاصطناعي، فغالبًا جربت ذلك أيضًا.
البيانات التي قدمتها شركة OpenAI تشير إلى أن الصحة أصبحت واحدة من أكثر سيناريوهات الاستخدام شيوعًا لـ ChatGPT، حيث يطرح أكثر من 2.3 مليار شخص حول العالم أسئلة تتعلق بالصحة والعناية الصحية أسبوعيًا.
وبسبب ذلك، مع اقتراب عام 2026، تظهر علامات على أن مجال الصحة قد يصبح أيضًا ساحة تنافس رئيسية في مجال الذكاء الاصطناعي.
في 7 يناير، أطلقت OpenAI خدمة ChatGPT للصحة، التي تسمح للمستخدمين بربط سجلاتهم الطبية الإلكترونية وتطبيقات الصحة المختلفة، مما يمكنهم من الحصول على ردود طبية أكثر تخصصًا؛ وفي 12 يناير، أطلقت شركة Anthropic على الفور Claude for Healthcare، وأكدت قدرات النموذج الجديد في السيناريوهات الطبية.
لكن المثير للاهتمام هو أن الشركات الصينية لم تتخلف عن الركب، بل أظهرت تقدمًا كبيرًا.
في 13 يناير، أعلنت شركة Baichuan Intelligence عن إصدار نموذج Baichuan M3، الذي تفوق على GPT-5.2 High من OpenAI في مجموعة تقييمات الصحة والرعاية الصحية HealthBench، محققًا أعلى مستوى أداء (SOTA).
بعد أن تعرضت شركة Baichuan لانتقادات كثيرة بعد إعلانها عن تركيزها الكلي على المجال الطبي، يبدو أنها أثبتت أخيرًا قدراتها. وقد أجرى موقع GeekPark حوارًا خاصًا مع وانغ شياو تشوان، حيث ناقشوا كيف ترى شركة Baichuan الذكاء الاصطناعي في المجال الطبي، وإمكانيات نموذج M3، ومستقبل الرعاية الصحية باستخدام الذكاء الاصطناعي.
01 أول اختبار يتجاوز OpenAI في مجال الصحة
واحدة من أبرز إنجازات نموذج M3 المُعلن عنه، هو أنه لأول مرة يتفوق على GPT-5.2 High من OpenAI في مجموعة تقييمات HealthBench، التي أُطلقت في مايو 2025، والتي تتكون من 262 طبيبًا من 60 دولة، وتضم 5000 حوار طبي متعدد الجولات وواقعي جدًا، وتعد من أكثر مجموعات التقييم الطبية موثوقية وقربًا من السيناريوهات السريرية الحقيقية على مستوى العالم.
منذ إطلاقها، ظل نموذج OpenAI يتصدر الترتيب.
أما الآن، فقد حققت شركة Baichuan Intelligence، بنموذجها المفتوح المصدر الجديد Baichuan-M3، درجة إجمالية بلغت 65.1 نقطة، لتحتل المركز الأول عالميًا، وحتى في اختبار صعوبة القرارات المعقدة في HealthBench Hard، فاز النموذج M3 أيضًا، محققًا أعلى درجة.
كما أعلنت الشركة عن نتائج اختبار معدل الوهم (الهلوسة)، الذي بلغ 3.5%، وهو أدنى معدل عالمي.
ومن الجدير بالذكر أن هذا المعدل لا يعتمد على أدوات استرجاع خارجية، وإنما هو معدل الوهم الناتج عن النموذج نفسه في سياق طبي.
وأوضحت شركة Baichuan أن تحسين النموذج في هذين المجالين يعود إلى إدخال خوارزمية التعلم المعزز المناسبة للمجال الطبي.
وفي نموذج M3، استخدمت الشركة لأول مرة تقنية Fact Aware RL (التعلم المعزز المدرك للحقائق)، التي تضمن أن النموذج لا يكرر الكلام الفارغ ولا يطلق تصريحات غير دقيقة.
وهذا أمر حاسم جدًا في المجال الطبي.
في النماذج غير المحسنة، عند طرح أسئلة طبية، غالبًا ما تظهر مشكلتان: الأولى أن النموذج قد يختلق أعراضًا أو مرضًا بشكل غير دقيق؛ والثانية أن يكون غامضًا في المعنى، ويؤدي في النهاية إلى نصيحة بضرورة مراجعة الطبيب، وهو أمر غير مفيد سواء للطبيب أو للمريض.
ويعود ذلك إلى أن العديد من النماذج تركز على تقليل معدل الوهم فقط، وقد تحاول تقليل الوهم عبر تكديس حقائق بسيطة وصحيحة، مما يخفف من معدل الوهم الكلي. لكن شركة Baichuan أدخلت آلية تجميع المعنى (Semantic Clustering) ووزن الأهمية (Importance Weighting)، حيث تُلغي التجميع التكرارات غير الضرورية، ويُعطى وزن أكبر للحجج الطبية الأساسية.
وفي الوقت ذاته، إذا تم الاعتماد فقط على عقوبة الوهم ذات الوزن العالي، فسيُجبر النموذج على اتباع استراتيجية “قلة الكلام وقلة الخطأ”، مما قد يحد من أدائه. لذلك، في خوارزمية Fact Aware RL، تم تصميم آلية توازن ديناميكية للوزن، بحيث تتكيف مع مستوى قدرة النموذج، وتوازن بين الهدفين: خلال مرحلة بناء القدرات، يُركز على تعلم وتعبير المعرفة الطبية (وزن المهمة العالي Task Weight)، وبعد نضوج القدرات، يُقلل تدريجيًا من قيود الحقائق (رفع وزن الوهم Hallucination Weight).
عندما يكون الاتصال بالإنترنت ممكنًا، أضافت Baichuan وحدة تحقق عبر البحث متعدد الجولات، ودمجت نظام تخزين مؤقت فعال، لمزامنة كم هائل من المعرفة الطبية.
02 مستوى استشارات يفوق الأطباء البشريين، ودخول مرحلة الاستخدام
لكن، تفوق النموذج على OpenAI في مجموعة HealthBench ليس هو الميزة الوحيدة في هذا الإصدار.
الأمر الأكثر إثارة هو أن شركة Baichuan ابتكرت بشكل إبداعي مجموعة تقييم جديدة تسمى SCAN-benche. مقارنة بمجموعة تقييمات OpenAI، قد توضح مجموعة التقييم التي أنشأتها Baichuan بشكل أفضل الاتجاه الذي تريد الشركة تحسينه في المجال الطبي.
الهدف الرئيسي من مجموعة التقييم التي أنشأتها Baichuan هو تحسين “قدرة الاستشارة من طرف إلى طرف”. ويستند ذلك إلى ملاحظة من تجاربها الخاصة: أن زيادة دقة الاستشارة بنسبة 2% تؤدي إلى زيادة دقة التشخيص والعلاج بنسبة 1%.
وبمعنى آخر، بالمقارنة مع مجموعة HealthBench من OpenAI، التي تركز بشكل أساسي على “هل ستجيب الذكاء الاصطناعي على الأسئلة”، فإن مجموعة SCAN-benche تهدف إلى تقييم: هل يمكن للذكاء الاصطناعي في حوار واحد أن يحصل على معلومات فعالة، ويقدم نتائج تشخيصية ونصائح طبية صحيحة.
عادةً، عند سؤال مساعد الذكاء الاصطناعي، إذا قلت “أنت طبيب ذو خبرة”، فلن تحصل على نتائج جيدة غالبًا. لأن الطبيب الحقيقي يتبع إجراءات محددة جدًا في الاستشارة — وهو ما تلخصه Baichuan في أربع قواعد تسمى مبدأ SCAN: السلامة (Safety Stratification)، وضوح المعلومات (Clarity Matters)، الربط والاستفسار (Association & Inquiry)، والإخراج المعياري (Normative Protocol).
بالاعتماد على مبدأ SCAN، استلهمت Baichuan من منهج OSCE المستخدم منذ زمن في التعليم الطبي، وبتعاون مع أكثر من 150 طبيبًا ميدانيًا، أنشأت نظام تقييم SCAN-bench، الذي يقسم عملية التشخيص إلى ثلاث مراحل رئيسية: جمع التاريخ الطبي، الفحوصات المساعدة، والتشخيص الدقيق، ويقيمها بشكل ديناميكي ومتعدد الجولات، محاكياً كامل عملية الطبيب من الاستقبال حتى التشخيص، بهدف تحسين النموذج من خلال تحقيق نتائج أفضل في كل مرحلة.
كما أعلنت Baichuan عن نتائج تقييم النموذج M3 على منصة SCAN-benche.
النتائج كانت مثيرة جدًا. لم يقارنوا النموذج فقط مع نماذج أخرى، بل أجروا مقارنة مع أطباء حقيقيين. وفي الأربع قواعد، تبين أن الأطباء الحقيقيين متأخرون عن مستوى النموذج الذي يمكن أن يصل إليه.
سأل موقع GeekPark فريق Baichuan عن ذلك، وكانت الإجابة أن التقييم كان بمشاركة أطباء متخصصين حقيقيين في حالات سريرية محددة. والنموذج فاز، لأنه أكثر صبرًا، والأهم أنه يمتلك قدرة أفضل على استيعاب المعرفة بين تخصصات مختلفة.
على سبيل المثال، في حالة طفل عمره 10 سنوات يعاني من حمى متكررة، فالحمى ظاهرة طبية معقدة جدًا. إذا اكتفى الطبيب بالسؤال عن السعال أو الحالة الرئوية، فقد يتجاهل مشاكل خطيرة في المفاصل أو الجهاز البولي، ويخطيء في التشخيص باعتبارها عدوى عادية.
الأطباء البشريون عادةً يتخصصون في حالات معينة، ولهذا غالبًا يحتاجون إلى استشارة خبراء أو مراجعة مراجع طبية في حالات الأعراض المعقدة.
أما النماذج العادية التي لم تتلق تدريبًا خاصًا، والتي تلعب دور الطبيب، فغالبًا ما تكون غير قادرة على الإجابة بشكل جيد على مثل هذه الأسئلة.
03 الخطوة التالية: بدء تطوير منتجات موجهة للمستهلك النهائي، وتعزيز الرعاية الصحية بشكل أكثر جدية
بالنسبة لشركة Baichuan Intelligence، فإن تجاوز الأطباء البشريين يمثل نقطة مهمة جدًا: لأنه يعني أن الذكاء الاصطناعي بدأ يتجاوز عتبة الاستخدام، وأصبح قابلًا للنشر في سيناريوهات التطبيق.
ابتداءً من 13 يناير، يمكن للمستخدمين الآن تجربة إجابات نموذج M3 على موقع وتطبيق Baichuan.
تصميم الموقع حاليًا ممتع جدًا، حيث يستخدم النموذج M3 في الإجابة، مع تمييز بين نسخة الطبيب ونسخة المستخدم. في نسخة الطبيب، تكون الإجابات أكثر اختصارًا، مع استشهاد أكبر بالمراجع، وتكون أكثر “غير ودية”. أما في نسخة المريض العادي، فالنموذج لا يقدم إجابة مباشرة غالبًا، بل يطرح أسئلة متابعة، ويحدد التشخيص بشكل أدق.
ذكرت Baichuan أن عملية تفكير النموذج في الخلفية مثيرة للاهتمام. “نحن غالبًا نرى أن النموذج في سلسلة التفكير يذكر، ‘هذا المريض لم يطرح سؤالي، لكني مضطر لطرحه.’ وحتى رأينا حالات متطرفة تقول: لقد طرحت على المريض 20 جولة، وهذا تجاوز الحد الأقصى المسموح به، لكني لا أزال أريد أن أطرحه. ذلك لأن أثناء التدريب، النموذج يتعلم أن يكون دبلوماسيًا، وأن لا يجيب بشكل غير دقيق، ويجب أن يحصل على قدر كافٍ من المعلومات الأساسية، ويصل إلى تشخيص صحيح ليحصل على مكافأة. هذا الاختلاف الواضح عن غيره من النماذج.”
في الآونة الأخيرة، بدأت العديد من شركات الذكاء الاصطناعي في دخول المجال الطبي. وتعتبر Baichuan أن هذا هو الاختلاف الأكبر بينها — وهو التركيز على تقديم رعاية صحية أكثر جدية.
قال وانغ شياو تشوان: “هذا يعني أن Baichuan لا تختار السيناريوهات التي يسهل تنفيذها فقط، بل تسعى باستمرار إلى رفع مستوى التقنية، وتحدي المشكلات الأصعب.”
مثال على ذلك، أن الشركة ستعطي الأولوية في المستقبل لمجال الأورام، بينما تضع العلاج النفسي في مرتبة أقل.
من وجهة نظر عامة، يُعتقد أن تقديم العلاج النفسي أسهل، وأنه أكثر قابلية للتنفيذ. لكن Baichuan تختلف في تقييمها، فهي ترى أن مجال الأورام يعتمد على أسس علمية أكثر صرامة. في هذا المجال، من المرجح أن يحقق الذكاء الاصطناعي نتائج طبية جادة، وربما يتجاوز مستوى الأطباء البشريين. بالمقابل، يفتقر المجال النفسي إلى مثل هذه الأسس العلمية الثابتة.
مثال آخر، أن بعض الشركات تختار إنشاء نسخ افتراضية للأطباء، لكن وانغ شياو تشوان يعتقد أن هذا الاتجاه ليس ما تسعى إليه Baichuan. فالنسخة الافتراضية للطبيب لا يمكنها أن تعكس مستوى الطبيب الحقيقي بشكل كامل، ولا يمكنها أن تتجاوزه. في النهاية، ستكون هذه النماذج مجرد واجهات دعائية وأدوات لجذب العملاء، ولا تساهم حقًا في دفع الرعاية الصحية الجادة.
هذا الالتزام بالجدية يؤثر بشكل عميق على العديد من قرارات Baichuan التجارية.
ويُعد ذلك جزءًا من تفكير وانغ شياو تشوان حول المرحلة القادمة من الذكاء الاصطناعي الطبي. فهو يعتقد أن المهمة الأهم الآن، على أساس تعزيز قدرات الذكاء الاصطناعي، هي توفير المزيد من الخدمات الطبية.
لطالما حاولت الصين تطبيق نظام التشخيص والتصنيف، وتطوير الأطباء العامين، بهدف أن يذهب الناس إلى المستشفيات المحلية أولاً، لحل مشكلة صعوبة الحجز في المستشفيات الكبرى، وطول الانتظار، والازدحام.
لكن تنفيذ هذا النظام كان صعبًا، بسبب نقص الموارد الطبية. فالمؤسسات الصحية في المناطق النائية تفتقر إلى أطباء ذوي مستوى عالٍ. وحتى الناس يفضلون الذهاب إلى المستشفيات الكبرى، لأنهم غير واثقين من مستوى الرعاية في المناطق المحلية.
وهذا هو المفتاح الذي يمكن أن يحقق فيه الذكاء الاصطناعي الطبي تأثيرًا كبيرًا. فالنماذج الكبيرة يمكنها توزيع المعرفة الطبية المتقدمة على نطاق واسع. فهي تسد الفجوة في العرض في المناطق المحلية، وتتيح لكل مجتمع وكل أسرة أن تمتلك قدرات تشخيص وعلاج تشبه خبرة أطباء المستشفيات الكبرى.
وعلى المدى الطويل، يمكن أن يكون لهذا تأثير أوسع، حيث يُنقل قرار الرعاية الصحية تدريجيًا من الأطباء إلى المستخدمين أنفسهم. ففي السيناريو التقليدي، يكون المريض هو المستفيد من الرعاية، لكنه غالبًا لا يملك سلطة اتخاذ القرار. السلطة مركزة في يد الطبيب، مما يسبب أعباء في التواصل وألمًا في العلاج.
وتأمل Baichuan أن يُمكن الذكاء الاصطناعي المرضى من الوصول بسهولة أكبر إلى موارد الرعاية الصحية عالية الجودة. قال وانغ شياو تشوان: “الكثيرون يعتقدون أن الرعاية الصحية معقدة جدًا، وأن المرضى لن يفهموا أبدًا. لكننا نفكر في نظام هيئة المحلفين في النظام القضائي الأمريكي. القانون أيضًا مجال متخصص جدًا، وإذا لم يفهمه عامة الناس، يُطلب من القضاة والمحامين والمدعين أن يقودوا النقاش، ويشرحوا الأمور بشكل واضح، بحيث يستطيع الشخص العادي أن يقرر إذا كان مذنبًا أم لا، بناءً على المنطق.”
وهذا أحد الأسباب التي تجعل Baichuan لا تكتفي بالمجالات البسيطة، وتسعى باستمرار للتقدم نحو مجالات التشخيص والعلاج الأكثر تعقيدًا وجدية.
وعندما سُئل عما إذا كانت حل المشكلات الصعبة هو الأكثر ربحية من الناحية التجارية، أجاب وانغ شياو تشوان بشكل عميق.
قال إن حل مشكلات بسيطة مثل نزلات البرد والحمى يصعب بناء ثقة كافية في المستخدمين. فالرعاية الصحية صناعة تعتمد بشكل كبير على الثقة. فقط عندما يستطيع الذكاء الاصطناعي حل المشكلات الصحية الكبرى، مثل الأمراض المزمنة، يمكن أن يُبنى أساس الثقة الحقيقي.
من المنظور التجاري، عندما يواجه المرضى مشاكل صحية خطيرة، يكونون أكثر استعدادًا لدفع مقابل خدمات ذكاء اصطناعي عالية الجودة. هذه الثقة ليست فقط أساسًا للربح التجاري، بل هي أيضًا جوهر تطبيق الذكاء الاصطناعي في الرعاية الصحية على نطاق واسع.
ومن ناحية أعمق، لا تزال الرعاية الصحية بالنسبة لشركة Baichuan ووانغ شياو تشوان مسارًا يقربهم من الذكاء الاصطناعي العام (AGI).
يعتقد وانغ أن الذكاء الاصطناعي حاليًا وجد حلولًا عملية في مجالات الأدب، والعلوم، والهندسة، والفنون، لكن المجال الطبي هو مجال فريد جدًا. لم يُستكمل بعد استكشاف الإنسان للطب، والذكاء الاصطناعي لا يزال في مرحلة الاستكشاف في هذا المجال.
خطة Baichuan واضحة جدًا. أولًا، من خلال الذكاء الاصطناعي، رفع كفاءة التشخيص، ومعالجة نقص الموارد الطبية الحالية. ثم، بناء ثقة عميقة مع المرضى. عندما يثق المرضى في أدوات الذكاء الاصطناعي ويستخدمونها بشكل مستمر للاستشارات الطبية، يمكن للذكاء الاصطناعي أن يجمع بيانات طبية حقيقية وعالية الجودة على مدى الزمن.
الهدف النهائي من هذه البيانات هو بناء نموذج رياضي للحياة. وهو مسار لم ينجح الأطباء البشريون بعد في إكماله بالكامل، ومن المحتمل أن يتقدم الذكاء الاصطناعي في المستقبل في هذا المجال. وإذا تمكن من نمذجة جوهر الحياة، فسيكون ذلك خطوة رئيسية في دفع الذكاء الاصطناعي العام نحو مراحل أعلى من التطور.