كارباتي يوضح: الطريقة الكاملة لبناء قاعدة معرفة شخصية باستخدام نماذج اللغات الكبيرة

فتح فريق OpenAI المؤسّس، أندريج كارباتي Andrej Karpathy، المدير التنفيذي السابق للذكاء الاصطناعي في Tesla، نشر على X منشورًا بعنوان «LLM Knowledge Bases» يشرح فيه سير العمل: كيف يشرح مؤخرًا انتقاله بكميات كبيرة من استخدام التوكنات من «التحكم في الشيفرة» إلى «التحكم في المعرفة»—باستخدام LLM لتحويل الأوراق والمقالات والمجلدات والصور المتفرقة إلى «ويكي» شخصي يتم صيانته تلقائيًا. ويؤكد أن هذه المنظومة بأكملها تراكمت على مشروعه البحثي الخاص بحوالي ~100 مقال، و~400 ألف كلمة، وأن LLM كتبها وحدثها طوال الوقت. تجمع هذه المقالة إعداد كارباتي الكامل، وقائمة عملية قابلة للتطبيق للمطوّرين الذين يريدون نسخها.

المبدأ الأساسي: بيانات خام → ترجمة LLM → ويكي → أسئلة وأجوبة

يمكن تلخيص فلسفة تصميم كارباتي في جملة واحدة: «تدخل بيانات خام، فيقوم LLM بترجمتها إلى ويكي، ثم يتيح الويكي لـ LLM الاستعلام عنه، فتقوم نتائج الاستعلام بالعودة إلى الويكي للكتابة فيه مرة أخرى». المفتاح داخل المنظومة هو تحويل دور الإنسان من «كتابة الملاحظات» إلى «مراقبة الملاحظات التي يكتبها LLM». كما أن قاعدة المعرفة لم تعد صيانة يدوية لـ Notion أو Roam Research، بل أصبحت مجموعة ملفات markdown يتم كتابتها تلقائيًا وصيانتها بواسطة LLM.

وصف كارباتي أنه نادرًا ما يحرّر الويكي مباشرة—الكتابة والإضافة للروابط واستخراج البنية والتحقق من الاتساق كلها يقوم بها LLM. إن نمط «LLM هو من يقود المحتوى والإنسان يراقب» مختلف تمامًا عن العادة لدى أغلب الناس في الكتابة اليدوية على Obsidian/Notion، وهو التحول الجوهري في سير العمل هذا.

Step 1:Data Ingest—إلقاء جميع البيانات الخام في مجلد raw/

مدخل كارباتي بسيط جدًا: أنشئ مجلد raw/ وضع داخله كل بيانات المصادر—ملفات PDF للأبحاث، ومقالات الأخبار، ومستودعات الكود، ومجموعات البيانات، والصور، والمواد الخطابية. سيستخدم LLM هذا المجلد كمدخل، ثم «يترجم» تدريجيًا إلى ويكي.

وأشار تحديدًا إلى أداتين:

إضافة Obsidian Web Clipper—تحويل مقالات الويب مباشرة إلى ملفات .md ووضعها في raw/

اختصار لوحة مفاتيح مخصص—تنزيل الصور ذات الصلة من صفحات الويب إلى الجهاز محليًا، بحيث يستطيع LLM قراءتها مباشرة عند الاستشهاد بها لاحقًا

تصميم محوري: توجد كل البيانات الخارجية في شكل «غير متصل بالإنترنت ومحلي»، لضمان ألا يتعثر LLM لاحقًا عند إجراء الاستعلامات بسبب «عدم العثور على رابط المصدر الأصلي».

Step 2:LLM ترجمة الويكي—إنشاء تلقائي للتصنيف والمقالات والروابط العكسية

بعد تجهيز raw/، قام كارباتي باستخدام LLM بشكل «تزايدي» (incrementally) لـ«ترجمة» ويكي—أي هيكل مجلد يتكون من عدد كبير من ملفات .md. سيتولى LLM القيام بأربع مهام:

كتابة ملخصات لكل البيانات الموجودة داخل raw/

تصنيف البيانات إلى مفاهيم (concepts)

كتابة مقال لكل مفهوم

إنشاء روابط عكسية (backlinks) بين المقالات

هذه العملية «تزايدية»—البيانات الجديدة التي تتم إضافتها إلى raw/، يقوم LLM بتحديث أجزاء الويكي المتأثرة فقط، دون الحاجة لإعادة ترجمة الويكي بالكامل. وبالنسبة لموضوعات بحث تراكمت على المدى الطويل (ويكي أبحاث كارباتي نفسه يتضمن بالفعل نحو ~100 مقال وبنطاق ~400 ألف كلمة)، فإن التحديثات التزايدية تكون أكثر عملية بكثير من إعادة الترجمة مرة واحدة.

Step 3:استخدام Obsidian كواجهة أمامية IDE، وتوسيعها عبر إضافات مثل Marp

يستخدم كارباتي Obsidian كواجهة أمامية مرئية للنظام—يمكنه عرض raw/ والويكي المُترجم والمخرجات المرئية المشتقة (شرائح، مخططات). ميزة Obsidian أنه محرر markdown بحد ذاته، متوافق طبيعيًا مع ملفات .md التي ينتجها LLM، كما يدعم توسيع الإضافات (plugins).

وأشار تحديدًا إلى إضافة Marp—إذ يمكنها عرض markdown مباشرة بتنسيق الشرائح، بحيث لا يخرج LLM نصًا فقط، بل يمكنه أيضًا إخراج عروض تقديمية.

Step 4:Q&A—اعتبار الويكي كله هدفًا لاستعلامات LLM

بعد أن يصل الويكي إلى حجم «~100 مقال و~400 ألف كلمة»، تظهر أكثر قدرة إثارة للاهتمام: يمكنك طرح أسئلة معقدة على وكيل LLM agent، فيقوم بالبحث عن إجابة بنفسه ثم يستشهد بالاقتباسات ذات الصلة داخل الويكي.

كان يتوقع في البداية الحاجة إلى «RAG» متقدم (استرجاع متجهي/نماذج تضمين وإعادة ترتيب مثل re-ranking) لتشغيل هذا الحجم، لكنه وجد عمليًا أن LLM نفسه سيُحافظ على ملفات فهرس index لكل جزء وأيضًا ملخصًا قصيرًا لكل مقال. وعند الاستعلام، يستخدم LLM هذه الفهارس والملخصات للعثور على المقاطع ذات الصلة. وضمن حجم ~400 ألف كلمة، يمكن أن يعمل حتى دون RAG معقد.

يتوافق هذا الاكتشاف مع توافق صناعي منذ 2024 حول أن «قاعدة بيانات متجهية» كانت مبالغة في سخونتها، وأن كثيرًا من السيناريوهات لا تحتاجها. فطالما أن قاعدة المعرفة لديك أقل من مئات الملايين من الكلمات (وبحدود structured markdown + LLM يعتني تلقائيًا بالفهرس)، فإن ذلك يكفي.

Step 5:الإخراج—ليس نصًا خامًا، بل markdown/شرائح/مخططات

تصميم كارباتي الآخر: لا يريد أن يرد LLM بنص على الـterminal فقط، بل يريد أن ينتج LLM مخرجات منظمة—ملفات markdown، وعروض Marp، ورسوم matplotlib، وبيانات مرئية. يتم عرض هذه المخرجات داخل Obsidian.

الأهم من ذلك هو دورة العمل: غالبًا ما يقوم كارباتي «بالأرشفة» للنتائج المُنتَجة داخل الويكي، بما يعزز إمكانات الاستعلام لاحقًا. ويصف «أن استكشافه واستعلاماته تتراكم دائمًا (add up) داخل قاعدة المعرفة»—وهو نمط يحافظ على الحالة stateful، وينمو مع الوقت، ويختلف عن محادثة ChatGPT التي تبدأ من الصفر في كل مرة.

Step 6:Linting—فحص ذاتي بواسطة LLM، والعثور على مشكلات الاتساق وفرص المقالات الجديدة

يشغل كارباتي على الويكي فحصًا «لصحة» العمل باستخدام LLM، ويتعامل مع ثلاث فئات من المشكلات:

العثور على حالات عدم اتساق في البيانات (تضارب في وصف المفهوم نفسه عبر مقالات مختلفة)

استخدام بحث الويب لإضافة المعلومات الناقصة

العثور على روابط مثيرة للاهتمام عبر مفاهيم متعددة، واقتراح مقالات جديدة محتملة

تُعد عملية linting هذه مفتاحًا لجعل الويكي «أنظف» مع مرور الوقت—بدونها، سيتراكم الويكي المُترجم تلقائيًا تدريجيًا على تناقضات وضوضاء. ويؤدي LLM أداءً جيدًا في هذه المهمة، وهي واحدة من الأسباب التي يعتقد كارباتي أن سير العمل هذا يمكن أن يستمر على المدى الطويل.

Step 7:أدوات إضافية مصنوعة يدويًا—مثل محرك بحث للويكي

ذكر كارباتي أنه «رمّز على مزاجه» vibe coded محرك بحث صغيرًا يعمل على لويكيه الخاص. ولهذا الأداة استخدامان: (1) أن يستخدم هو واجهة الويب مباشرة للاستعلام؛ (2) والأكثر شيوعًا هو تمرير محرك البحث عبر واجهة CLI وجعله أداة يتعامل معها LLM، بحيث يستطيع LLM في الاستعلامات الكبيرة أن يطابق المقاطع ذات الصلة بدقة.

هذا النمط (يبني الإنسان CLI ثم يجعل LLM يستخدمه كأداة) هو تصميم جوهري في أطر الوكلاء مثل Claude Code وOpenAI Codex—حيث لا يقرأ LLM كل البيانات مباشرة، بل يحصل على مجموعة فرعية مما يحتاجه عبر أدوات (CLI، ومحرك البحث، ونظام الملفات).

Step 8:اتجاهات مستقبلية—توليد بيانات مُركّبة وتدريب نماذج بشكل مُخصّص

عندما يكبر حجم الويكي، يقترح كارباتي اتجاهين متقدمين:

استخدام الويكي لتوليد بيانات مُركّبة (synthetic data)—ليقوم LLM بإنتاج أزواج Q&A وكتابة مقالات تعليمية وأمثلة تلقائيًا لموضوعات معينة

تدريب نموذج مُخصص على البيانات المُركّبة—ليصبح لدى LLM الشخصي «معرفة مدمجة» لهذه البيانات داخل الأوزان، بدلًا من قراءتها فقط داخل نافذة الـcontext window

يدفع هذا الاتجاه قاعدة المعرفة من «ذاكرة خارجية» إلى «ذاكرة مُدمجة»، وهو خطوة تالية في الذكاء الاصطناعي الشخصي. لكنه يعترف أيضًا بأن هذا يتطلب مزيدًا من البنية التحتية، وما يزال في مرحلة الاستكشاف.

فكرة «Idea File» لدى كارباتي: مشاركة التصورات دون مشاركة الكود

بعد أن انتشر منشورُه بصورة كبيرة، طرح كارباتي في منشورات لاحقة مفهومًا جديدًا «idea file»—وفي عصر LLM agent، بدل مشاركة كود ملموس، الأفضل مشاركة «الأفكار»، بحيث يقوم وكيل الطرف الآخر بتخصيصها لك وبنائها من أجلك.

وضع كارباتي «idea file» الخاص بـ LLM Knowledge Bases في GitHub gist، وحرص على إبقائه مجردًا، وترك مساحة لإبداع كل agent. وقد تكون هذه طريقة مشاركة جديدة في مجتمع المطورين مستقبلًا—ليست مستودع GitHub ولا حزمة npm، بل «وثيقة أوامر» موجهة لـ LLM كمعيار مفتوح.

توصيات عملية: كيف يبدأ القراء في تايوان

بالنسبة للمطورين في تايوان الذين يريدون نسخ هذه المنظومة، فإن مسار الدخول العملي يكون:

Obsidian برنامج مجاني، ويمكن استخدامه على macOS/Windows/Linux، ويمكن تنزيله من الموقع الرسمي

إضافة Web Clipper يمكن تثبيتها على Chrome/Firefox/Edge

من جهة LLM يمكنك اختيار Claude Code (CLI) أو ChatGPT (API) أو Ollama محليًا (إذا كانت لديك بطاقة رسومات قوية)

توصية بوضع مجلدي raw/ وwiki/ في نفس مستوى مجلدات Obsidian vault، وإضافة التحكم بالإصدارات بالإضافة إلى .gitignore (حتى يمكن استرجاعها في حال كتب LLM بشكل خاطئ)

ابدأ بموضوع بحث تعرفه أكثر شيء—مثل «تطورات امتثال بورصات العملات المشفرة في 2026» أو «بنية استدلال LLM»، وبعد تجميع 30–50 مقالًا سيتحسن أداء Q&A بشكل ملحوظ

وفي نهاية المنشور قال كارباتي: «هناك مساحة لبناء منتج جديد رائع، وليس هذا الشكل البدائي من تجميع سكربتات الآن». بالنسبة للمبادرين builder، فإن هذه السلسلة thread هي شرح لسير العمل بحد ذاتها، وفكرة ريادة أعمال—ويكي تلقائي عبر LLM، وهو سوق لم يحسم بعد من فيه الفائز بمنتج واضح.

ظهرت هذه المقالة التي كشفها كارباتي بنفسه: «الطريقة الكاملة لبناء مستودع معرفة شخصي باستخدام LLM» لأول مرة على موقع «سلسلة أخبار ABMedia».

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة من مصادر خارجية ولا تمثل آراء أو مواقف Gate. المحتوى المعروض في هذه الصفحة هو لأغراض مرجعية فقط ولا يشكّل أي نصيحة مالية أو استثمارية أو قانونية. لا تضمن Gate دقة أو اكتمال المعلومات، ولا تتحمّل أي مسؤولية عن أي خسائر ناتجة عن استخدام هذه المعلومات. تنطوي الاستثمارات في الأصول الافتراضية على مخاطر عالية وتخضع لتقلبات سعرية كبيرة. قد تخسر كامل رأس المال المستثمر. يرجى فهم المخاطر ذات الصلة فهمًا كاملًا واتخاذ قرارات مدروسة بناءً على وضعك المالي وقدرتك على تحمّل المخاطر. للتفاصيل، يرجى الرجوع إلى إخلاء المسؤولية.

مقالات ذات صلة

يُصدر Vercel إطار deepsec مفتوح المصدر مع 1,000+ تزامن داخل بيئات اختبارية لفحص أمان الذكاء الاصطناعي محلياً

وبحسب Beating، أطلقت Vercel نسخة مفتوحة المصدر من deepsec، وهو إطار عمل لاختبار أمني مدعوم بالذكاء الاصطناعي يمكّن المطورين من فحص قواعد شيفرة كبيرة محلياً دون تعريض الشيفرة للمؤسسات السحابية الخارجية. يستخدم الإطار سير عمل تحقق متعدد المراحل: بعد التصفية الأولية باستخدام تعابير منتظمة، فإن

GateNewsمنذ 2 س

تراقب كاميرات Netradyne AI سلوك السائقين ضمن الأساطيل

نظام مراقبة سائق يعمل بالذكاء الاصطناعي من Netradyne تقوم شركة Netradyne، وهي شركة ناشئة هندية، بنشر كاميرات مدعومة بالذكاء الاصطناعي في أساطيل المركبات التجارية لمراقبة سلوك السائقين وتقليل الحوادث. تركّز الكاميرات الداخلية على السائق بدلًا من الركّاب، وتُنبّه السائقين عندما يتجاوزون حدود السرعة أو

CryptoFrontierمنذ 4 س

يطلق AequiSolva بنية Sentinel Stack للذكاء الاصطناعي للتحقق المؤسسي من الأصول في 30 أبريل

وفقًا لـ AequiSolva، أطلقت الشركة بنية تبادلها Sentinel Stack™ المدمجة بالذكاء الاصطناعي في 30 أبريل 2026، مع تنفيذ حتمي ومراقبة للأسواق يقودها الذكاء الاصطناعي ومحرك Omni-Attest Engine™ لإثبات احتياطيات تشفيرية مستمر. تجمع المنصة بين ثلاث ركائز رئيسية

GateNewsمنذ 9 س

شركة خزانة بيتكوين K Wave Media تؤمّن ما يصل إلى $485M لبناء البنية التحتية للذكاء الاصطناعي

وفقاً لـ ChainCatcher، أعلنت شركة K Wave Media، وهي شركة خزانة بيتكوين مدرجة في ناسداك، في 4 مايو عن تحول استراتيجي نحو بنية تحتية للذكاء الاصطناعي، مع تأمين دعم رأسمالي يصل إلى 485 مليون دولار لتمويل استثمارات مراكز البيانات وخدمات تأجير وحدات معالجة الرسوميات (GPU) وعمليات الاستحواذ على البنية التحتية للذكاء الاصطناعي والشراكات. الشركة

GateNewsمنذ 17 س

أنتي­ماتر تطلق خطة مركز بيانات للذكاء الاصطناعي مع تمويل بقيمة 300 مليون يورو

أطلقت شركة Antimatter، وهي شركة بنية تحتية سحابية مقرها فرنسا لأحمال عمل الذكاء الاصطناعي، في 4 مايو عبر دمج ثلاث شركات قائمة هي Datafactory وPolicloud وHivenet. وتقوم الشركة بجمع 300 مليون يورو (351 مليون دولار) لنشر 100 وحدة لمراكز بيانات صغيرة في 2026 للاستدلال في الذكاء الاصطناعي

CryptoFrontierمنذ 18 س

وزارة التعليم «مباني المكتبات التي تضم ذكاءً اصطناعياً» مكتبات مجانية لاستخدام ChatGPT وClaude! راجع الزمان والمكان مرة واحدة

تدفع وزارة التعليم مبادرة «مكاتب مليئة بالذكاء الاصطناعي»؛ بدءًا من الربع الرابع من هذا العام، سيتم تركيب 5 أجهزة كمبيوتر تعمل بالذكاء الاصطناعي في كل مكتبة في المكتبة الوطنية وغيرها من المكتبات الوطنية التابعة للدولة. يمكن للمواطنين استخدام أدوات مثل ChatGPT وClaude وGemini مجانًا عبر بطاقة العضوية الخاصة باقتراض الكتب، بهدف تقليص فجوة الوصول إلى خدمات الذكاء الاصطناعي المدفوعة، وتوسيع المبادرة لتشمل 47 مكتبة جامعية وطنية. تُموَّل الخطة عبر التمويل الذاتي للمدارس أو من خلال طلب إعانات؛ وفي الوقت نفسه، يتعين تجاوز تحديات مثل مواعيد الاستخدام وإدارة الحسابات والخصوصية والترخيص.

ChainNewsAbmediaمنذ 19 س
تعليق
0/400
لا توجد تعليقات