إعادة صياغة RAG للشركات من Blockify: استبدال التجزيء بـ IdeaBlock، والضغط 40 مرة، وتقليل التوكنات إلى الثلث

2026-05-10 09:18:35

أداة AI جديدة لتحسين بيانات الشركات في مجال أتمتة البحث، Blockify، رُتّبت من akshay_pachaar بتاريخ 9 مايو، وتدّعي أنه يمكن في مسار RAG (Retrieval-Augmented Generation) ضغط قواعد بيانات الشركات بمقدار 40 مرة، وخفض عدد توكنات الاستعلام بمقدار 3 مرات، ورفع دقة البحث المعتمد على البحث المتجهي (vector search) بمقدار 2.3 مرة. وتوضح صفحة Blockify الرسمية على GitHub أن المنتج صُمّم بواسطة Iternal Technologies، ويستخدم بنية «IdeaBlock» كوحدات معرفة مُهيكلة بدل تقطيع chunking التقليدي، كما يضمن عبر إزالة التكرارات ودمجها بقاء قاعدة المعرفة موجزة ومتسقة وقابلة للحوكمة.

المفهوم الأساسي: استخدام IdeaBlock بدل chunking التقليدي

التصميم التقني لـ Blockify:

النهج التقليدي: تقسيم المستندات الطويلة إلى chunks بحجم ثابت، ثم تضمين المتجهات (embeddings)، وأثناء الاسترجاع يتم أخذ top-k

نهج Blockify: تحويل المحتوى الخام إلى IdeaBlock—وحدات معرفة مُهيكلة بتنسيق XML

يحتوي كل IdeaBlock على: سؤالاً مضمناً، إجابة موثوقة، tags، كيانات (entities)، وكلمات مفتاحية

تتم إزالة التكرارات ودمج الـ IdeaBlock المتشابه تلقائياً، بحيث لا تتمدد قاعدة المعرفة مع زيادة المحتوى

مشكلة chunking التقليدي هي أن المعلومات نفسها قد تتكرر في عدة chunks، ما يسبب تكدساً زائداً في عملية الاسترجاع وهدر توكنات؛ وتقوم IdeaBlock عبر إزالة التكرارات برفع كثافة المعلومات، وتمثيل المحتوى نفسه بمساحة تخزين أصغر.

الفوائد العملية: ضغط بمقدار 40 مرة، توكن أقل 3 مرات، ورفع الدقة بمقدار 2.3 مرة

مؤشرات الفوائد التفصيلية التي أعلنتها Blockify:

ضغط البيانات: تقليص قاعدة بيانات الشركات إلى نحو 2.5% من حجمها الأصلي (ضغط 40 مرة)، مع الحفاظ على 99% أو أكثر من المعلومات

توكن لكل استعلام: من نحو 303 توكن (chunking التقليدي) إلى نحو 98 توكناً (IdeaBlock)—كفاءة أعلى بمقدار 3.09 مرات

دقة الاسترجاع المتجهي: زيادة بمقدار 2.29 مرة

تحسن الدقة الإجمالي: نحو 78 مرة (تأثير تكاملي يشمل إزالة التكرار وتحسينات الاسترجاع)

تجربة حسابية لتوفير التكاليف: 100 مليون استعلام/سنة، وتوفير تكلفة توكنات بنحو 738 ألف دولار

يمثل تحسن الدقة الإجمالي 78 مرة تأثيراً تراكبياً—فإزالة التكرار تقلل الضجيج، وكون محتوى IdeaBlock مُهيكلاً يساعد بحث المتجهات، كما أن انخفاض عدد توكنات الإجابة لكل مرة يحدّ أيضاً من مساحة احتمال خطأ النموذج.

نطاق التكامل: LlamaIndex وLangChain وMilvus وCloudflare وغيرها من الأطر الشائعة

أدوات التطوير والبنية التحتية التي تم دمجها بالفعل في Blockify:

إطار RAG: LlamaIndex وLangChain

إدارة المعرفة: Obsidian

قاعدة بيانات المتجهات: Milvus وElastic وSupabase

الحوسبة الطرفية: Cloudflare

تكامل قليل البرمجة (low-code): n8n (عبر قوالب سير عمل)

تتمثل استراتيجية دمج Blockify في «عدم استبدال أطر RAG القائمة، بل العمل كطبقة تحسين بيانات تمهيدية». يمكن للمطورين استبدال خطوة chunking في سير عمل LlamaIndex أو LangChain الحالية عبر Blockify، مع بقاء بقية الخطوات دون تغيير.

الأحداث الملموسة التي يمكن تتبعها لاحقاً: نمو عدد نجوم Blockify على GitHub ومعدل تبنيه في المجتمع، وما إذا كانت Iternal Technologies قد قدمت أو كشفت تفاصيل تقنية حول بنية IdeaBlock (حالياً يتم الترويج لـ «patented ingestion»)، وكذلك ما إذا كانت الأطر الرائدة في RAG ستضم منطقاً شبيهاً بإزالة التكرارات كوظيفة افتراضية.

ظهرت هذه المقالة بعنوان «Blockify يعيد صياغة RAG للشركات: استخدام IdeaBlock بدل chunking، وضغط 40 مرة، وتخفيض التوكن 3 مرات» لأول مرة في موقع «سلسلة الأخبار ABMedia».

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة مستمدة من مصادر خارجية وهي للمرجعية فقط. لا تمثل هذه المعلومات آراء أو وجهات نظر Gate ولا تشكل أي نصيحة مالية أو استثمارية أو قانونية. ينطوي تداول الأصول الافتراضية على مخاطر عالية. يرجى عدم الاعتماد حصرياً على المعلومات الواردة في هذه الصفحة عند اتخاذ القرارات. لمزيد من التفاصيل، يرجى الرجوع على إخلاء المسؤولية.

أخبار ذات صلة

05-10 08:30

منصة الذكاء الاصطناعي للشركات تغلق جولة التمويل$16M بقيادة a16z

05-10 02:22

تعتزم Alibaba دمج Qwen AI مع Taobao، وإطلاق خدمة تسوق بالذكاء الاصطناعي تشمل 4 مليارات منتج

05-09 22:02

تُعيد SpaceX تسمية xAI إلى SpaceXAI، وتُقدّم طلباً للحصول على علامة تجارية للحوسبة المدارية قبل طرحها للاكتتاب العام بقيمة 1.75 تريليون دولار