أداة AI جديدة لتحسين بيانات الشركات في مجال أتمتة البحث، Blockify، رُتّبت من akshay_pachaar بتاريخ 9 مايو، وتدّعي أنه يمكن في مسار RAG (Retrieval-Augmented Generation) ضغط قواعد بيانات الشركات بمقدار 40 مرة، وخفض عدد توكنات الاستعلام بمقدار 3 مرات، ورفع دقة البحث المعتمد على البحث المتجهي (vector search) بمقدار 2.3 مرة. وتوضح صفحة Blockify الرسمية على GitHub أن المنتج صُمّم بواسطة Iternal Technologies، ويستخدم بنية «IdeaBlock» كوحدات معرفة مُهيكلة بدل تقطيع chunking التقليدي، كما يضمن عبر إزالة التكرارات ودمجها بقاء قاعدة المعرفة موجزة ومتسقة وقابلة للحوكمة.
المفهوم الأساسي: استخدام IdeaBlock بدل chunking التقليدي
التصميم التقني لـ Blockify:
النهج التقليدي: تقسيم المستندات الطويلة إلى chunks بحجم ثابت، ثم تضمين المتجهات (embeddings)، وأثناء الاسترجاع يتم أخذ top-k
نهج Blockify: تحويل المحتوى الخام إلى IdeaBlock—وحدات معرفة مُهيكلة بتنسيق XML
يحتوي كل IdeaBlock على: سؤالاً مضمناً، إجابة موثوقة، tags، كيانات (entities)، وكلمات مفتاحية
تتم إزالة التكرارات ودمج الـ IdeaBlock المتشابه تلقائياً، بحيث لا تتمدد قاعدة المعرفة مع زيادة المحتوى
مشكلة chunking التقليدي هي أن المعلومات نفسها قد تتكرر في عدة chunks، ما يسبب تكدساً زائداً في عملية الاسترجاع وهدر توكنات؛ وتقوم IdeaBlock عبر إزالة التكرارات برفع كثافة المعلومات، وتمثيل المحتوى نفسه بمساحة تخزين أصغر.
الفوائد العملية: ضغط بمقدار 40 مرة، توكن أقل 3 مرات، ورفع الدقة بمقدار 2.3 مرة
مؤشرات الفوائد التفصيلية التي أعلنتها Blockify:
ضغط البيانات: تقليص قاعدة بيانات الشركات إلى نحو 2.5% من حجمها الأصلي (ضغط 40 مرة)، مع الحفاظ على 99% أو أكثر من المعلومات
توكن لكل استعلام: من نحو 303 توكن (chunking التقليدي) إلى نحو 98 توكناً (IdeaBlock)—كفاءة أعلى بمقدار 3.09 مرات
دقة الاسترجاع المتجهي: زيادة بمقدار 2.29 مرة
تحسن الدقة الإجمالي: نحو 78 مرة (تأثير تكاملي يشمل إزالة التكرار وتحسينات الاسترجاع)
تجربة حسابية لتوفير التكاليف: 100 مليون استعلام/سنة، وتوفير تكلفة توكنات بنحو 738 ألف دولار
يمثل تحسن الدقة الإجمالي 78 مرة تأثيراً تراكبياً—فإزالة التكرار تقلل الضجيج، وكون محتوى IdeaBlock مُهيكلاً يساعد بحث المتجهات، كما أن انخفاض عدد توكنات الإجابة لكل مرة يحدّ أيضاً من مساحة احتمال خطأ النموذج.
نطاق التكامل: LlamaIndex وLangChain وMilvus وCloudflare وغيرها من الأطر الشائعة
أدوات التطوير والبنية التحتية التي تم دمجها بالفعل في Blockify:
إطار RAG: LlamaIndex وLangChain
إدارة المعرفة: Obsidian
قاعدة بيانات المتجهات: Milvus وElastic وSupabase
الحوسبة الطرفية: Cloudflare
تكامل قليل البرمجة (low-code): n8n (عبر قوالب سير عمل)
تتمثل استراتيجية دمج Blockify في «عدم استبدال أطر RAG القائمة، بل العمل كطبقة تحسين بيانات تمهيدية». يمكن للمطورين استبدال خطوة chunking في سير عمل LlamaIndex أو LangChain الحالية عبر Blockify، مع بقاء بقية الخطوات دون تغيير.
الأحداث الملموسة التي يمكن تتبعها لاحقاً: نمو عدد نجوم Blockify على GitHub ومعدل تبنيه في المجتمع، وما إذا كانت Iternal Technologies قد قدمت أو كشفت تفاصيل تقنية حول بنية IdeaBlock (حالياً يتم الترويج لـ «patented ingestion»)، وكذلك ما إذا كانت الأطر الرائدة في RAG ستضم منطقاً شبيهاً بإزالة التكرارات كوظيفة افتراضية.
ظهرت هذه المقالة بعنوان «Blockify يعيد صياغة RAG للشركات: استخدام IdeaBlock بدل chunking، وضغط 40 مرة، وتخفيض التوكن 3 مرات» لأول مرة في موقع «سلسلة الأخبار ABMedia».
Related News
صراع “وضع كود” من Anthropic عبر MCP مقابل CLI: أدوات تُقيّد وقت التشغيل وتنقل الرموز من 150 ألف إلى 2 ألف
حصلت شركة Deepinfra، الشريك طويل الأمد في مجال الذكاء الاصطناعي المفتوح التابع لـ NVIDIA، على تمويل جولة B بقيمة 107 مليون دولار، بهدف إنشاء «مصنع رموز».
تطلق Anthorpic وكيلًا ذكاءً اصطناعيًا مخصصًا للتمويل، وكشف أحد المطلعين في الأوساط أن Claude لا يمكنه أن يحل محل المحللين في الجوانب الأساسية
مهندس شركة Anthropic: إن HTML هو أفضل تنسيق إخراج لــ Claude Code، وليس Markdown
OpenAI Codex يطلق إضافة للمتصفح Chrome: يمكنها اختبار تطبيق ويب داخل المتصفح، وجلب السياق عبر الصفحات، والعمل بشكل متوازٍ