Blockify переписує корпоративний RAG: використовує IdeaBlock замість Chunking, стискає у 40 разів, зменшує token у 3 рази

2026-05-10 09:18:35

Компанія, що створює нові інструменти для оптимізації корпоративних даних за допомогою ШІ, Blockify: 9 травня її зібрав і просуває akshay_pachaar, який заявляє, що у процесі RAG (Retrieval-Augmented Generation) вона може стиснути корпоративні бази даних у 40 разів, зменшити витрати на токени під час запиту в 3 рази та підвищити точність векторного пошуку в 2,3 раза. Офіційний GitHub Blockify повідомляє: продукт представила Iternal Technologies; він використовує структуру «IdeaBlock», яка замінює традиційне chunking, а також через дедуплікацію та об’єднання дозволяє тримати базу знань стислою, послідовною та керованою.

Ключова концепція: IdeaBlock замість традиційного chunking

Технічний дизайн Blockify:

Традиційний підхід: розбивати довгі документи на чанки фіксованого розміру, вбудовувати вектори, під час детекції брати top-k

Підхід Blockify: перетворювати вихідний контент на IdeaBlock — XML-структуровані одиниці знань

Кожен IdeaBlock містить: запитання, перевірені відповіді, tag, сутності, ключові слова

Схожі IdeaBlock автоматично дедуплікуються та об’єднуються, тож база знань не роздувається зі зростанням контенту

Проблема традиційного chunking у тому, що одна й та сама інформація може повторюватися в кількох чанках, спричиняючи надмірність під час пошуку та марну витрату токенів; IdeaBlock через дедуплікацію підвищує щільність знань, а той самий зміст виражає в меншому обсязі зберігання.

Конкретні переваги: стиснення в 40 разів, токени — у 3 рази менше, точність — у 2,3 раза вища

Опубліковані Blockify показники конкретної ефективності:

Стиснення даних: корпоративна база даних зменшується до приблизно 2,5% від початкового обсягу (40 разів стиснення), збереження 99% і більше інформації

Токени на кожен запит: із ~303 (традиційний chunk) до ~98 (IdeaBlock) — ефективність у 3,09 раза

Точність векторного пошуку: підвищення в 2,29 раза

Загальне покращення точності: приблизно 78 разів (сумарний ефект від дедуплікації та покращення пошуку)

Розрахунок економії витрат: 1 млрд запитів/рік, економія токен-костів близько 73,8 тис. доларів

Загальне підвищення точності у 78 разів — це комплексний ефект: дедуплікація зменшує шум, IdeaBlock-структурований контент дружніший для векторного пошуку, а також зниження кількості токенів на одну відповідь одночасно зменшує простір для помилок моделі.

Масштаб інтеграції: LlamaIndex, LangChain, Milvus, Cloudflare та інші популярні фреймворки

Вже інтегровані розробницькі інструменти та інфраструктура Blockify:

RAG-фреймворки: LlamaIndex, LangChain

Керування знаннями: Obsidian

Векторні бази даних: Milvus, Elastic, Supabase

Edge-обчислення: Cloudflare

Low-code інтеграції: n8n (через шаблони робочих процесів)

Стратегія інтеграції Blockify — «не замінювати наявні RAG-фреймворки, а бути шаром попередньої оптимізації даних». Розробники можуть у наявних процесах LlamaIndex або LangChain замінити крок chunking на Blockify, тоді інші етапи залишаться без змін.

Конкретні події, за якими можна буде стежити далі: зростання кількості зірок у GitHub Blockify та рівень прийняття спільнотою, чи Iternal Technologies подала або розкрила технічні деталі щодо IdeaBlock-структури (зараз наголошується на «patented ingestion»), а також чи будуть убудовані подібні логіки дедуплікації в налаштуваннях за замовчуванням у популярних RAG-фреймворках.

Ця стаття «Blockify переписує корпоративний RAG: IdeaBlock замість chunking, стиснення в 40 разів, token-и — у 3 рази менше» вперше з’явилась на сайті Мережа новин ABMedia.

Застереження: інформація на цій сторінці може походити зі сторонніх джерел і надається виключно для ознайомлення. Вона не відображає позицію чи думку Gate і не є фінансовою, інвестиційною чи юридичною консультацією. Торгівля віртуальними активами пов’язана з високим ризиком. Будь ласка, не покладайтеся лише на інформацію з цієї сторінки під час прийняття рішень. Детальніше дивіться у Застереженні.

Пов’язані новини

05-10 08:30

Платформа для корпоративного AI Pit закриває $16M раунд фінансування серії, який очолює a16z

05-10 02:22

Alibaba інтегрує Qwen AI з Taobao, запускаючи сервіс AI-покупок із 4 мільярдами продуктів

05-09 22:02

SpaceX перейменовує xAI на SpaceXAI, подає заявку на торговельну марку Orbital Computing перед IPO на $1,75T

Пов'язані статті

Anthropic Code Mode: спір між MCP і CLI: інструменти замість runtime, токени з 150 тис. до 2 тис.

ChainNewsAbmedia05-10 09:15

NVIDIA відкрила довгострокове партнерство з Deepinfra, який залучив 107 млн доларів у раунді B для створення «токен-фабрики»

ChainNewsAbmedia05-10 00:04

Anthorpic створює фінансового AI-агента, орієнтованого на індустрію; інсайдери розповіли, чому Claude не може замінити аналітиків

ChainNewsAbmedia05-09 17:13

Інженер Anthropic: HTML — це найкращий формат виводу для Claude Code, а не Markdown

ChainNewsAbmedia05-09 07:25

Прокоментувати

0/400

Немає коментарів