企業 AI 資料優化新工具 Blockify 5 月 9 日由 akshay_pachaar 整理推廣、宣稱在 RAG(Retrieval-Augmented Generation)流程中、可把企業資料庫壓縮 40 倍、查詢 token 用量減 3 倍、向量搜尋準確率提升 2.3 倍。Blockify 官方 GitHub說明:產品由 Iternal Technologies 推出、用「IdeaBlock」結構化知識單元取代傳統 chunking、並透過去重合併讓知識庫保持精簡、連貫、可治理。
核心概念:用 IdeaBlock 取代傳統 chunking
Blockify 的技術設計:
傳統做法:把長文件切成固定大小的 chunk、嵌入向量、檢索時取 top-k
Blockify 做法:把原始內容轉換為 IdeaBlock—XML 結構化知識單元
每個 IdeaBlock 內含:自帶問題、可信答案、tag、實體、關鍵字
相似 IdeaBlock 自動去重合併、知識庫不會隨內容增長膨脹
傳統 chunking 的問題是同一資訊可能在多個 chunk 中重複出現、造成檢索冗餘與 token 浪費;IdeaBlock 透過去重把資訊密度提升、同樣內容用更小的儲存空間表達。
具體效益:壓縮 40 倍、token 減 3 倍、準確率升 2.3 倍
Blockify 公布的具體效益指標:
資料壓縮:企業資料庫縮減至原大小約 2.5%(40 倍壓縮)、保留 99% 以上資訊
每查詢 token:從約 303 個(傳統 chunk)降至約 98 個(IdeaBlock)—3.09 倍效率
向量檢索準確率:提升 2.29 倍
整體準確率改善:約 78 倍(含去重與檢索改進綜合效應)
成本節省試算:1 億查詢/年、節省 token 成本約 73.8 萬美元
78 倍的整體準確率提升是綜合效應—去重減少噪音、IdeaBlock 結構化內容對向量檢索友善、單次回答 token 數下降同時減少模型出錯空間。
整合範圍:LlamaIndex、LangChain、Milvus、Cloudflare 等主流框架
Blockify 已整合的開發者工具與基礎設施:
RAG 框架:LlamaIndex、LangChain
知識管理:Obsidian
向量資料庫:Milvus、Elastic、Supabase
邊緣運算:Cloudflare
低程式碼整合:n8n(透過工作流程模板)
Blockify 的整合策略是「不取代既有 RAG 框架、而是作為前置資料優化層」。開發者可在現有 LlamaIndex 或 LangChain 流程中、用 Blockify 替換原本的 chunking 步驟、其餘流程不變。
後續可追蹤的具體事件:Blockify GitHub 星數成長與社群採用率、Iternal Technologies 是否就 IdeaBlock 結構申請或揭露技術細節(目前標榜「patented ingestion」)、以及主流 RAG 框架是否將類似去重邏輯內建為預設功能。
這篇文章 Blockify 改寫企業 RAG:用 IdeaBlock 取代 chunking、壓縮 40 倍、token 減 3 倍 最早出現於 鏈新聞 ABMedia。
免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見
聲明。
相關文章
Xiaohu 示範跨模型工作流:GPT 生圖 + Gemini 3.1 Pro 轉 3D 互動內容
本文示範以 GPT 生圖,再由 Gemini 3.1 Pro 將圖像轉為可在瀏覽器旋轉互動的 3D 內容,形成兩階段工作流:先生圖、再立體化。適用科教與產品展示,強調跨模型工作流成為未來主流,重點是工具選擇與多模型串接。範例含 3D 行星、互動科學內容與機器人展示頁。
鏈新聞abmedia7小時前
阿里巴巴將整合 Qwen AI 與 淘寶,推出擁有 40 億個商品的 AI 購物服務
根據 Jinshi 引用的消息來源,阿里巴巴計畫將其 Qwen AI 平台與 淘寶 電商服務整合,以透過對話式 AI 進行購物,而非關鍵字搜尋。該整合將讓消費者在 Qwen 應用程式中,透過與 AI 助手的對話來瀏覽、比較並購買商品,並可存取 淘寶 與 Tmall 超過 40 億個商品的目錄。該服務將依據使用者的訂單歷史與偏好提供購物建議,由一套技能函式庫管理物流與售後服務來支援。此外,阿里巴巴還將在 淘寶 內推出由 Qwen 驅動的 AI 購物助理,提供虛擬試穿與 30 天價格追蹤工具。
GateNews14小時前
DMG Blockchain 設立 DMG 基礎設施子公司以進行 AI 與高效能運算(HPC)作業
根據 BlockBeats,DMG Blockchain 於 5 月 9 日成立子公司 DMG Infrastructure,用於經營人工智慧與高效能運算(HPC)業務。該公司計劃將其資料中心逐步轉向 AI 與 HPC 服務。DMG Blockchain 於 4 月產出 21 BTC,較 3 月的 23 BTC 下滑。
GateNews05-09 04:25
Spotify 今天推出 AI 生成的個人播客功能,允許儲存至圖書館
根據 MacRumors,Spotify 今天(5 月 8 日)推出一項新功能,允許使用者生成並儲存由 AI 驅動的個人播客,直接存放到他們的 Spotify 資料庫中。使用者可在桌面端安裝並登入「Save to Spotify CLI」,接著使用來自 OpenAI、Anthropic 等的 AI 程式碼代理工具來進行操作
GateNews05-08 14:46
Benzinga 推出韓文翻譯引擎與 4 億字 AI 金融資料集
根據該公司說法,Benzinga 最近推出了一套韓文翻譯引擎,以及一個為 AI 訓練而設計的大規模韓文金融資料集。該系統能在即時將美國市場新聞翻譯成韓文,同時保留金融術語、代號(ticker)參照與市場脈絡。
GateNews05-08 11:32
FLock.io 參與牛津圓桌會議,以推進砂拉越主權 AI 歐盟備忘錄(MoU)
根據 Foresight News,FLock.io 參與了牛津大學的一場圓桌討論,以推進關於沙勞越主權 AI 發展的三方諒解備忘錄。該討論聚焦於資料主權、AI 協作、資料安全治理以及硬體
GateNews05-08 11:01