Oppo X-OmniClaw：開源 Android AI 代理可在本地運行，無需雲端

2026-05-18 19:17:18

Oppo 的 Multi-X 團隊已發布 X-OmniClaw，一個開源的 Android AI 代理（agent）框架：在保留核心邏輯於裝置端的同時，僅在進行艱鉅推理時才呼叫雲端的語言模型。與多數在雲端伺服器上運行、並承載虛擬 Android 副本的行動端 AI 系統不同，X-OmniClaw 會直接在使用者的實體裝置上執行，從而維持對手機相機、照片與本地檔案的存取權。

架構：三大支柱的裝置端智慧

根據 Oppo 的技術文件，X-OmniClaw 透過三個相互連接的組件運作，並形成一個連續不斷的迴圈。

Omni Perception 將相機影像、螢幕內容與語音輸入整合成單一管線。視覺-語言模型會先解讀代理行動前的場景。例如：當使用者將相機對準一個產品並詢問價格時，代理會先辨識正在查看的內容，接著打開相關購物 App 並開始搜尋，無需使用者手動輸入。

Omni Memory 透過在任務、App 切換與工作階段之間維持上下文，將 X-OmniClaw 與一次性聊天機器人區分開來。代理會從使用者的照片畫廊建立長期語意記憶，將原始影像轉換為關於物件、場景與事件的結構化筆記。該報告指出：「執行時的連續性，讓 X-OmniClaw 能作為持續運作的裝置端代理，而非一次性回應系統。」

Omni Action 透過結合 XML 介面資料、裝置端視覺模型與光學字元辨識（OCR），來精準判定應該點擊的位置，即使在雜亂的螢幕上也是如此。該框架包含行為克隆（behavior cloning）功能：使用者只需錄下一次導航路徑，之後在後續工作階段中即可透過 Android deeplink 快捷方式立即重播，繞過多步驟的 App 導航。

作業範例

Oppo 展示了多項 X-OmniClaw 的實際應用：

產品辨識與定價：代理透過相機辨識實體產品，開啟 Taobao，捲動瀏覽搜尋結果，並回傳價格摘要，無需任何打字。
教育協助：螢幕上的浮動夥伴會一步步協助使用者完成數學練習，並能自主讀取螢幕內容、處理每一道題目，完成後再前進。
由相簿建立影片：當被要求把一組「鸚鵡主題」照片整理成精華影片時，系統會使用語意記憶掃描相簿以找出匹配影像，透過 deeplink 開啟 CapCut 的影片編輯器，批次選取檔案並生成影片。該報告指出，這個先前需要「幾分鐘或更久」的流程，已被縮短為少數幾個自動化步驟。

置身於 AI 代理生態系

X-OmniClaw 將架構延伸自 OpenClaw：一個開源的代理框架，曾累積超過 373,000 的 GitHub stars，並最終獲得 OpenAI 支援。Nous Research 的 Hermes Agent 則進一步推進了這個概念，透過自我改進的學習迴圈，使能力能隨時間不斷累積。這兩個專案主要在桌上型硬體上運行。X-OmniClaw 則透過在開源 HermesApp 程式碼基礎上打造，並以 OpenClaw 的結構化技能模型作為基礎靈感，再針對行動裝置的多模態、長駐特性進行客製化，來把此架構適配到智慧型手機。

程式碼已在 GitHub 提供，Oppo 承諾將釋出所有資產，並在系統演進過程中持續更新該專案。

View Source

免責聲明：本頁面資訊可能來自第三方來源，僅供參考，不代表 Gate 的立場或觀點，亦不構成任何財務、投資或法律建議。虛擬資產交易具有高風險，請勿僅依賴本頁資訊作出決策。詳情請參閱免責聲明。