Oppo X-OmniClaw:開源 Android AI 代理可在本地運行,無需雲端

Oliver Grant

Oppo 的 Multi-X 團隊已發布 X-OmniClaw,一個開源的 Android AI 代理(agent)框架:在保留核心邏輯於裝置端的同時,僅在進行艱鉅推理時才呼叫雲端的語言模型。與多數在雲端伺服器上運行、並承載虛擬 Android 副本的行動端 AI 系統不同,X-OmniClaw 會直接在使用者的實體裝置上執行,從而維持對手機相機、照片與本地檔案的存取權。

架構:三大支柱的裝置端智慧

根據 Oppo 的技術文件,X-OmniClaw 透過三個相互連接的組件運作,並形成一個連續不斷的迴圈。

Omni Perception 將相機影像、螢幕內容與語音輸入整合成單一管線。視覺-語言模型會先解讀代理行動前的場景。例如:當使用者將相機對準一個產品並詢問價格時,代理會先辨識正在查看的內容,接著打開相關購物 App 並開始搜尋,無需使用者手動輸入。

Omni Memory 透過在任務、App 切換與工作階段之間維持上下文,將 X-OmniClaw 與一次性聊天機器人區分開來。代理會從使用者的照片畫廊建立長期語意記憶,將原始影像轉換為關於物件、場景與事件的結構化筆記。該報告指出:「執行時的連續性,讓 X-OmniClaw 能作為持續運作的裝置端代理,而非一次性回應系統。」

Omni Action 透過結合 XML 介面資料、裝置端視覺模型與光學字元辨識(OCR),來精準判定應該點擊的位置,即使在雜亂的螢幕上也是如此。該框架包含行為克隆(behavior cloning)功能:使用者只需錄下一次導航路徑,之後在後續工作階段中即可透過 Android deeplink 快捷方式立即重播,繞過多步驟的 App 導航。

作業範例

Oppo 展示了多項 X-OmniClaw 的實際應用:

  • 產品辨識與定價:代理透過相機辨識實體產品,開啟 Taobao,捲動瀏覽搜尋結果,並回傳價格摘要,無需任何打字。

  • 教育協助:螢幕上的浮動夥伴會一步步協助使用者完成數學練習,並能自主讀取螢幕內容、處理每一道題目,完成後再前進。

  • 由相簿建立影片:當被要求把一組「鸚鵡主題」照片整理成精華影片時,系統會使用語意記憶掃描相簿以找出匹配影像,透過 deeplink 開啟 CapCut 的影片編輯器,批次選取檔案並生成影片。該報告指出,這個先前需要「幾分鐘或更久」的流程,已被縮短為少數幾個自動化步驟。

置身於 AI 代理生態系

X-OmniClaw 將架構延伸自 OpenClaw:一個開源的代理框架,曾累積超過 373,000 的 GitHub stars,並最終獲得 OpenAI 支援。Nous Research 的 Hermes Agent 則進一步推進了這個概念,透過自我改進的學習迴圈,使能力能隨時間不斷累積。這兩個專案主要在桌上型硬體上運行。X-OmniClaw 則透過在開源 HermesApp 程式碼基礎上打造,並以 OpenClaw 的結構化技能模型作為基礎靈感,再針對行動裝置的多模態、長駐特性進行客製化,來把此架構適配到智慧型手機。

程式碼已在 GitHub 提供,Oppo 承諾將釋出所有資產,並在系統演進過程中持續更新該專案。

免責聲明:本頁面資訊可能來自第三方來源,僅供參考,不代表 Gate 的立場或觀點,亦不構成任何財務、投資或法律建議。虛擬資產交易具有高風險,請勿僅依賴本頁資訊作出決策。詳情請參閱 免責聲明
回覆
0/400
暫無回覆