
阿里巴巴 Qwen 團隊於 6 月 17 日發布 Qwen-Robot Suite,一套由三個基礎模型組成的具身智慧全棧:Qwen-RobotNav(移動導航)、Qwen-RobotManip(機械操控)、Qwen-RobotWorld(物理世界模擬)。三個模型均已開源。
Qwen-RobotNav:五項任務統一、1,560 萬筆訓練資料
Qwen-RobotNav 整合了指令跟隨、目標點導航、物件搜尋、目標追蹤和自主駕駛五項任務,提供可參數化介面(token 預算、時間衰減、每鏡頭權重)。模型在 1,560 萬筆樣本上訓練,在 VLN-CE RxR 基準(真實環境視覺與語言導航)成功率達 76.5%,在 EVT-Bench(移動目標追蹤)達 90%。
Qwen-RobotManip:38,100 小時訓練資料,RoboChallenge Table30-v1 排名第一
不同機器人的動作表示方式截然不同(Franka 機械臂用關節角度、ALOHA 雙臂用夾爪位置和方向、人形機器人用全身座標)。阿里巴巴從開源機器人資料庫和人類影片中合成約 38,100 小時的訓練資料,沒有依賴私有資料收集。模型在 RoboChallenge Table30-v1 基準排名第一,超越先前方法 20%。
Qwen-RobotWorld:860 萬筆影片語料,EWMBench 和 DreamGen Bench 排名第一
Qwen-RobotWorld 是以語言為條件的影片世界模型,將自然語言作為通用動作介面:「拿起紅色杯子往花上倒水」這個指令對夾爪、自駕車或移動導航代理均通用。訓練語料庫涵蓋 860 萬筆影片文字配對、2 億幀,橫跨操控(590 萬筆樣本、1,300+ 技能、20+ 形態)、自主駕駛(Waymo、NVIDIA PhysicalAI-AD)、室內導航,以及跨 14 種機械臂的人機轉移。EWMBench 和 DreamGen Bench 兩項基準測試排名第一,物理一致性測試滿分。
Qwen 官方說明:軟體模型而非實體機器人,定價與時間表尚未公布
根據 Qwen 官方部落格的說明,Qwen-Robot Suite 是軟體模型而非實體機器人,實際部署在家用場景仍需數年時間。阿里巴巴目前尚未公布定價、時間表或試點計劃外的客戶名單。Google DeepMind、Nvidia、Figure 和 Physical Intelligence 等西方實驗室也在追求類似目標,但報道指出多數專注於導航或操控的單項能力,而非統一可組裝的套件。
常見問題
Qwen-Robot Suite 的三個模型分別針對什麼場景?
根據 Qwen 官方部落格,三模型的定位為:Qwen-RobotNav 負責移動導航(五種任務統一);Qwen-RobotManip 負責跨機器人的機械操控(兼容不同動作表示方式);Qwen-RobotWorld 負責物理世界模擬(語言為通用動作介面)。三模型各自獨立,合在一起構成具身智慧全棧。
「機器人 Android 時刻」的定位是 Qwen 自己說的嗎?
是的。「機器人領域的 Android 時刻」是阿里巴巴 Qwen 官方在發布時使用的定位描述,意指 Qwen-Robot Suite 是作業系統層的平台,而非硬體。這是 Qwen 的市場定位表述,非第三方評級。
Qwen-Robot Suite 是否對外開源?
根據 Qwen 官方部落格,三個模型全部開源發布。阿里巴巴的訓練資料來自開源機器人資料庫和人類影片,未依賴私有資料收集,開源策略是本次發布的核心訊息之一。