阿里巴巴推 Qwen-Robot Suite 三模型，多項機器人「全部開源」

2026-06-18 01:49:47

阿里巴巴 Qwen 團隊於 6 月 17 日發布 Qwen-Robot Suite，一套由三個基礎模型組成的具身智慧全棧：Qwen-RobotNav（移動導航）、Qwen-RobotManip（機械操控）、Qwen-RobotWorld（物理世界模擬）。三個模型均已開源。

Qwen-RobotNav：五項任務統一、1,560 萬筆訓練資料

Qwen-RobotNav 整合了指令跟隨、目標點導航、物件搜尋、目標追蹤和自主駕駛五項任務，提供可參數化介面（token 預算、時間衰減、每鏡頭權重）。模型在 1,560 萬筆樣本上訓練，在 VLN-CE RxR 基準（真實環境視覺與語言導航）成功率達 76.5%，在 EVT-Bench（移動目標追蹤）達 90%。

Qwen-RobotManip：38,100 小時訓練資料，RoboChallenge Table30-v1 排名第一

不同機器人的動作表示方式截然不同（Franka 機械臂用關節角度、ALOHA 雙臂用夾爪位置和方向、人形機器人用全身座標）。阿里巴巴從開源機器人資料庫和人類影片中合成約 38,100 小時的訓練資料，沒有依賴私有資料收集。模型在 RoboChallenge Table30-v1 基準排名第一，超越先前方法 20%。

Qwen-RobotWorld：860 萬筆影片語料，EWMBench 和 DreamGen Bench 排名第一

Qwen-RobotWorld 是以語言為條件的影片世界模型，將自然語言作為通用動作介面：「拿起紅色杯子往花上倒水」這個指令對夾爪、自駕車或移動導航代理均通用。訓練語料庫涵蓋 860 萬筆影片文字配對、2 億幀，橫跨操控（590 萬筆樣本、1,300+ 技能、20+ 形態）、自主駕駛（Waymo、NVIDIA PhysicalAI-AD）、室內導航，以及跨 14 種機械臂的人機轉移。EWMBench 和 DreamGen Bench 兩項基準測試排名第一，物理一致性測試滿分。

Qwen 官方說明：軟體模型而非實體機器人，定價與時間表尚未公布

根據 Qwen 官方部落格的說明，Qwen-Robot Suite 是軟體模型而非實體機器人，實際部署在家用場景仍需數年時間。阿里巴巴目前尚未公布定價、時間表或試點計劃外的客戶名單。Google DeepMind、Nvidia、Figure 和 Physical Intelligence 等西方實驗室也在追求類似目標，但報道指出多數專注於導航或操控的單項能力，而非統一可組裝的套件。

常見問題

Qwen-Robot Suite 的三個模型分別針對什麼場景？

根據 Qwen 官方部落格，三模型的定位為：Qwen-RobotNav 負責移動導航（五種任務統一）；Qwen-RobotManip 負責跨機器人的機械操控（兼容不同動作表示方式）；Qwen-RobotWorld 負責物理世界模擬（語言為通用動作介面）。三模型各自獨立，合在一起構成具身智慧全棧。

「機器人 Android 時刻」的定位是 Qwen 自己說的嗎？

是的。「機器人領域的 Android 時刻」是阿里巴巴 Qwen 官方在發布時使用的定位描述，意指 Qwen-Robot Suite 是作業系統層的平台，而非硬體。這是 Qwen 的市場定位表述，非第三方評級。

Qwen-Robot Suite 是否對外開源？

根據 Qwen 官方部落格，三個模型全部開源發布。阿里巴巴的訓練資料來自開源機器人資料庫和人類影片，未依賴私有資料收集，開源策略是本次發布的核心訊息之一。

免責聲明：本頁面資訊可能來自第三方來源，僅供參考，不代表 Gate 的立場或觀點，亦不構成任何財務、投資或法律建議。虛擬資產交易具有高風險，請勿僅依賴本頁資訊作出決策。詳情請參閱免責聲明。