Команда Qwen компанії Alibaba у вівторок представила Qwen-Robot Suite — набір із трьох базових моделей, розроблених для забезпечення навігації роботів, маніпуляцій та симуляції світу на основі фізики через єдиний програмний стек. Компанія оголосила про цей набір у Twitter 16 червня 2026 року, позиціонуючи технологію як те, що вона називає «full stack для embodied intelligence». Alibaba створила моделі для вирішення ключового виклику в робототехніці: хоча AI-агенти наразі покладаються на великі мовні моделі для ухвалення рішень, фізичним роботам потрібні генеративні AI-системи, здатні обробляти збої, зумовлені фізикою, а не міркування на основі підказок. Випуск відображає стратегію вертикальної інтеграції Alibaba, що охоплює чипи, хмарну інфраструктуру, AI-моделі та застосунки, причому робототехніка є найбільш «фізичним» виявом розвитку embodied AI в Китаї.
Qwen-Robot Suite складається з трьох базових моделей, кожна з яких відповідає за окремий аспект роботного інтелекту. Qwen-RobotNav обробляє завдання мобільності та навігації. Qwen-RobotManip розв’язує маніпуляції та фізичну взаємодію з об’єктами. Qwen-RobotWorld симулює фізику, яка дає змогу і навігації, і маніпуляціям. За даними Alibaba, кожна модель працює незалежно, але разом формує узгоджений програмний стек. Компанія описує архітектуру як рівень операційної системи для робототехніки, а не як апаратне забезпечення.
Qwen-RobotNav об’єднує п’ять навігаційних завдань в одній моделі: виконання інструкцій, навігацію за точкою-ціллю, пошук об’єктів, відстеження цілі та автономне керування. Модель надає параметризований інтерфейс із конфігурованим бюджетом токенів, часовим затуханням і вагами для кожної камери, які планувальник може переналаштувати під час роботи. Alibaba навчила модель на 15,6 мільйона зразків із рандомізацією за всіма параметрами.
Qwen-RobotManip розв’язує проблему несумісних представлень дій на різних платформах роботів. Рука Franka працює через кути в суглобах, тоді як робот ALOHA представляє дії через позицію та орієнтацію захвату. У роботів-гуманоїдів використовуються координати всього тіла. Alibaba синтезувала приблизно 38 100 годин даних для навчання з відкритих наборів даних про роботи та з людських відео, щоб поєднати ці несумісні простори дій.
Qwen-RobotWorld функціонує як відеомодель світу, керована мовою: природна мова розглядається як універсальний інтерфейс дій. Модель обробляє команди на кшталт «Забери червону чашку й налий воду на квітку» для різних типів роботів, включно із захватами, автономними транспортними засобами та агентами мобільної навігації. Корпус Embodied World Knowledge охоплює 8,6 мільйона пар відео-текст, що в сумі складає 200 мільйонів кадрів, для сценаріїв маніпуляцій, автономного водіння, навігації всередині приміщень і перенесення від людини до робота.
Qwen-RobotNav досягла 76,5% успіху на VLN-CE RxR — бенчмарку для навігації «зір+мова» в реальних середовищах. Також модель показала 90% результативності відстеження на EVT-Bench, де оцінюють здатність агента стабільно стежити за рухомими цілями.
Qwen-RobotManip посідає перше місце на RoboChallenge Table30-v1, випереджаючи попередні підходи на 20%. Продуктивність моделі зумовлена підходом, де спершу виконується вирівнювання, у перехресному навчанні між embodied-формами.
Qwen-RobotWorld посідає перше місце на EWMBench і DreamGen Bench — двох бенчмарках, що перевіряють, чи моделі світу прогнозують і генерують реалістичні фізичні середовища. Модель обганяє всі open-source моделі на WorldModelBench і PBench. Alibaba повідомляє, що модель має ідеальні оцінки в тестах на відповідність фізиці, які охоплюють закони Ньютона, збереження маси, гідродинаміку та гравітацію.
Alibaba навчила Qwen-RobotNav на 15,6 мільйона зразків із рандомізацією за навігаційними параметрами. Компанія не розкрила конкретні джерела датасетів, використаних для навчання навігації.
Для Qwen-RobotManip Alibaba синтезувала приблизно 38 100 годин даних для навчання з відкритих датасетів про роботи та з людських відео. Компанія заявила, що не спиралася на закритий збір даних для навчання моделі маніпуляцій.
Корпус Embodied World Knowledge для Qwen-RobotWorld містить 8,6 мільйона пар відео-текст на 200 мільйонів кадрів. Корпус включає 5,9 мільйона зразків маніпуляцій, що охоплюють 1 300+ навичок у 20+ морфологіях роботів. Дані для автономного водіння надходять із датасетів Waymo, NVIDIA PhysicalAI-AD та Bench2Drive. Дані для навігації всередині приміщень отримані з VLNVerse. Дані для перенесення від людини до робота охоплюють 14 роботів-маніпуляторів.
Alibaba заявила, що реальне розгортання роботів залишиться на роки. Компанія визнала розрив між середовищами керованих демонстрацій і надійною роботою в реальному світі. RoboCasa365, LIBERO-Plus і RoboTwin-Clean2Rand — це симуляційні бенчмарки, а не сценарії реального розгортання. Реальне розгортання додає шум від сенсорів, дрейф актуаторів і крайові випадки, які Alibaba називає постійними викликами.
Моделі — це програмні системи, призначені для роботи на апаратному забезпеченні виробників, зокрема AgileX, Franka, Universal Robots і Unitree. Alibaba не розкрила ціни, конкретні строки розгортання чи те, які саме клієнти отримають доступ поза межами пілотних програм.
Що саме Alibaba оголосила 16 червня 2026 року?
Команда Qwen компанії Alibaba у вівторок оголосила про Qwen-Robot Suite — 3 базові моделі: Qwen-RobotNav для навігації, Qwen-RobotManip для маніпуляцій та Qwen-RobotWorld для симуляції світу на основі фізики. Компанія позиціонувала цей набір як єдиний програмний стек для embodied intelligence у робототехніці.
Які результати показали моделі Qwen-Robot у бенчмарках?
Qwen-RobotNav досягла 76,5% успіху на VLN-CE RxR і 90% на EVT-Bench. Qwen-RobotManip посідає перше місце на RoboChallenge Table30-v1, випередивши попередні підходи на 20%. Qwen-RobotWorld посідає перше місце на EWMBench, DreamGen Bench, WorldModelBench і PBench серед open-source моделей, з ідеальними оцінками в тестах на відповідність фізиці.
Коли моделі Qwen-Robot будуть розгорнуті в реальних роботах?
Alibaba заявила, що реальне розгортання роботів залишається на роки. Компанія не розкрила конкретні строки розгортання, ціни чи те, які саме клієнти отримають доступ поза межами пілотних програм.
Пов’язані новини
SpaceX подала форму 8-K із детальною інформацією про те, як використає кошти від IPO для AI та супутників
Cottonia співпрацює з Matrix для інтеграції AI-аналітики в BNB Chain
Генеральний директор Qualcomm: AI-агенти замінять застосунки, коли стартують 40+ нових пристроїв
VARA вимагає від криптокомпаній Дубая відстежувати чорні списки FATF у настановах з AML на 2026 рік
Модель Rio 3,5 від IplanRIO підтвердилася як Nex Weight Merge у спорі щодо атрибуції