El equipo de Qwen de Alibaba presentó el Qwen-Robot Suite el martes, un conjunto de tres modelos fundamentales diseñados para impulsar la navegación de robots, la manipulación y la simulación del mundo basada en física mediante una pila de software unificada. La empresa anunció el conjunto vía Twitter el 16 de junio de 2026, posicionando la tecnología como lo que llama un “full stack for embodied intelligence”. Alibaba desarrolló los modelos para abordar un desafío central en robótica: mientras que los agentes de IA actualmente dependen de modelos de lenguaje a gran escala para la toma de decisiones, los robots físicos requieren sistemas de IA generativa capaces de gestionar modos de fallo basados en física en lugar de razonamiento basado en prompts. El lanzamiento representa la estrategia de integración vertical de Alibaba que abarca chips, infraestructura en la nube, modelos de IA y aplicaciones, con la robótica como la expresión más física del desarrollo de IA encarnada en China.

Qwen-Robot Suite unifica tres modelos especializados

El Qwen-Robot Suite consta de tres modelos fundamentales, cada uno encargado de un aspecto distinto de la inteligencia robótica. Qwen-RobotNav gestiona tareas de movilidad y navegación. Qwen-RobotManip aborda la manipulación y la interacción física con objetos. Qwen-RobotWorld simula la física que habilita tanto la navegación como la manipulación. Según Alibaba, cada modelo opera de forma independiente mientras, al combinarse, forma una pila de software cohesiva. La empresa describe la arquitectura como la capa de sistema operativo para robótica más que como hardware.

Qwen-RobotNav unifica cinco tareas de navegación dentro de un solo modelo: seguimiento de instrucciones, navegación por punto-objetivo, búsqueda de objetos, seguimiento de objetivos y conducción autónoma. El modelo expone una interfaz parametrizada con un presupuesto de tokens configurable, decaimiento temporal y pesos por cámara que un planificador puede reconfigurar durante la operación. Alibaba entrenó el modelo con 15,6 millones de muestras con aleatorización en todos los parámetros.

Qwen-RobotManip aborda el desafío de representaciones de acciones incompatibles entre diferentes plataformas de robots. Un brazo Franka opera mediante ángulos articulares, mientras que un robot ALOHA representa acciones mediante la posición y orientación de la pinza. Los robots humanoides usan coordenadas de todo el cuerpo. Alibaba sintetizó aproximadamente 38,100 horas de datos de entrenamiento a partir de datasets de robots de código abierto y videos humanos para salvar estos espacios de acciones incompatibles.

Qwen-RobotWorld funciona como un modelo de mundo en video condicionado por lenguaje que trata el lenguaje natural como una interfaz universal de acción. El modelo procesa comandos como “Pick up the red cup and pour water on the flower” en distintos tipos de robots, incluidas pinzas, vehículos autónomos y agentes de navegación móvil. El corpus Embodied World Knowledge abarca 8,6 millones de pares video-texto con un total de 200 millones de frames en escenarios de manipulación, conducción autónoma, navegación en interiores y transferencia de humano a robot.

Los modelos logran los primeros puestos en múltiples benchmarks de robótica

Qwen-RobotNav logró 76,5% de éxito en VLN-CE RxR, un benchmark de navegación visión-lenguaje en entornos del mundo real. El modelo también alcanzó 90% de rendimiento de seguimiento en EVT-Bench, que evalúa la capacidad de un agente para seguir de forma consistente objetivos en movimiento.

Qwen-RobotManip ocupa el primer lugar en RoboChallenge Table30-v1, superando enfoques previos en 20%. El rendimiento del modelo se debe a su enfoque de alineación primero para el entrenamiento entre diferentes cuerpos.

Qwen-RobotWorld ocupa el primer lugar en EWMBench y DreamGen Bench, dos benchmarks que evalúan si los modelos de mundo predicen y generan entornos físicos realistas. El modelo supera a todos los modelos de código abierto en WorldModelBench y PBench. Alibaba informa que el modelo obtiene puntuaciones perfectas en pruebas de adherencia a la física que cubren las leyes de Newton, conservación de la masa, dinámica de fluidos y gravedad.

Los datos de entrenamiento abarcan millones de muestras de datasets de robots de código abierto

Alibaba entrenó Qwen-RobotNav con 15,6 millones de muestras con aleatorización en los parámetros de navegación. La empresa no divulgó los datasets específicos de origen para el entrenamiento de navegación.

Para Qwen-RobotManip, Alibaba sintetizó aproximadamente 38,100 horas de datos de entrenamiento a partir de datasets de robots de código abierto y videos humanos. La empresa indicó que no dependió de recolección de datos propietaria para el entrenamiento del modelo de manipulación.

El corpus Embodied World Knowledge de Qwen-RobotWorld contiene 8,6 millones de pares video-texto que abarcan 200 millones de frames. El corpus incluye 5,9 millones de muestras de manipulación que cubren 1,300+ habilidades en 20+ morfologías de robots. Los datos de conducción autónoma provienen de los datasets de Waymo, NVIDIA PhysicalAI-AD y Bench2Drive. Los datos de navegación en interiores derivan de VLNVerse. Los datos de transferencia de humano a robot cubren 14 brazos robóticos.

La implementación de robots en el mundo real sigue estando a varios años

Alibaba afirmó que la implementación de robots en el mundo real sigue estando a varios años de distancia. La empresa reconoció la brecha entre entornos de demostración controlados y una operación real confiable. RoboCasa365, LIBERO-Plus y RoboTwin-Clean2Rand son benchmarks de simulación, no escenarios de despliegue en el mundo real. El despliegue en el mundo real introduce ruido de sensores, deriva de actuadores y casos límite que Alibaba reconoce como desafíos en curso.

Los modelos son sistemas de software diseñados para ejecutarse en hardware de fabricantes como AgileX, Franka, Universal Robots y Unitree. Alibaba no ha divulgado precios, plazos específicos de despliegue ni qué clientes recibirán acceso más allá de los programas piloto.

FAQ

¿Qué anunció Alibaba el 16 de junio de 2026?

El equipo de Qwen de Alibaba anunció el Qwen-Robot Suite el martes 16 de junio de 2026, compuesto por tres modelos fundamentales: Qwen-RobotNav para navegación, Qwen-RobotManip para manipulación y Qwen-RobotWorld para simulación de mundo basada en física. La empresa posicionó el conjunto como una pila de software unificada para inteligencia encarnada en robótica.

¿Qué resultados en benchmarks lograron los modelos Qwen-Robot?

Qwen-RobotNav logró 76,5% de éxito en VLN-CE RxR y 90% en EVT-Bench. Qwen-RobotManip ocupa el primer lugar en RoboChallenge Table30-v1, superando enfoques previos en 20%. Qwen-RobotWorld ocupa el primer lugar en EWMBench, DreamGen Bench, WorldModelBench y PBench entre modelos de código abierto, con puntuaciones perfectas en pruebas de adherencia a la física.

¿Cuándo se implementarán los modelos Qwen-Robot en robots del mundo real?

Alibaba indicó que la implementación de robots en el mundo real sigue estando a varios años de distancia. La empresa no ha divulgado plazos de despliegue específicos, precios ni qué clientes recibirán acceso más allá de los programas piloto.

Ver fuente

Aviso legal: La información en esta página puede provenir de fuentes de terceros y es solo para referencia. No representa las opiniones ni puntos de vista de Gate y no constituye asesoramiento financiero, de inversión ni legal. El comercio de activos virtuales implica un alto riesgo. No te bases únicamente en la información presentada en esta página para tomar decisiones. Para más detalles, consulta el Aviso legal.

Noticias relacionadas

hace4h

Alibaba presenta la suite Qwen-Robot con tres modelos base para robótica el 16 de junio

hace20h

Alibaba lanza la serie Qwen-Robot con tres modelos de IA encarnada para robótica

hace22h

Alibaba lanza la serie Qwen-Robot de modelos de IA encarnada