Google lance Gemini Robotics ER 1.6 : modèle de robot SOTA, excellent en raisonnement visuel et spatial

2026-04-14 18:06:15

Google DeepMind a publié un tout nouveau modèle de base pour robots, Gemini Robotics ER 1.6, où ER représente Embodied Reasoning (raisonnement incarné). Ce modèle atteint l’état de l’art (SOTA) actuel en matière de raisonnement visuel et spatial, et il est déjà disponible via l’API Gemini. Logan Kilpatrick, responsable des relations développeurs chez Google AI, a annoncé cette nouvelle sur les réseaux sociaux. (Source)

Qu’est-ce que le raisonnement incarné (Embodied Reasoning) ?

Le raisonnement incarné fait référence à la capacité d’un modèle IA à comprendre et à raisonner sur le monde physique. Contrairement aux modèles de langage traditionnels, les modèles de raisonnement incarné doivent traiter la position, la forme, la matière et les relations d’interaction physique des objets dans un espace tridimensionnel. Gemini Robotics ER 1.6 est spécialement optimisé pour ce type de tâches, afin que les robots puissent mieux comprendre l’environnement qui les entoure et prendre des décisions d’action appropriées.

Capacités clés

Les principaux avantages de Gemini Robotics ER 1.6 se concentrent sur deux aspects :

Capacité Description Raisonnement visuel Capable d’identifier des objets à partir d’images et de vidéos, de comprendre la structure d’une scène, et d’en tirer des décisions Raisonnement spatial Comprendre la position relative, la distance et la direction des objets dans un espace tridimensionnel, et prendre en charge une planification d’opérations complexe

La combinaison de ces deux capacités permet aux robots de gérer des tâches du monde réel plus complexes. Par exemple, dans un environnement d’entrepôt, le robot doit reconnaître simultanément des objets de formes différentes et calculer le meilleur angle de préhension ainsi que la position de pose : c’est précisément le type de scène dans lequel Gemini Robotics ER 1.6 excelle.

Utiliser via l’API Gemini

Contrairement à de nombreux modèles de robots du passé qui n’en étaient restés qu’au stade des articles de recherche, Gemini Robotics ER 1.6 offre un accès via l’API Gemini. Cela signifie que les développeurs et les fournisseurs de matériel peuvent intégrer directement ce modèle dans leurs propres systèmes de robots, sans avoir à entraîner le modèle à partir de zéro.

L’ouverture de l’API réduit également la difficulté de développer de l’IA pour robots. Dans le passé, développer un système de robot doté de capacités de raisonnement visuel et spatial nécessitait une grande quantité de collecte de données et de travail d’entraînement de modèles. Désormais, les développeurs peuvent se concentrer sur le développement de la conception matérielle et des cas d’usage, en confiant les capacités de raisonnement de base à Gemini Robotics ER 1.6.

Le déploiement de l’IA robot chez Google

Gemini Robotics ER 1.6 est la dernière réalisation de Google DeepMind dans le domaine de la robotique. Des premiers RT-2 à la série Gemini Robotics d’aujourd’hui, Google a continué d’étendre les capacités des grands modèles de langage à l’interaction avec le monde physique. La version ER 1.6 améliore encore la précision du raisonnement par rapport à ses prédécesseurs, et se distingue particulièrement dans les scénarios nécessitant des opérations fines.

À mesure que l’industrie de la robotique entre dans une nouvelle phase de croissance, les modèles de base dotés de puissantes capacités de raisonnement visuel et spatial deviendront une infrastructure clé. Pour en savoir plus sur l’évolution de l’écosystème Gemini, vous pouvez consulter le guide complet Gemini.

Cet article Google lance Gemini Robotics ER 1.6 : modèle robot SOTA, spécialisé dans le raisonnement visuel et spatial est apparu pour la première fois sur Chaîne News ABMedia.

Avertissement : Les informations figurant sur cette page peuvent provenir de sources tierces et sont fournies à titre indicatif uniquement. Elles ne reflètent pas les points de vue ou opinions de Gate et ne constituent pas un conseil financier, d’investissement ou juridique. Le trading des actifs virtuels comporte des risques élevés. Veuillez ne pas vous fonder uniquement sur les informations de cette page pour prendre vos décisions. Pour en savoir plus, consultez l’avertissement.