Google DeepMind a publié un tout nouveau modèle de base pour robots, Gemini Robotics ER 1.6, où ER représente Embodied Reasoning (raisonnement incarné). Ce modèle atteint l’état de l’art (SOTA) actuel en matière de raisonnement visuel et spatial, et il est déjà disponible via l’API Gemini. Logan Kilpatrick, responsable des relations développeurs chez Google AI, a annoncé cette nouvelle sur les réseaux sociaux. (Source)
Qu’est-ce que le raisonnement incarné (Embodied Reasoning) ?
Le raisonnement incarné fait référence à la capacité d’un modèle IA à comprendre et à raisonner sur le monde physique. Contrairement aux modèles de langage traditionnels, les modèles de raisonnement incarné doivent traiter la position, la forme, la matière et les relations d’interaction physique des objets dans un espace tridimensionnel. Gemini Robotics ER 1.6 est spécialement optimisé pour ce type de tâches, afin que les robots puissent mieux comprendre l’environnement qui les entoure et prendre des décisions d’action appropriées.
Capacités clés
Les principaux avantages de Gemini Robotics ER 1.6 se concentrent sur deux aspects :
Capacité Description Raisonnement visuel Capable d’identifier des objets à partir d’images et de vidéos, de comprendre la structure d’une scène, et d’en tirer des décisions Raisonnement spatial Comprendre la position relative, la distance et la direction des objets dans un espace tridimensionnel, et prendre en charge une planification d’opérations complexe
La combinaison de ces deux capacités permet aux robots de gérer des tâches du monde réel plus complexes. Par exemple, dans un environnement d’entrepôt, le robot doit reconnaître simultanément des objets de formes différentes et calculer le meilleur angle de préhension ainsi que la position de pose : c’est précisément le type de scène dans lequel Gemini Robotics ER 1.6 excelle.
Utiliser via l’API Gemini
Contrairement à de nombreux modèles de robots du passé qui n’en étaient restés qu’au stade des articles de recherche, Gemini Robotics ER 1.6 offre un accès via l’API Gemini. Cela signifie que les développeurs et les fournisseurs de matériel peuvent intégrer directement ce modèle dans leurs propres systèmes de robots, sans avoir à entraîner le modèle à partir de zéro.
L’ouverture de l’API réduit également la difficulté de développer de l’IA pour robots. Dans le passé, développer un système de robot doté de capacités de raisonnement visuel et spatial nécessitait une grande quantité de collecte de données et de travail d’entraînement de modèles. Désormais, les développeurs peuvent se concentrer sur le développement de la conception matérielle et des cas d’usage, en confiant les capacités de raisonnement de base à Gemini Robotics ER 1.6.
Le déploiement de l’IA robot chez Google
Gemini Robotics ER 1.6 est la dernière réalisation de Google DeepMind dans le domaine de la robotique. Des premiers RT-2 à la série Gemini Robotics d’aujourd’hui, Google a continué d’étendre les capacités des grands modèles de langage à l’interaction avec le monde physique. La version ER 1.6 améliore encore la précision du raisonnement par rapport à ses prédécesseurs, et se distingue particulièrement dans les scénarios nécessitant des opérations fines.
À mesure que l’industrie de la robotique entre dans une nouvelle phase de croissance, les modèles de base dotés de puissantes capacités de raisonnement visuel et spatial deviendront une infrastructure clé. Pour en savoir plus sur l’évolution de l’écosystème Gemini, vous pouvez consulter le guide complet Gemini.
Cet article Google lance Gemini Robotics ER 1.6 : modèle robot SOTA, spécialisé dans le raisonnement visuel et spatial est apparu pour la première fois sur Chaîne News ABMedia.
Articles similaires
Réalité des agents IA de la Silicon Valley : énorme gaspillage de jetons, intégration système « extrêmement chaotique », la « prochaine version de ChatGPT » selon Jensen Huang encore à confirmer
L’IA engloutit 80% du capital-risque mondial, Q1 2026 attire 242 milliards de dollars : comment les acteurs de la cryptographie doivent réagir à la réallocation des capitaux
La police de Hong Kong met en garde contre l’arnaque crypto « trading quantitatif par IA », une femme perd 7,7 millions de HK$
Hong Kong annoncera demain la sixième série de la liste des entreprises clés
Le robot Lightning d’Honor remporte le semi-marathon de robots humanoïdes de Pékin 2026 avec un temps de 50:26
L’action de Meta progresse de 1,73 % tandis que la société prévoit un plan de licenciement de 8 000 emplois à partir du 20 mai