Google lance Gemini Robotics ER 1.6 : modèle de robot SOTA, excellent en raisonnement visuel et spatial

Google DeepMind a publié un tout nouveau modèle de base pour robots, Gemini Robotics ER 1.6, où ER représente Embodied Reasoning (raisonnement incarné). Ce modèle atteint l’état de l’art (SOTA) actuel en matière de raisonnement visuel et spatial, et il est déjà disponible via l’API Gemini. Logan Kilpatrick, responsable des relations développeurs chez Google AI, a annoncé cette nouvelle sur les réseaux sociaux. (Source)

Qu’est-ce que le raisonnement incarné (Embodied Reasoning) ?

Le raisonnement incarné fait référence à la capacité d’un modèle IA à comprendre et à raisonner sur le monde physique. Contrairement aux modèles de langage traditionnels, les modèles de raisonnement incarné doivent traiter la position, la forme, la matière et les relations d’interaction physique des objets dans un espace tridimensionnel. Gemini Robotics ER 1.6 est spécialement optimisé pour ce type de tâches, afin que les robots puissent mieux comprendre l’environnement qui les entoure et prendre des décisions d’action appropriées.

Capacités clés

Les principaux avantages de Gemini Robotics ER 1.6 se concentrent sur deux aspects :

Capacité Description Raisonnement visuel Capable d’identifier des objets à partir d’images et de vidéos, de comprendre la structure d’une scène, et d’en tirer des décisions Raisonnement spatial Comprendre la position relative, la distance et la direction des objets dans un espace tridimensionnel, et prendre en charge une planification d’opérations complexe

La combinaison de ces deux capacités permet aux robots de gérer des tâches du monde réel plus complexes. Par exemple, dans un environnement d’entrepôt, le robot doit reconnaître simultanément des objets de formes différentes et calculer le meilleur angle de préhension ainsi que la position de pose : c’est précisément le type de scène dans lequel Gemini Robotics ER 1.6 excelle.

Utiliser via l’API Gemini

Contrairement à de nombreux modèles de robots du passé qui n’en étaient restés qu’au stade des articles de recherche, Gemini Robotics ER 1.6 offre un accès via l’API Gemini. Cela signifie que les développeurs et les fournisseurs de matériel peuvent intégrer directement ce modèle dans leurs propres systèmes de robots, sans avoir à entraîner le modèle à partir de zéro.

L’ouverture de l’API réduit également la difficulté de développer de l’IA pour robots. Dans le passé, développer un système de robot doté de capacités de raisonnement visuel et spatial nécessitait une grande quantité de collecte de données et de travail d’entraînement de modèles. Désormais, les développeurs peuvent se concentrer sur le développement de la conception matérielle et des cas d’usage, en confiant les capacités de raisonnement de base à Gemini Robotics ER 1.6.

Le déploiement de l’IA robot chez Google

Gemini Robotics ER 1.6 est la dernière réalisation de Google DeepMind dans le domaine de la robotique. Des premiers RT-2 à la série Gemini Robotics d’aujourd’hui, Google a continué d’étendre les capacités des grands modèles de langage à l’interaction avec le monde physique. La version ER 1.6 améliore encore la précision du raisonnement par rapport à ses prédécesseurs, et se distingue particulièrement dans les scénarios nécessitant des opérations fines.

À mesure que l’industrie de la robotique entre dans une nouvelle phase de croissance, les modèles de base dotés de puissantes capacités de raisonnement visuel et spatial deviendront une infrastructure clé. Pour en savoir plus sur l’évolution de l’écosystème Gemini, vous pouvez consulter le guide complet Gemini.

Cet article Google lance Gemini Robotics ER 1.6 : modèle robot SOTA, spécialisé dans le raisonnement visuel et spatial est apparu pour la première fois sur Chaîne News ABMedia.

Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.

Articles similaires

Sondage POLITICO : 45 % des Américains disent que les investissements en crypto sont trop risqués, 50 % font davantage confiance aux banques

D’après un sondage POLITICO, 45% des Américains pensent que les investissements en cryptomonnaies ne valent pas le risque, et environ 50% déclarent leur faire davantage confiance aux banques traditionnelles pour protéger leur argent. Le sondage a également révélé que 44% des personnes interrogées estiment que l’intelligence artificielle se développe trop vite,

GateNewsIl y a 3h

Amazon et OpenAI élargissent leur partenariat : des modèles mis en ligne sur Bedrock, l’exclusivité de Microsoft prend fin

OpenAI, le 3 mai, a annoncé étendre sa collaboration avec les services cloud d’Amazon (AWS) : ses modèles OpenAI et ses agents d’encodage Codex seront proposés aux clients AWS via Amazon Bedrock. D’après un article de CNBC, cette extension constitue une étape clé après la fin, fin avril, du contrat d’exclusivité cloud entre OpenAI et Microsoft : OpenAI passe du statut de « seul cloud Microsoft » à un déploiement multi-cloud. AWS, de son côté, a déjà finalisé l’intégration initiale des produits OpenAI sur la plateforme Bedrock. Contexte : fin du contrat d’exclusivité OpenAI–Microsoft, prolongation de la licence IP jusqu’en 2032 Fin avril, OpenAI et Microsoft ont conclu un nouvel accord : la structure initiale « Microsoft avec accès exclusif aux produits et à la propriété intellectuelle (IP) d’OpenAI » prend fin, et Op

ChainNewsAbmediaIl y a 5h

Les chercheurs déploient la technologie DPN-LE pour modifier des traits de personnalité de l’IA, en ne modifiant que 0,5 % des neurones

D'après BlockBeats, le 3 mai, le chercheur en IA Brian Roemmele a révélé que sa société Zero-Human a déployé la technologie DPN-LE (Dual Personality Neuron Localization and Editing) afin d’ajuster avec précision

GateNewsIl y a 5h

Claude vérifie l’horloge toutes les 15 minutes après avoir obtenu l’accès à l’outil de correction du retard

D’après le développeur Om Patel, Claude AI a commencé à vérifier fréquemment l’horloge après avoir obtenu l’accès à un outil de temps le 3 mai, le modèle vérifiant toutes les 15 minutes. L’observation met en évidence que les grands modèles de langage n’avaient auparavant pas de perception du temps native et n’étaient pas conscients de l’heure actuelle ou

GateNewsIl y a 7h

Founders Fund clôture un fonds flagship de 6 milliards de dollars, le plus important depuis sa création, le 3 mai

D’après Bloomberg, Founders Fund a finalisé une levée de fonds pour son dernier fonds phare à 6 milliards de dollars le 3 mai, dépassant largement son fonds précédent d’environ 3,4 milliards de dollars. Le fonds, cofondé par le milliardaire Peter Thiel, se concentrera sur des secteurs à forte croissance, notamment l’intelligence

GateNewsIl y a 7h

Dernier sondage POLITICO : 45 % des Américains disent que l’investissement dans la crypto est trop risqué, 44 % s’inquiètent de l’avancée trop rapide de l’IA

Selon un sondage POLITICO, malgré les financements politiques importants injectés par les secteurs de l’IA et de la crypto dans les élections législatives américaines de mi-mandat de 2026, le public américain reste largement sceptique à l’égard des deux secteurs. L’enquête a révélé que 45% des Américains pensent que l’investissement dans les cryptomonnaies n’en vaut pas la peine.

GateNewsIl y a 8h
Commentaire
0/400
Aucun commentaire