Google DeepMind は、最新のロボット基盤モデル「Gemini Robotics ER 1.6」を発表しました。ここで ER は Embodied Reasoning(具現的推論)を意味します。このモデルは、視覚および空間推論の分野で現在の最高水準(SOTA)に到達しており、Gemini API によりすでに利用可能です。Google AI 開発者リレーション担当責任者の Logan Kilpatrick が、ソーシャルメディア上でこのニュースを公開しました。(出典)
Embodied Reasoning とは何ですか?
Embodied Reasoning とは、AI モデルが物理世界を理解し推論する能力を指します。従来の言語モデルとは異なり、具現的推論モデルは三次元空間における物体の位置、形状、素材、そして物理的な相互作用関係を扱う必要があります。Gemini Robotics ER 1.6 は、この種のタスクに特化して最適化されており、ロボットが周囲の環境をより正確に理解し、適切な行動決定を行えるようにします。
主要能力
Gemini Robotics ER 1.6 の主な優位性は、2 つの側面に集約されています。
能力 説明 視覚推論 画像や動画から物体を識別し、シーンの構造を理解したうえで、それに基づき意思決定を行うこと 空間推論 三次元空間内の物体の相対位置、距離、方向を理解し、複雑な操作計画を支援すること
これら 2 つの能力の組み合わせにより、ロボットはより複雑な現実世界のタスクを扱えるようになります。たとえば、倉庫環境では、ロボットはさまざまな形状の物品を同時に認識し、最適な把持角度と配置位置を計算する必要があります。これはまさに Gemini Robotics ER 1.6 が得意とするシーンです。
Gemini API を通じて利用
過去に多くのロボットモデルが論文段階にとどまっていたのに対し、Gemini Robotics ER 1.6 は Gemini API によってアクセスが提供されています。つまり、開発者やハードウェア企業は、このモデルを自社のロボットシステムに直接統合でき、ゼロからモデルを学習する必要がありません。
API の公開により、ロボット AI の開発における参入障壁も下がります。これまで、視覚および空間推論能力を備えたロボットシステムを開発するには、大量のデータ収集とモデル学習作業が必要でした。現在は、開発者がハードウェア設計やアプリケーションシナリオの開発に集中し、基盤となる推論能力を Gemini Robotics ER 1.6 に任せることができます。
Google のロボット AI 構想
Gemini Robotics ER 1.6 は、ロボット領域における Google DeepMind の最新成果です。初期の RT-2 から現在の Gemini Robotics シリーズまで、Google は大型言語モデルの能力を物理世界とのインタラクションへと継続的に拡張してきました。ER 1.6 のバージョンは、前身の基盤の上に推論精度をさらに向上させており、特に精密な操作が必要なシーンでより優れた性能を発揮します。
ロボット産業が新たな成長サイクルに入るにつれ、強力な視覚および空間推論能力を備えた基盤モデルは重要な基盤インフラになるでしょう。Gemini エコシステムの発展を詳しく知りたい場合は、Gemini の完全ガイドを参照してください。
この記事「Google が Gemini Robotics ER 1.6 をリリース:SOTA のロボットモデル、視覚と空間推論が得意」は最初に 鏈新聞 ABMedia に掲載されました。
再帰的スーパ—インテリジェンスが5億ドルの資金調達を完了、NVIDIAが主導して出資
フランス、4月20日にパリへ赴き、Xプラットフォームの調査・事情聴取を受けるようイーロン・マスクを召喚
Vitalik が香港での講演を確認。イーサリアムのAIとZKエコシステムの応用が主要な焦点に。
Googleの年次報告書によると、Geminiはミリ秒単位で遮断を実現し、詐欺広告の99%を阻止
NVIDIAは量子AI向けに設計された世界初の「イジング・モデル」を発表