Google は Gemini Robotics ER 1.6 をリリース:最先端のロボットモデルで、視覚と空間推論に長けています

ChainNewsAbmedia

Google DeepMind は、最新のロボット基盤モデル「Gemini Robotics ER 1.6」を発表しました。ここで ER は Embodied Reasoning(具現的推論)を意味します。このモデルは、視覚および空間推論の分野で現在の最高水準(SOTA)に到達しており、Gemini API によりすでに利用可能です。Google AI 開発者リレーション担当責任者の Logan Kilpatrick が、ソーシャルメディア上でこのニュースを公開しました。(出典)

Embodied Reasoning とは何ですか?

Embodied Reasoning とは、AI モデルが物理世界を理解し推論する能力を指します。従来の言語モデルとは異なり、具現的推論モデルは三次元空間における物体の位置、形状、素材、そして物理的な相互作用関係を扱う必要があります。Gemini Robotics ER 1.6 は、この種のタスクに特化して最適化されており、ロボットが周囲の環境をより正確に理解し、適切な行動決定を行えるようにします。

主要能力

Gemini Robotics ER 1.6 の主な優位性は、2 つの側面に集約されています。

能力 説明 視覚推論 画像や動画から物体を識別し、シーンの構造を理解したうえで、それに基づき意思決定を行うこと 空間推論 三次元空間内の物体の相対位置、距離、方向を理解し、複雑な操作計画を支援すること

これら 2 つの能力の組み合わせにより、ロボットはより複雑な現実世界のタスクを扱えるようになります。たとえば、倉庫環境では、ロボットはさまざまな形状の物品を同時に認識し、最適な把持角度と配置位置を計算する必要があります。これはまさに Gemini Robotics ER 1.6 が得意とするシーンです。

Gemini API を通じて利用

過去に多くのロボットモデルが論文段階にとどまっていたのに対し、Gemini Robotics ER 1.6 は Gemini API によってアクセスが提供されています。つまり、開発者やハードウェア企業は、このモデルを自社のロボットシステムに直接統合でき、ゼロからモデルを学習する必要がありません。

API の公開により、ロボット AI の開発における参入障壁も下がります。これまで、視覚および空間推論能力を備えたロボットシステムを開発するには、大量のデータ収集とモデル学習作業が必要でした。現在は、開発者がハードウェア設計やアプリケーションシナリオの開発に集中し、基盤となる推論能力を Gemini Robotics ER 1.6 に任せることができます。

Google のロボット AI 構想

Gemini Robotics ER 1.6 は、ロボット領域における Google DeepMind の最新成果です。初期の RT-2 から現在の Gemini Robotics シリーズまで、Google は大型言語モデルの能力を物理世界とのインタラクションへと継続的に拡張してきました。ER 1.6 のバージョンは、前身の基盤の上に推論精度をさらに向上させており、特に精密な操作が必要なシーンでより優れた性能を発揮します。

ロボット産業が新たな成長サイクルに入るにつれ、強力な視覚および空間推論能力を備えた基盤モデルは重要な基盤インフラになるでしょう。Gemini エコシステムの発展を詳しく知りたい場合は、Gemini の完全ガイドを参照してください。

この記事「Google が Gemini Robotics ER 1.6 をリリース:SOTA のロボットモデル、視覚と空間推論が得意」は最初に 鏈新聞 ABMedia に掲載されました。

免責事項:このページの情報は第三者から提供される場合があり、Gateの見解または意見を代表するものではありません。このページに表示される内容は参考情報のみであり、いかなる金融、投資、または法律上の助言を構成するものではありません。Gateは情報の正確性または完全性を保証せず、当該情報の利用に起因するいかなる損失についても責任を負いません。仮想資産への投資は高いリスクを伴い、大きな価格変動の影響を受けます。投資元本の全額を失う可能性があります。関連するリスクを十分に理解したうえで、ご自身の財務状況およびリスク許容度に基づき慎重に判断してください。詳細は免責事項をご参照ください。
コメント
0/400
コメントなし