Gate News-Mitteilung, 16. April — Google und Boston Dynamics haben die Integration von Gemini-Robotics-Verkörperungs-Reasoning-Modellen in den Spot-Vierbeiner-Roboter angekündigt. Damit kann das System natürliche Spracheingaben interpretieren, Objekte erkennen und komplexe Aufgaben autonom ausführen.
Die Zusammenarbeit baut auf experimenteller Arbeit aus einem internen Hackathon im Jahr 2025 auf und ermöglicht es Spot, visuelle Eingaben zu verarbeiten und hochrangige Befehle in koordinierte physische Aktionen zu übersetzen. Im Gegensatz zur traditionellen Robotikprogrammierung, die auf starrer Schritt-für-Schritt-Logik basiert, nutzt das System konversationelle Prompts und eine dazwischengeschaltete Softwareebene, die Gemini-Modelle mit der Spot-API verbindet. Die KI kann aus vordefinierten Fähigkeiten auswählen, darunter Navigation, Objekterkennung, Bildaufnahme, Greifen und Platzieren. Echtzeit-Feedback ermöglicht ein adaptives Verhalten ohne manuelle Eingriffe.
In Vorführungen interpretierte das System allgemeine Anweisungen erfolgreich, um Gegenstände zu organisieren. Dabei analysierte es visuelle Daten und führte den Roboter durch Aktionssequenzen. Der Ansatz erhält die betriebliche Sicherheit, indem die KI-Fähigkeiten auf vordefinierte Grenzen innerhalb der Roboter-API beschränkt werden. So wird die Anpassungsfähigkeit mit kontrollierter Leistung in Einklang gebracht. Die Partnerschaft deutet auf potenzielle Effizienzgewinne für Entwickler hin, indem sie manuelle Programmierung reduziert und es Ingenieuren ermöglicht, sich darauf zu konzentrieren, Ziele festzulegen, statt jede Aktionssequenz zu programmieren.