Google hat Gemini 3.5 Live Translate angekündigt: ein Speech-to-Speech-KI-Modell, das eine sofortige Übersetzung von Sprache zu Sprache über mehr als 70 Sprachen hinweg ermöglicht. Das Release erweitert die Verfügbarkeit von Echtzeit-Übersetzungen über die bisherigen Anforderungen für bestimmte Google-Telefone oder -Earbuds hinaus und bietet eine geringere Latenz als frühere Implementierungen. Google verfolgt seit Jahren eine Echtzeit-Übersetzung als eines seiner wegweisenden Experimente im Bereich Machine Learning; zuvor hatte man letztes Jahr im Translate-App-Umfeld nur eine begrenzte Echtzeit-Übersetzung ausgerollt, bevor heute die breitere Bereitstellung erfolgt.
Gemini 3.5 Live Translate Technische Spezifikationen und Modellfamilie
Gemini 3.5 Live Translate ist Teil der Version-3,5-Familie, die auf dem I/O-Event vorgestellt wurde. Vor heute hatte Google nur die Flash-Variante ausgerollt, wobei ein Pro-Modell in den kommenden Wochen erwartet wird. Das Speech-to-Speech-Modell ist so abgestimmt, dass es automatisch in mehr als 70 Sprachen erkennt und übersetzt.
Laut Google ist Gemini 3.5 Live Translate schnell genug, um mit einem normalen Gespräch Schritt zu halten: Es liegt nur wenige Sekunden hinter der sprechenden Person zurück und stimmt dabei auch Intonation, Tempo und Tonhöhe ab. Das Modell erzeugt eine Sprach-Ausgabe, die sich stärker nach der ursprünglichen sprechenden Person anhört als nach einem generischen Roboter. Google hat Demos veröffentlicht, die unter kontrollierten Bedingungen aufgenommen wurden und diese Fähigkeiten belegen.
Rollout im Google-Ökosystem und Nutzerzugriff
Gemini 3.5 Live Translate wird in mehreren Bereichen des Google-Ökosystems ausgerollt. Das Modell ist in Google Meet für die Sprachübersetzung während Videoanrufen verfügbar. Nutzer können auf die Übersetzungsfunktionen zugreifen, ohne auf längere Verifizierungszeiträume warten zu müssen.
Entwickler-API-Zugriff und automatische Verarbeitungsfunktionen
Entwickler können mit einem öffentlichen Preview in der Gemini Live API oder in AI Studio beginnen. Das Modell verarbeitet Sprache kontinuierlich und übernimmt alle mehrsprachigen Eingaben automatisch, wodurch Entwickler sich das manuelle Konfigurieren von Einstellungen sparen. Außerdem filtert es Hintergrundgeräusche in belebten Umgebungen heraus.
FAQ
Welche Sprachen unterstützt Gemini 3.5 Live Translate?
Gemini 3.5 Live Translate unterstützt mehr als 70 Sprachen mit automatischer Erkennung und Übersetzungsfunktionen.
Wo können Nutzer auf Gemini 3.5 Live Translate zugreifen?
Das Modell wird in mehreren Bereichen des Google-Ökosystems ausgerollt, darunter in Google Meet für die Sprachübersetzung, und Entwickler können es über das Gemini Live API oder AI Studio Public-Preview nutzen.
Wie verarbeitet Gemini 3.5 Live Translate Sprache?
Das Modell verarbeitet Sprache kontinuierlich, übernimmt mehrsprachige Eingaben automatisch ohne manuelle Konfiguration und filtert Hintergrundgeräusche in belebten Umgebungen heraus, während es gleichzeitig die Intonation, das Tempo und die Tonhöhe der sprechenden Person nachbildet.