Google annonce Gemini 3.5 Live Translate pour la traduction vocale dans plus de 70 langues

Google a annoncé Gemini 3.5 Live Translate, un modèle d’IA de la parole à la parole (speech-to-speech) qui fournit une traduction vocale instantanée d’un interlocuteur à l’autre dans plus de 70 langues. Le lancement étend la disponibilité de la traduction en temps réel au-delà des exigences précédentes pour des téléphones ou des écouteurs spécifiques de Google, tout en offrant une latence plus faible que les implémentations antérieures. Google poursuit la traduction en temps réel depuis des années, comme l’une de ses premières expériences en apprentissage automatique ; auparavant, l’entreprise avait déployé une traduction en temps réel limitée dans l’application Translate l’an dernier, avant le déploiement plus large d’aujourd’hui.

Gemini 3.5 Live Translate : spécifications techniques et famille de modèles

Gemini 3.5 Live Translate fait partie de la famille de versions 3.5 lancée à l’I/O. Avant aujourd’hui, Google n’avait déployé que la version Flash, avec un modèle Pro attendu dans les prochaines semaines. Le modèle parole à parole est réglé pour détecter et traduire automatiquement dans plus de 70 langues.

D’après Google, Gemini 3.5 Live Translate est assez rapide pour suivre une conversation normale, avec seulement quelques secondes de retard sur l’interlocuteur, tout en reproduisant l’intonation, le rythme et la hauteur de voix. Le modèle produit une sortie vocale qui ressemble davantage à celle de l’orateur d’origine qu’à un robot générique. Google a publié des démonstrations enregistrées dans des conditions contrôlées mettant en évidence ces capacités.

Déploiement dans l’écosystème Google et accès des utilisateurs

Gemini 3.5 Live Translate est déployé dans plusieurs parties de l’écosystème Google. Le modèle est disponible dans Google Meet pour la traduction de la parole pendant les appels vidéo. Les utilisateurs peuvent accéder aux capacités de traduction sans attendre de longues périodes de vérification.

Accès à une API développeur et fonctions de traitement automatique

Les développeurs peuvent commencer à construire avec une préversion publique dans la Gemini Live API ou dans AI Studio. Le modèle traite la parole en continu et gère automatiquement toutes les entrées multilingues, ce qui évite aux développeurs de configurer manuellement les paramètres. Il filtre aussi le bruit de fond dans les environnements bruyants.

FAQ

Quelles langues Gemini 3.5 Live Translate prend-il en charge ?
Gemini 3.5 Live Translate prend en charge plus de 70 langues grâce à la détection et aux capacités de traduction automatiques.

Où les utilisateurs peuvent-ils accéder à Gemini 3.5 Live Translate ?
Le modèle est déployé dans plusieurs parties de l’écosystème Google, y compris Google Meet pour la traduction de la parole, et les développeurs peuvent y accéder via la préversion publique de la Gemini Live API ou d’AI Studio.

Comment Gemini 3.5 Live Translate gère-t-il le traitement de la parole ?
Le modèle traite la parole en continu, gère automatiquement les entrées multilingues sans configuration manuelle, et filtre le bruit de fond dans les environnements bruyants tout en reproduisant l’intonation, le rythme et la hauteur de voix de l’orateur.

Avertissement : Les informations figurant sur cette page peuvent provenir de sources tierces et sont fournies à titre indicatif uniquement. Elles ne reflètent pas les points de vue ou opinions de Gate et ne constituent pas un conseil financier, d’investissement ou juridique. Le trading des actifs virtuels comporte des risques élevés. Veuillez ne pas vous fonder uniquement sur les informations de cette page pour prendre vos décisions. Pour en savoir plus, consultez l’avertissement.
Commentaire
0/400
Aucun commentaire