Le responsable des relations développeurs chez Google, Logan Kilpatrick, a annoncé le 15 avril le lancement de Gemini 3.1 Flash TTS — le dernier modèle de conversion texte-voix de Google. Ce modèle prend en charge 70 langues, un contrôle fin de type “scene direction” (direction de scène), des niveaux de locuteur et des balises audio ; il est déjà disponible via l’audio playground de Google AI Studio ainsi que dans l’API Gemini.
Quatre fonctions principales
Gemini 3.1 Flash TTS, par rapport à son prédécesseur, propose quatre améliorations notables :
Direction de scène (Scene Direction) — Permet de définir un contexte pour la voix, par exemple « chuchoter dans un café bruyant » ou « annoncer une bonne nouvelle avec enthousiasme », le modèle ajustant alors le ton, le débit et l’émotion en fonction de la scène
Contrôle au niveau du locuteur (Speaker-Level Specificity) — Dans des dialogues multi-intervenants, il est possible de définir des caractéristiques vocales différentes pour chaque rôle
Balises audio (Audio Tags) — Prend en charge l’insertion d’instructions d’effets sonores dans le texte, pour contrôler des détails tels que les pauses et les variations d’intonation
Prise en charge de 70 langues — Étend considérablement la couverture multilingue, y compris le chinois
Un son plus naturel et plus expressif
Google souligne des progrès de cette version du modèle en matière de naturalité vocale. Les modèles TTS traditionnels ont souvent été critiqués pour produire une sortie « qui sonne comme de l’IA ». Gemini 3.1 Flash TTS tente de réduire l’écart avec la voix humaine grâce à des variations prosodiques plus riches et à l’expression des émotions. Kilpatrick indique que les avancées de Gemini 2.5 à 3.1 sont « très significatives ».
Comment les développeurs peuvent l’utiliser
Les développeurs peuvent l’utiliser de deux façons :
Google AI Studio Audio Playground — Tester et prévisualiser directement les effets vocaux dans l’interface web
API Gemini — L’intégrer dans des applications pour des scénarios tels que des assistants vocaux, des livres audio, la génération automatique de podcasts, un service client multilingue, etc.
La gamme de produits Gemini continue de s’étendre
Flash TTS fait partie des publications récentes et intensives de la série Gemini 3.1. Auparavant, Google avait déjà lancé Gemini Robotics ER 1.6 (raisonnement visuel pour robots), Tab Tab Tab (complétion de prompt Vibe Coding) et des fonctionnalités de prévisualisation de conception. Google est en train d’étendre Gemini, passant d’un « modèle de conversation » à une plateforme d’IA multimodale couvrant le texte, la voix, la vision et la robotique.
Cet article Google lance Gemini 3.1 Flash TTS : prise en charge de 70 langues et de la direction de scène, une voix IA plus naturelle est apparu pour la première fois sur Chaîne News ABMedia.
Articles similaires
L’IA engloutit 80% du capital-risque mondial, Q1 2026 attire 242 milliards de dollars : comment les acteurs de la cryptographie doivent réagir à la réallocation des capitaux
La police de Hong Kong met en garde contre l’arnaque crypto « trading quantitatif par IA », une femme perd 7,7 millions de HK$
Hong Kong annoncera demain la sixième série de la liste des entreprises clés
Le robot Lightning d’Honor remporte le semi-marathon de robots humanoïdes de Pékin 2026 avec un temps de 50:26
L’action de Meta progresse de 1,73 % tandis que la société prévoit un plan de licenciement de 8 000 emplois à partir du 20 mai
Le rapport annuel de Google indique que Gemini réalise une interception en millisecondes, bloquant 99% des publicités frauduleuses