Google lance Gemini 3.1 Flash TTS : prend en charge 70 langues et un réalisateur de scénarios pour divers contextes, une voix IA plus naturelle

Le responsable des relations développeurs chez Google, Logan Kilpatrick, a annoncé le 15 avril le lancement de Gemini 3.1 Flash TTS — le dernier modèle de conversion texte-voix de Google. Ce modèle prend en charge 70 langues, un contrôle fin de type “scene direction” (direction de scène), des niveaux de locuteur et des balises audio ; il est déjà disponible via l’audio playground de Google AI Studio ainsi que dans l’API Gemini.

Quatre fonctions principales

Gemini 3.1 Flash TTS, par rapport à son prédécesseur, propose quatre améliorations notables :

Direction de scène (Scene Direction) — Permet de définir un contexte pour la voix, par exemple « chuchoter dans un café bruyant » ou « annoncer une bonne nouvelle avec enthousiasme », le modèle ajustant alors le ton, le débit et l’émotion en fonction de la scène

Contrôle au niveau du locuteur (Speaker-Level Specificity) — Dans des dialogues multi-intervenants, il est possible de définir des caractéristiques vocales différentes pour chaque rôle

Balises audio (Audio Tags) — Prend en charge l’insertion d’instructions d’effets sonores dans le texte, pour contrôler des détails tels que les pauses et les variations d’intonation

Prise en charge de 70 langues — Étend considérablement la couverture multilingue, y compris le chinois

Un son plus naturel et plus expressif

Google souligne des progrès de cette version du modèle en matière de naturalité vocale. Les modèles TTS traditionnels ont souvent été critiqués pour produire une sortie « qui sonne comme de l’IA ». Gemini 3.1 Flash TTS tente de réduire l’écart avec la voix humaine grâce à des variations prosodiques plus riches et à l’expression des émotions. Kilpatrick indique que les avancées de Gemini 2.5 à 3.1 sont « très significatives ».

Comment les développeurs peuvent l’utiliser

Les développeurs peuvent l’utiliser de deux façons :

Google AI Studio Audio Playground — Tester et prévisualiser directement les effets vocaux dans l’interface web

API Gemini — L’intégrer dans des applications pour des scénarios tels que des assistants vocaux, des livres audio, la génération automatique de podcasts, un service client multilingue, etc.

La gamme de produits Gemini continue de s’étendre

Flash TTS fait partie des publications récentes et intensives de la série Gemini 3.1. Auparavant, Google avait déjà lancé Gemini Robotics ER 1.6 (raisonnement visuel pour robots), Tab Tab Tab (complétion de prompt Vibe Coding) et des fonctionnalités de prévisualisation de conception. Google est en train d’étendre Gemini, passant d’un « modèle de conversation » à une plateforme d’IA multimodale couvrant le texte, la voix, la vision et la robotique.

Cet article Google lance Gemini 3.1 Flash TTS : prise en charge de 70 langues et de la direction de scène, une voix IA plus naturelle est apparu pour la première fois sur Chaîne News ABMedia.

Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.

Articles similaires

L’IA engloutit 80% du capital-risque mondial, Q1 2026 attire 242 milliards de dollars : comment les acteurs de la cryptographie doivent réagir à la réallocation des capitaux

Selon les informations, au premier trimestre 2026, le montant total mondial du capital-risque est proche de 300 milliards de dollars, dont environ 242 milliards de dollars sont attribués exclusivement aux entreprises liées à l’IA, soit 80 % du capital-risque. Cela montre que l’IA est devenue le principal centre d’intérêt du capital-risque. À mesure que les fonds se concentrent sur l’IA, d’autres domaines comme le crypto sont sous pression, et les acteurs doivent ajuster leur stratégie : intégrer l’IA plus en profondeur dans leurs activités, et s’attendre à l’émergence d’une tendance à la consolidation des infrastructures.

ChainNewsAbmediaIl y a 39m

La police de Hong Kong met en garde contre l’arnaque crypto « trading quantitatif par IA », une femme perd 7,7 millions de HK$

La police de Hong Kong a révélé une fraude en cryptomonnaies dans laquelle une femme a perdu 7,7 millions de HK$ au profit d’escrocs se faisant passer pour des experts en investissement via Telegram, promettant de hauts rendements grâce au trading avec IA. La police a mis le public en garde contre les risques liés aux investissements en cryptomonnaies.

GateNewsIl y a 2h

Hong Kong annoncera demain la sixième série de la liste des entreprises clés

Le secrétaire aux finances de Hong Kong, Paul Chan, a annoncé le lancement d’une nouvelle liste d’entreprises clés, attirant plus de 100 entreprises évaluées à plus de 100 milliards de HKD dans des secteurs tels que les sciences de la vie, l’IA et la fintech, soulignant l’attrait de Hong Kong pour les investissements internationaux.

GateNewsIl y a 5h

Le robot Lightning d’Honor remporte le semi-marathon de robots humanoïdes de Pékin 2026 avec un temps de 50:26

Le robot humanoïde « Lightning » d’Honor a établi un nouveau record lors du semi-marathon de robots humanoïdes de Yizhuang à Pékin 2026, en bouclant la course en 50 minutes et 26 secondes, dépassant le record du monde humain.

GateNewsIl y a 8h

L’action de Meta progresse de 1,73 % tandis que la société prévoit un plan de licenciement de 8 000 emplois à partir du 20 mai

Meta Platforms prévoit de supprimer environ 8 000 emplois, soit 10 % de ses effectifs, à partir du 20 mai, malgré la hausse du cours de son action. La société, qui affiche plus de $200 milliards de revenus, concentre ses investissements dans l’IA dans un contexte de restructuration importante, s’alignant sur la tendance de licenciements observée dans l’industrie.

GateNewsIl y a 16h

Le rapport annuel de Google indique que Gemini réalise une interception en millisecondes, bloquant 99% des publicités frauduleuses

L’article explique que Google renforce la sécurité publicitaire grâce à son système d’intelligence artificielle générative Gemini ; le rapport indique que sa vitesse de détection des publicités non conformes a été réduite à des millisecondes, avec un taux de blocage atteignant 99 %. L’année dernière, Google a supprimé 8,3 milliards d’annonces et a suspendu 24,9 millions de comptes, ce qui montre que le nombre de publicités frauduleuses a fortement augmenté. Des experts estiment que c’est un affrontement entre intelligence artificielle et intelligence artificielle ; à l’avenir, il faudra encore faire face aux défis liés aux comportements légaux et illégaux induits par l’IA.

ChainNewsAbmediaIl y a 18h
Commentaire
0/400
Aucun commentaire