Google lance Gemini 3.1 Flash TTS : prend en charge 70 langues et un réalisateur de scénarios pour divers contextes, une voix IA plus naturelle

Le responsable des relations développeurs chez Google, Logan Kilpatrick, a annoncé le 15 avril le lancement de Gemini 3.1 Flash TTS — le dernier modèle de conversion texte-voix de Google. Ce modèle prend en charge 70 langues, un contrôle fin de type “scene direction” (direction de scène), des niveaux de locuteur et des balises audio ; il est déjà disponible via l’audio playground de Google AI Studio ainsi que dans l’API Gemini.

Quatre fonctions principales

Gemini 3.1 Flash TTS, par rapport à son prédécesseur, propose quatre améliorations notables :

Direction de scène (Scene Direction) — Permet de définir un contexte pour la voix, par exemple « chuchoter dans un café bruyant » ou « annoncer une bonne nouvelle avec enthousiasme », le modèle ajustant alors le ton, le débit et l’émotion en fonction de la scène

Contrôle au niveau du locuteur (Speaker-Level Specificity) — Dans des dialogues multi-intervenants, il est possible de définir des caractéristiques vocales différentes pour chaque rôle

Balises audio (Audio Tags) — Prend en charge l’insertion d’instructions d’effets sonores dans le texte, pour contrôler des détails tels que les pauses et les variations d’intonation

Prise en charge de 70 langues — Étend considérablement la couverture multilingue, y compris le chinois

Un son plus naturel et plus expressif

Google souligne des progrès de cette version du modèle en matière de naturalité vocale. Les modèles TTS traditionnels ont souvent été critiqués pour produire une sortie « qui sonne comme de l’IA ». Gemini 3.1 Flash TTS tente de réduire l’écart avec la voix humaine grâce à des variations prosodiques plus riches et à l’expression des émotions. Kilpatrick indique que les avancées de Gemini 2.5 à 3.1 sont « très significatives ».

Comment les développeurs peuvent l’utiliser

Les développeurs peuvent l’utiliser de deux façons :

Google AI Studio Audio Playground — Tester et prévisualiser directement les effets vocaux dans l’interface web

API Gemini — L’intégrer dans des applications pour des scénarios tels que des assistants vocaux, des livres audio, la génération automatique de podcasts, un service client multilingue, etc.

La gamme de produits Gemini continue de s’étendre

Flash TTS fait partie des publications récentes et intensives de la série Gemini 3.1. Auparavant, Google avait déjà lancé Gemini Robotics ER 1.6 (raisonnement visuel pour robots), Tab Tab Tab (complétion de prompt Vibe Coding) et des fonctionnalités de prévisualisation de conception. Google est en train d’étendre Gemini, passant d’un « modèle de conversation » à une plateforme d’IA multimodale couvrant le texte, la voix, la vision et la robotique.

Cet article Google lance Gemini 3.1 Flash TTS : prise en charge de 70 langues et de la direction de scène, une voix IA plus naturelle est apparu pour la première fois sur Chaîne News ABMedia.

Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.

Articles similaires

Sierra lève 950 millions de dollars, valorisée à 15,8 milliards : Bret Taylor, en tant que président d'OpenAI, prend les commandes du leader du service client basé sur l'IA

Sierra, cofondée par Bret Taylor, annonce avoir bouclé un tour Series E de 950 millions de dollars, avec une valorisation de 15,8 milliards de dollars, mené par Tiger Global et GV. En 8 saisons, la société a atteint 150 millions de dollars de ARR et un taux de pénétration Fortune 50 supérieur à 40 %. Positionnée comme une plateforme de service client B2B verticale centrée sur les agents IA, elle propose des flux de travail prêts à l’emploi. Taylor est également président du conseil d’administration d’OpenAI, et la gouvernance ainsi que la divulgation des intérêts sont au cœur des discussions.

ChainNewsAbmediaIl y a 28m

OpenAI remodèle le WebRTC pour l’empilement vocal : 900M d’utilisateurs actifs hebdomadaires, un relais au cœur développé en Go

OpenAI publie une architecture de relay ultra-fin écrite en Go et un transceiver centralisé, en restructurant la couche multimédia de WebRTC pour prendre en charge les services vocaux destinés à 900 millions d’utilisateurs actifs chaque semaine. Les connexions très sollicitées sont concentrées dans le transceiver, tandis que le relay sert de plan de données sans état, résolvant des goulots d’étranglement tels qu’un session par port, les propriétaires ICE/DTLS et une faible latence au premier saut, tout en facilitant l’expansion horizontale. La suite devra préciser notamment s’il s’agit de code open source, l’ampleur de l’API Realtime et la tarification, ainsi que la réaction des concurrents.

ChainNewsAbmediaIl y a 30m

Gemini API lance des Webhooks : Google résout la douleur du polling des tâches longues, avec une diffusion instantanée via Batch / Veo

L’API Google Gemini a lancé les Webhooks le 4 mai : pour les tâches longues terminées, elle envoie automatiquement le résultat vers l’URL de callback, remplaçant le polling. Cela réduit la consommation de ressources et la latence, tout en simplifiant le code. Les Webhooks s’appliquent à l’API Batch, à Veo2 et à l’inférence avec des contexts longs, et sont particulièrement adaptés aux architectures serverless. Par rapport à OpenAI qui privilégie le SSE et à Anthropic qui continue d’utiliser le polling, Google met en avant des fondations d’infrastructure pour les développeurs. À l’avenir, l’attention se portera sur les mécanismes de sécurité et l’extensibilité des modèles. Pour les développeurs à Taïwan, une intégration immédiate peut réduire de manière significative les limites d’utilisation (quota) et la charge du système.

ChainNewsAbmediaIl y a 32m

Krutrim passe aux services cloud d’IA le 5 mai, publie ses premiers bénéfices alors que le chiffre d’affaires de l’exercice 26 atteint 31,6 millions de dollars

Selon Press Trust of India, la société indienne d’IA Krutrim s’est repositionnée en tant que fournisseur de services de cloud d’IA domestique le 5 mai, en mettant en pause ses efforts de conception de puces et en redirigeant ses capitaux et ses talents vers l’infrastructure cloud. La société a annoncé un chiffre d’affaires pour l’exercice FY26 d’environ 3 milliards de roupies (31,6 millions de dollars US)

GateNewsIl y a 1h

Haun Ventures clôture un fonds de 1 milliard de dollars le 5 mai, ciblant les startups de la crypto et de l’IA

Selon Cointelegraph, Haun Ventures a finalisé une levée de fonds de 1 milliard de dollars pour un nouveau fonds le 5 mai, avec un capital qui sera réparti à parts égales entre les investissements en phase précoce et en phase tardive. Le fonds se concentrera sur des startups dans la crypto, l’intelligence artificielle et les alternatives

GateNewsIl y a 2h

Les investissements d’Anthropic et d’OpenAI dépassent 1,1 milliard de dollars dans le trading crypto de détail depuis le début 2026

Selon Bloomberg, les investisseurs particuliers ont versé environ 1,13 milliard de dollars dans le trading à effet de levier via des dérivés de sociétés privées d’IA depuis le début de 2026. Les plateformes crypto Ventuals et PreStocks permettent un trading 24 heures sur 24 sur des sociétés telles qu’Anthropic, OpenAI et SpaceX, sans accorder d’e

GateNewsIl y a 2h
Commentaire
0/400
Aucun commentaire