Google lance Gemini 3.1 Flash TTS avec une expression émotionnelle améliorée et des capacités multi-intervenants

Message de Gate News, 17 avril — Google a dévoilé Gemini 3.1 Flash TTS, un modèle avancé de synthèse vocale doté de fonctionnalités d’expression émotionnelle et de contrôle améliorées, le 15 avril. Le nouveau modèle sera déployé progressivement via des API développeur, Vertex AI à destination des entreprises, et des outils de collaboration.

Les capacités clés du modèle incluent des balises audio basées sur le langage naturel pour affiner la vitesse, l’intonation et l’émotion, ainsi qu’un « Director Mode » permettant de spécifier des scènes et les rôles des personnages afin de générer des sorties vocales plus nuancées. Une fonctionnalité multi-intervenants permet de générer un dialogue simultanément, offrant des flux de conversation plus naturels adaptés aux podcasts, aux contenus audio et aux assistants IA. Le modèle prend en charge plus de 70 langues et dialectes, reflétant les accents et les expressions régionales pour des expériences vocales localisées à l’échelle mondiale.

Google a mis l’accent sur les performances et l’efficacité des coûts, obtenant de hauts scores sur des références d’évaluation humaine à l’aveugle tout en réduisant les coûts de calcul grâce à son architecture Flash — conçue pour une adoption à grande échelle en entreprise. L’audio généré inclut le marquage filigrane SynthID pour identifier les contenus générés par IA et lutter contre la désinformation.

Ce mouvement reflète une concurrence de plus en plus forte dans les interfaces vocales. OpenAI combine des fonctionnalités vocales en temps réel avec une IA conversationnelle pour des interactions plus proches de l’humain, tandis que Meta élargit ses investissements dans des personnages IA avec des expériences sociales basées sur la voix. Des observateurs du secteur notent que, bien que le jeu d’acteur et le travail créatif de haut niveau puissent encore rester pilotés par des humains pour le moment, les marchés de production répétitifs et à grande échelle pourraient voir une adoption progressive de l’IA dans le doublage, la publicité et les secteurs des livres audio.

Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.

Articles similaires

Cerebras vise $4 billion dans une introduction en bourse avec une valorisation cible de 40 milliards de dollars

D’après Bloomberg, le fabricant de puces d’IA Cerebras Systems cherche à lever jusqu’à $4 milliards dans le cadre de son introduction en bourse, avec une valorisation cible d’environ 40 milliards de dollars. La société basée en Californie prévoit de lancer sa tournée de présentation de l’IPO dès lundi (5 mai). Les preneurs fermes ont

GateNewsIl y a 50m

Le conseil de l’Academy interdit les contenus générés par IA aux 99e Oscars, imposant des victoires réservées aux humains uniquement

L’Academy of Motion Picture Arts and Sciences a établi de nouvelles réglementations strictes pour la 99e cérémonie des Oscars, interdisant officiellement les contenus générés par IA dans les catégories les plus prestigieuses afin de protéger la créativité humaine. Points clés : Le conseil de l’Académie interdit l’IA pour les 99es Oscars, exigeant une attribution réservée aux humains pour la partie jeu d’acteur an

CoinpediaIl y a 1h

NVentures de Nvidia investit $50M dans l’extension de la Série D de la plateforme d’IA juridique de Legora

D’après ChainCatcher, la branche de capital-risque d’Nvidia, NVentures, a participé à la levée de fonds de 50 millions de dollars de la série D en extension de Legora, marquant son premier investissement dans l’IA juridique. La startup suédoise de legal tech, qui fait concurrence à Harvey, a vu son revenu récurrent annuel (ARR) dépasser 100 millions de dollars,

GateNewsIl y a 1h

Le directeur financier d’OpenAI suggère de retarder l’introduction en bourse jusqu’en 2027 dans un contexte de ralentissement de la croissance, le PDG privilégiant le T4 2026

D’après Odaily, la directrice financière d’OpenAI, Sarah Friar, a en privé recommandé de reporter l’introduction en bourse de l’entreprise à 2027, en invoquant l’incapacité à respecter les normes de reporting financier des sociétés cotées, tandis que le PDG Sam Altman vise à accélérer la cotation au quatrième trimestre 2026. Les utilisateurs actifs hebdomadaires de ChatGPT ont atteint 900 millions dans

GateNewsIl y a 2h

Bakkt finalise l’acquisition de DTR dans un contexte de croissance des revenus et de refonte stratégique

Bakkt a finalisé l’acquisition de Distributed Technologies Research, une opération visant à intégrer l’infrastructure de stablecoins native de l’intelligence artificielle (IA) au cœur de ses services financiers. Moderniser le règlement mondial Bakkt Inc. a finalisé son acquisition de Distributed Technologies

CoinpediaIl y a 3h
Commentaire
0/400
Aucun commentaire