xAI a lancé le 2 mai sur son blog officiel la fonctionnalité Grok Custom Voices. Les utilisateurs n’ont qu’à enregistrer environ 1 minute de voix naturelle dans la console xAI ; le système traite le tout en moins de 2 minutes et produit un modèle vocal sur mesure utilisable pour l’API TTS et l’API Voice Agent. Le lancement s’accompagne également du modèle Grok 4.3, ainsi que de l’interface Voice Library qui regroupe l’ensemble des ressources vocales. Custom Voices intègre en outre un mécanisme d’authentification d’identité en deux étapes, conçu pour empêcher le clonage de la voix d’autrui.
Fonctionnalité : 1 minute d’enregistrement, 2 minutes de génération, intégration TTS et Voice Agent API
Les utilisateurs enregistrent environ 1 minute de voix naturelle dans la console xAI, puis le traitement côté serveur s’enchaîne comme suit : (1) authentification, (2) traitement audio, (3) génération du modèle. En tout, en moins de 2 minutes, il est possible d’obtenir un modèle vocal exploitable. Custom Voices reprend toutes les capacités de TTS, y compris les speech tags (étiquettes vocales), la sortie multilingue, ainsi que le streaming via REST et WebSocket ; il peut être directement combiné avec les points de terminaison TTS de xAI ou l’API Voice Agent pour dialoguer en temps réel avec des agents.
La Voice Library lancée en parallèle est une interface de la console xAI permettant de gérer de manière unifiée les ressources vocales : elle est consultable, permet un aperçu et la gestion des voix créées par les utilisateurs comme des voix préconstruites, évitant d’avoir à se disperser sur plusieurs interfaces. La bibliothèque de voix préconstruites propose plus de 80 voix et prend en charge 28 langues.
Authentification d’identité en deux étapes : empêcher le clonage de la voix d’autrui
Avant la génération vocale, Custom Voices met en place deux barrières d’authentification : d’abord, l’utilisateur lit à voix haute une phrase de vérification et le système transcrit immédiatement la séquence audio ; ensuite, à partir de la phrase de vérification et de l’enregistrement complet, le système calcule séparément les speaker embedding (vecteurs de caractéristiques du locuteur) et compare s’il s’agit de la même personne. Ce n’est qu’après le passage des deux étapes que l’on entre dans le processus de génération du modèle vocal.
xAI affirme clairement : les utilisateurs ne peuvent pas cloner une voix à partir de fichiers d’enregistrement existants, ni cloner la voix d’une autre personne. Cette conception écarte le scénario consistant à « copier directement » des enregistrements d’exposés publics d’autrui, et limite le clonage à un unique point d’entrée : « un enregistrement en temps réel par l’utilisateur lui-même ». Pour les observateurs attentifs aux dérives de la génération de voix par l’IA (par exemple les arnaques téléphoniques, le doublage non autorisé), ce mécanisme constitue une réponse concrète de xAI aux enjeux de prévention de la contrefaçon.
Observations à venir : rythme d’expansion de la Voice Library en même temps que Grok 4.3
Custom Voices et le modèle Grok 4.3 sont lancés le même jour ; xAI associe « mise à niveau du modèle + extension complète des outils vocaux » à la même vague d’annonce. Le prochain point d’observation est le rythme d’expansion de la bibliothèque de voix préconstruites de Voice Library, passant de 80 voix vers davantage, ainsi que la capacité à couvrir encore plus de petites langues, comme le chinois traditionnel ; autre point d’observation : les cas d’adoption concrets de l’API Voice Agent publiés au détail, notamment des exemples d’intégration pour l’automatisation du service client, la production de podcasts, ou encore le support client multilingue.
Cet article xAI Grok lance Custom Voices : clonage en 2 minutes, authentification d’identité en deux étapes apparaît pour la première fois sur 鏈新聞 ABMedia.
Articles similaires
La Solana Foundation et Google Cloud lancent Pay.sh, une passerelle de paiement par IA prenant en charge plus de 50 fournisseurs d’API
WorldClaw et WLFI lancent WorldRouter, offrant un accès à plus de 300 modèles d’IA à un coût inférieur de 30 %
Epic Angels soutient Enaxiom lors d'un tour de table de démarrage de 1,8 million de dollars pour une technologie de refroidissement de centres de données d'IA
Cipher Digital publie une perte de 114 millions de dollars au T1, alors que le mineur de Bitcoin accélère sa transition vers des centres de données IA
Oobit lance des cartes Visa USDT pilotées par l’IA pour les entreprises le 5 mai
Yield.xyz et Privy lancent une infrastructure d’agents de rendement IA prenant en charge plus de 80 blockchains le 5 mai