xAI lance Voice Agent Builder Beta, le benchmark Grok Voice surpasse GPT

XAI3,65%
GROK3,42%

xAI a annoncé le 1er juillet le lancement de la version bêta de Voice Agent Builder, une plateforme de création d'agents vocaux IA entièrement sans code, permettant aux utilisateurs de créer un agent vocal de niveau entreprise en 2 minutes à l'aide d'invites en langage naturel ; la plateforme utilise un chemin vocal unique de bout en bout Speech-to-Speech étroitement couplé à Grok Voice, surpassant GPT dans les benchmarks.

Benchmark τ-voice Bench : Grok Voice Think Fast 1.0 surpasse GPT

xAI AI語音代理建置平台 (Source : site web de xAI)

Selon les données officielles de xAI, Grok Voice Think Fast 1.0 occupe la première place du classement du benchmark vocal τ-voice Bench, surpassant directement Google Gemini 3.1 Flash Live et OpenAI GPT Realtime 1.5 en termes de vitesse de réaction et de capacité de raisonnement.

xAI explique que Grok Voice est entraîné avec des scénarios d'appels réels et conçus comme étant les « plus difficiles », incluant le bruit téléphonique de mauvaise qualité, les accents forts, les interruptions de l'utilisateur et les instructions floues, et prend en charge nativement plus de 25 langues.

Architecture Speech-to-Speech de bout en bout : un chemin vocal unique remplace l'architecture traditionnelle STT+LLM+TTS

xAI explique officiellement que les services vocaux IA d'entreprise traditionnels doivent connecter trois systèmes indépendants : la reconnaissance vocale (STT), un grand modèle de langage (LLM) et la synthèse vocale (TTS). Cette architecture en kit augmente la latence multi-sauts, ainsi que le taux d'erreur et les coûts d'exploitation.

Voice Agent Builder utilise un chemin vocal unique de bout en bout Speech-to-Speech étroitement couplé à Grok Voice, sans segmentation ni basculement dans tout le processus de traitement vocal, visant à réduire la latence et les erreurs de connexion.

Base de connaissances, connecteurs d'outils, clonage vocal et accès téléphonique : quatre modules fonctionnels principaux

Selon la description officielle de xAI, les spécifications des quatre modules fonctionnels principaux de Voice Agent Builder sont les suivantes :

Base de connaissances (Knowledge Base) : prend en charge le téléchargement de formats Word, Excel, PDF, JSON, etc., pouvant être organisés en Collections partagées entre agents, garantissant la cohérence des spécifications produit et des politiques.

Outils et connecteurs (Tools & Connectors) : intègre les calendriers Google/Outlook, la recherche Web, la recherche X (Twitter) et Notion ; prend en charge le transfert à un agent humain, la fin d'appel et les notifications d'équipe en temps réel.

Voix et téléphonie (Voice & Telephony) : propose plus de 80 voix intégrées ; prend en charge le clonage vocal de marque avec seulement 2 minutes d'audio ; peut obtenir gratuitement un numéro de téléphone fourni par xAI, ou connecter un système téléphonique existant via SIP.

Tarification transparente (Pricing) : frais d'API de calcul à 0,05 USD par minute, sans frais de plateforme supplémentaires ; lors de l'utilisation d'un numéro de téléphone fourni par xAI, des frais de communication supplémentaires de 0,01 USD par minute sont facturés.

Mécanismes de sécurité d'entreprise : enregistrement automatique avec transcription, historique d'utilisation des outils et paramètres de limites de dialogue

Selon l'annonce officielle de xAI, Voice Agent Builder intègre des mécanismes de surveillance (Observability) et des garde-fous de sécurité (Guardrails) pour les utilisateurs professionnels : chaque appel est automatiquement enregistré et une transcription est générée ; les administrateurs peuvent consulter à tout moment l'historique des outils utilisés par l'IA pendant l'appel ; et des limites de dialogue strictes peuvent être définies, par exemple interdire à l'IA de lire les numéros de carte de crédit des clients ou d'aborder des sujets politiques hors sujet avec l'utilisateur.

xAI a déclaré dans l'annonce officielle : « Juger avec ses oreilles est plus précis que de regarder les benchmarks — créez un agent, appelez-le avec votre workflow le plus difficile et essayez-le. »

Foire aux questions

Quels sont les frais de calcul du xAI Voice Agent Builder ?

Selon l'annonce officielle de xAI, les frais d'API de calcul sont de 0,05 USD par minute, sans frais de plateforme supplémentaires ; si vous utilisez le numéro de téléphone fourni gratuitement par xAI, des frais de communication supplémentaires de 0,01 USD par minute sont facturés.

Quelle est la performance de Grok Voice Think Fast 1.0 sur τ-voice Bench ?

Selon les données officielles de xAI, Grok Voice Think Fast 1.0 surpasse Google Gemini 3.1 Flash Live et OpenAI GPT Realtime 1.5 dans le benchmark τ-voice Bench, se classant premier en termes de vitesse de réaction et de capacité de raisonnement.

Où puis-je essayer actuellement le xAI Voice Agent Builder ?

Selon l'annonce officielle de xAI, la version bêta de Voice Agent Builder est désormais disponible sur la console xAI, ouverte à l'essai.

Avertissement : Les informations figurant sur cette page peuvent provenir de sources tierces et sont fournies à titre indicatif uniquement. Elles ne reflètent pas les points de vue ou opinions de Gate et ne constituent pas un conseil financier, d’investissement ou juridique. Le trading des actifs virtuels comporte des risques élevés. Veuillez ne pas vous fonder uniquement sur les informations de cette page pour prendre vos décisions. Pour en savoir plus, consultez l’avertissement.
Commentaire
0/400
Aucun commentaire