xAI lanza la beta de Voice Agent Builder, la prueba de referencia de Grok Voice supera a GPT.

XAI3,77%
GROK-0,90%

xAI anunció el 1 de julio el lanzamiento de la versión Beta de Voice Agent Builder, una plataforma de creación de agentes de voz AI completamente sin código que permite a los usuarios construir un agente de voz de nivel empresarial en 2 minutos a través de indicaciones de lenguaje natural; la plataforma utiliza una única ruta de voz Speech-to-Speech de extremo a extremo estrechamente acoplada con Grok Voice, superando a GPT en pruebas de referencia.

Prueba de referencia τ-voice Bench: Grok Voice Think Fast 1.0 supera a GPT

xAI AI語音代理建置平台 (Fuente: sitio web de xAI)

Según el anuncio oficial de xAI, Grok Voice Think Fast 1.0 ocupa el primer lugar en la clasificación de pruebas de referencia de voz τ-voice Bench, superando directamente a Google Gemini 3.1 Flash Live y OpenAI GPT Realtime 1.5 en los dos indicadores de velocidad de respuesta y capacidad de razonamiento.

xAI explica que Grok Voice está entrenado con escenarios de llamadas reales y diseñados como "los más difíciles", que incluyen ruido telefónico de baja calidad, acentos fuertes, interrupciones del usuario y comandos ambiguos, y soporta de forma nativa más de 25 idiomas.

Arquitectura Speech-to-Speech de extremo a extremo: una única ruta de voz reemplaza la arquitectura ensamblada tradicional STT+LLM+TTS

xAI explica oficialmente que el servicio de atención al cliente de voz AI empresarial tradicional debe conectar tres sistemas independientes: conversión de voz a texto (STT), modelo de lenguaje grande (LLM) y conversión de texto a voz (TTS). Esta arquitectura ensamblada aumenta la latencia de múltiples puntos de salto, y también aumenta la tasa de error y los costos operativos.

Voice Agent Builder adopta una única ruta de voz Speech-to-Speech de extremo a extremo estrechamente acoplada con Grok Voice, sin cambiar de segmento en todo el proceso de procesamiento de voz, con el objetivo de reducir la latencia y disminuir los errores de conexión en serie.

Base de conocimientos, integración de herramientas, clonación de voz y acceso telefónico: cuatro módulos de funciones principales

Según la descripción oficial de funciones de xAI, las especificaciones de los cuatro módulos de funciones principales de Voice Agent Builder son las siguientes:

Base de conocimientos (Knowledge Base): admite la carga de formatos como Word, Excel, PDF, JSON, etc., y se puede organizar en Colecciones compartidas entre agentes, asegurando la coherencia de las especificaciones del producto y las políticas.

Herramientas y conectores (Tools & Connectors): incluye calendarios de Google/Outlook, búsqueda web, búsqueda en X (Twitter) y Notion; soporta transferencia a atención humana, finalización de llamadas y notificaciones en equipo en tiempo real.

Voz y telefonía (Voice & Telephony): ofrece más de 80 voces integradas; admite clonación de voz de marca con solo 2 minutos de audio; se puede obtener un número de teléfono gratuito proporcionado por xAI, o conectar el sistema PBX existente a través de SIP.

Precios transparentes (Pricing): la tarifa de API de computación es de 0,05 USD por minuto, sin cargo adicional de plataforma; al usar el número de teléfono proporcionado por xAI, se cobra una tarifa de comunicación adicional de 0,01 USD por minuto.

Mecanismos de seguridad empresarial: transcripción automática de grabaciones, registro de uso de herramientas y configuración de límites de conversación

Según el anuncio oficial de xAI, Voice Agent Builder incorpora mecanismos de monitoreo (Observability) y barreras de seguridad (Guardrails) para usuarios empresariales: cada llamada se graba automáticamente y se genera una transcripción palabra por palabra; los administradores pueden ver en cualquier momento el registro de las herramientas utilizadas por la IA durante la llamada; y se pueden establecer límites estrictos de conversación, como prohibir que la IA lea los números de tarjetas de crédito de los clientes, o prohibir discutir temas políticos fuera de tema con los usuarios.

xAI declaró en el anuncio oficial: "Juzgar con los oídos es más preciso que mirar las pruebas de referencia: construye un agente, llama con tu flujo de trabajo más difícil y pruébalo."

Preguntas frecuentes

¿Cuál es la tarifa de computación de xAI Voice Agent Builder?

Según el anuncio oficial de xAI, la tarifa de API de computación es de 0,05 USD por minuto, sin cargo adicional de plataforma; si se utiliza el número de teléfono gratuito proporcionado por xAI, se cobra una tarifa de comunicación adicional de 0,01 USD por minuto.

¿Cómo se desempeña Grok Voice Think Fast 1.0 en τ-voice Bench?

Según el anuncio oficial de xAI, Grok Voice Think Fast 1.0 superó a Google Gemini 3.1 Flash Live y OpenAI GPT Realtime 1.5 en la prueba de referencia τ-voice Bench, ocupando el primer lugar en la clasificación en los dos indicadores de velocidad de respuesta y capacidad de razonamiento.

¿Dónde se puede probar actualmente xAI Voice Agent Builder?

Según el anuncio oficial de xAI, la versión Beta de Voice Agent Builder ya está disponible en xAI Console para su prueba.

Aviso legal: La información en esta página puede provenir de fuentes de terceros y es solo para referencia. No representa las opiniones ni puntos de vista de Gate y no constituye asesoramiento financiero, de inversión ni legal. El comercio de activos virtuales implica un alto riesgo. No te bases únicamente en la información presentada en esta página para tomar decisiones. Para más detalles, consulta el Aviso legal.
Comentar
0/400
Sin comentarios