xAI 2 de mayo presentó en su blog oficial la función Grok Custom Voices. Los usuarios solo necesitan grabar aproximadamente 1 minuto de voz natural en la consola de xAI y el sistema la procesará en 2 minutos para producir un modelo de voz personalizado que puede usarse tanto para la API de TTS como para la Voice Agent API. En la misma actualización también se lanzó el modelo Grok 4.3, junto con la interfaz Voice Library, que recopila todos los recursos de voz. Custom Voices además incorpora un mecanismo de verificación de identidad en dos etapas para evitar clonar la voz de otras personas.
Función: grabación de 1 minuto, generación de 2 minutos e integración con TTS y Voice Agent API
Los usuarios graban aproximadamente 1 minuto de voz natural en la consola de xAI; el proceso en segundo plano completa secuencialmente: (1) verificación de identidad, (2) procesamiento de voz y (3) generación del modelo. En total, en menos de 2 minutos se obtiene un modelo de voz utilizable. Custom Voices hereda todas las capacidades de TTS, incluyendo speech tags (etiquetas de voz), salida multilingüe y streaming mediante REST y WebSocket; se puede combinar directamente con los endpoints de TTS de xAI o con la Voice Agent API para mantener conversaciones en tiempo real con un agente.
La Voice Library lanzada en paralelo es una interfaz en la consola de xAI para la gestión unificada de recursos de voz: permite navegar, previsualizar y administrar toda la voz personalizada de los usuarios y la voz preconstruida, evitando la dispersión en múltiples interfaces. La biblioteca preconstruida incluye más de 80 tipos de voces y admite 28 idiomas.
Verificación de identidad en dos etapas: para evitar clonar voces ajenas
Antes de generar la voz, Custom Voices establece dos etapas de verificación: primero, el usuario lee una frase de verificación y el sistema transcribe inmediatamente ese fragmento de voz; segundo, el sistema calcula por separado el speaker embedding (vector de características del hablante) a partir de la frase de verificación y de la grabación completa, y compara si corresponden a la misma persona. Solo si se superan ambas etapas, se ingresa al flujo de generación del modelo de voz.
xAI declara de forma explícita: los usuarios no pueden clonar la voz usando archivos de audio existentes, ni tampoco clonar la voz de otras personas. Este diseño elimina el escenario de “obtener grabaciones de discursos públicos ajenos y copiarlas directamente” y acota el rango de clonación a un único punto de entrada: “grabación en tiempo real por parte del propio usuario”. Para observadores preocupados por el mal uso de la generación de voz de IA (como estafas telefónicas o doblajes sin autorización), este mecanismo es una respuesta concreta de xAI ante el tema de la falsificación.
Observación posterior: lanzamiento junto con Grok 4.3 y ampliación del ritmo de la Voice Library
Custom Voices y el modelo Grok 4.3 se lanzaron el mismo día; xAI ató “la actualización del modelo + la completa integración de herramientas de voz” en la misma ola de anuncios. El siguiente punto a observar es el ritmo con el que la Voice Library amplíe la biblioteca preconstruida más allá de 80 voces, y si el mapa de 28 idiomas puede cubrir aún más idiomas minoritarios como el chino tradicional; otro punto es que se publiquen casos concretos de adopción de la Voice Agent API, especialmente ejemplos de integración en escenarios como automatización de atención al cliente, grabación de podcasts y servicios de atención multilingüe.
Este artículo “xAI Grok lanza Custom Voices: clonación en 2 minutos y verificación de identidad en dos etapas” apareció primero en 鏈新聞 ABMedia.
Artículos relacionados
La Fundación Solana y Google Cloud lanzan Pay.sh, una pasarela de pagos con IA que admite más de 50 proveedores de API
WorldClaw y WLFI lanzan WorldRouter, ofreciendo acceso a 300+ modelos de IA a un costo 30% más bajo
Epic Angels respalda a Enaxiom en una ronda semilla de 1,8M de USD para tecnología de enfriamiento de centros de datos de IA
Cipher Digital publica una pérdida de 114 millones de dólares en el 1T, mientras el minero de Bitcoin acelera el cambio hacia centros de datos de IA
Oobit lanza tarjetas Visa de USDT impulsadas por IA para empresas el 5 de mayo
Yield.xyz y Privy lanzan una infraestructura de agente de rendimiento con IA que admite 80+ blockchains el 5 de mayo