XAI Grok introduce voces personalizadas: clonación de 2 minutos, verificación de identidad en dos fases

xAI 2 de mayo presentó en su blog oficial la función Grok Custom Voices. Los usuarios solo necesitan grabar aproximadamente 1 minuto de voz natural en la consola de xAI y el sistema la procesará en 2 minutos para producir un modelo de voz personalizado que puede usarse tanto para la API de TTS como para la Voice Agent API. En la misma actualización también se lanzó el modelo Grok 4.3, junto con la interfaz Voice Library, que recopila todos los recursos de voz. Custom Voices además incorpora un mecanismo de verificación de identidad en dos etapas para evitar clonar la voz de otras personas.

Función: grabación de 1 minuto, generación de 2 minutos e integración con TTS y Voice Agent API

Los usuarios graban aproximadamente 1 minuto de voz natural en la consola de xAI; el proceso en segundo plano completa secuencialmente: (1) verificación de identidad, (2) procesamiento de voz y (3) generación del modelo. En total, en menos de 2 minutos se obtiene un modelo de voz utilizable. Custom Voices hereda todas las capacidades de TTS, incluyendo speech tags (etiquetas de voz), salida multilingüe y streaming mediante REST y WebSocket; se puede combinar directamente con los endpoints de TTS de xAI o con la Voice Agent API para mantener conversaciones en tiempo real con un agente.

La Voice Library lanzada en paralelo es una interfaz en la consola de xAI para la gestión unificada de recursos de voz: permite navegar, previsualizar y administrar toda la voz personalizada de los usuarios y la voz preconstruida, evitando la dispersión en múltiples interfaces. La biblioteca preconstruida incluye más de 80 tipos de voces y admite 28 idiomas.

Verificación de identidad en dos etapas: para evitar clonar voces ajenas

Antes de generar la voz, Custom Voices establece dos etapas de verificación: primero, el usuario lee una frase de verificación y el sistema transcribe inmediatamente ese fragmento de voz; segundo, el sistema calcula por separado el speaker embedding (vector de características del hablante) a partir de la frase de verificación y de la grabación completa, y compara si corresponden a la misma persona. Solo si se superan ambas etapas, se ingresa al flujo de generación del modelo de voz.

xAI declara de forma explícita: los usuarios no pueden clonar la voz usando archivos de audio existentes, ni tampoco clonar la voz de otras personas. Este diseño elimina el escenario de “obtener grabaciones de discursos públicos ajenos y copiarlas directamente” y acota el rango de clonación a un único punto de entrada: “grabación en tiempo real por parte del propio usuario”. Para observadores preocupados por el mal uso de la generación de voz de IA (como estafas telefónicas o doblajes sin autorización), este mecanismo es una respuesta concreta de xAI ante el tema de la falsificación.

Observación posterior: lanzamiento junto con Grok 4.3 y ampliación del ritmo de la Voice Library

Custom Voices y el modelo Grok 4.3 se lanzaron el mismo día; xAI ató “la actualización del modelo + la completa integración de herramientas de voz” en la misma ola de anuncios. El siguiente punto a observar es el ritmo con el que la Voice Library amplíe la biblioteca preconstruida más allá de 80 voces, y si el mapa de 28 idiomas puede cubrir aún más idiomas minoritarios como el chino tradicional; otro punto es que se publiquen casos concretos de adopción de la Voice Agent API, especialmente ejemplos de integración en escenarios como automatización de atención al cliente, grabación de podcasts y servicios de atención multilingüe.

Este artículo “xAI Grok lanza Custom Voices: clonación en 2 minutos y verificación de identidad en dos etapas” apareció primero en 鏈新聞 ABMedia.

Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.

Artículos relacionados

La Fundación Solana y Google Cloud lanzan Pay.sh, una pasarela de pagos con IA que admite más de 50 proveedores de API

Según Odaily, la Solana Foundation y Google Cloud han lanzado conjuntamente Pay.sh, una pasarela de pagos con IA que permite a los agentes de IA llamar a servicios de API usando stablecoins on-chain por solicitud, sin necesidad de cuentas tradicionales. Construido sobre el protocolo x402 y compatible con Tempo y

GateNewshace5h

WorldClaw y WLFI lanzan WorldRouter, ofreciendo acceso a 300+ modelos de IA a un costo 30% más bajo

Según Foresight News, el sistema operativo de agentes de IA WorldClaw se ha asociado con el proyecto cripto de la familia Trump WLFI para lanzar WorldRouter. La plataforma permite a los usuarios acceder a más de 300 modelos de IA convencionales a través de una sola cuenta, con comisiones aproximadamente un 30% más bajas que las del modelo correspondiente

GateNewshace6h

Epic Angels respalda a Enaxiom en una ronda semilla de 1,8M de USD para tecnología de enfriamiento de centros de datos de IA

Según Epic Angels, Enaxiom cerró una ronda semilla de 1,8 millones de dólares el 6 de mayo respaldada por Epic Angels, BlackNova y Antler, elevando su financiación total a 2,7 millones de dólares. La startup australiana de deep tech desarrolla HydroCool, un sistema de refrigeración para centros de datos de IA que utiliza agua no potable y

GateNewshace7h

Cipher Digital publica una pérdida de 114 millones de dólares en el 1T, mientras el minero de Bitcoin acelera el cambio hacia centros de datos de IA

Según The Block, Cipher Digital publicó una pérdida neta de 114 millones de dólares en el 1T de 2026, más del doble de la pérdida de 39 millones de dólares del 1T de 2025, mientras el minero de bitcoin acelera su transición hacia infraestructura de IA. Los ingresos por minería de bitcoin cayeron a 35 millones de dólares desde 49 millones de dólares interanual. La empresa firmó su

GateNewshace15h

Oobit lanza tarjetas Visa de USDT impulsadas por IA para empresas el 5 de mayo

Según Oobit, el 5 de mayo, la plataforma de pagos respaldada por Tether lanzó tarjetas virtuales Visa que permiten a los agentes de IA realizar transacciones de forma autónoma usando USDT. Las tarjetas permiten que los sistemas impulsados por IA ejecuten decisiones de gasto sin intervención humana directa, marcando un paso significativo

GateNewshace15h

Yield.xyz y Privy lanzan una infraestructura de agente de rendimiento con IA que admite 80+ blockchains el 5 de mayo

Según BlockBeats, el 5 de mayo, la plataforma de infraestructura de rendimiento DeFi Yield.xyz y Privy, la empresa de infraestructura de billeteras cripto de Stripe, lanzaron una infraestructura de agente de rendimiento con IA que respalda la ejecución automatizada de estrategias en 80+ blockchains y 2.900+ oportunidades de rendimiento DeFi. La solución

GateNewshace16h
Comentar
0/400
Sin comentarios