Google anunció Gemini 3.5 Live Translate, un modelo de IA de voz a voz que ofrece traducción instantánea de voz a voz en más de 70 idiomas. El lanzamiento amplía la disponibilidad de la traducción en tiempo real más allá de requisitos previos para teléfonos o auriculares específicos de Google, ofreciendo una latencia menor que las implementaciones anteriores. Google lleva años impulsando la traducción en tiempo real como uno de sus experimentos pioneros de aprendizaje automático; antes, ya había lanzado una traducción en tiempo real limitada en la app Translate el año pasado, antes de la implementación más amplia de hoy.
Gemini 3.5 Live Translate Especificaciones Técnicas y Familia de Modelos
Gemini 3.5 Live Translate forma parte de la familia de la versión 3.5 que se lanzó en I/O. Antes de hoy, Google solo había lanzado la versión Flash, y se esperaba que un modelo Pro se lanzara en las próximas semanas. El modelo de voz a voz está ajustado para detectar y traducir automáticamente en más de 70 idiomas.
Según Google, Gemini 3.5 Live Translate es lo bastante rápido como para seguir una conversación normal, quedándose solo unos segundos detrás del hablante y, al mismo tiempo, igualando la entonación, el ritmo y el tono. El modelo produce una salida de voz que suena más como el hablante original que como un robot genérico. Google lanzó demos grabadas en condiciones controladas que muestran estas capacidades.
Despliegue en el Ecosistema de Google y Acceso de los Usuarios
Gemini 3.5 Live Translate se está implementando en varias partes del ecosistema de Google. El modelo está disponible en Google Meet para traducción del habla durante videollamadas. Los usuarios pueden acceder a las capacidades de traducción sin esperar periodos prolongados de verificación.
Acceso a API para Desarrolladores y Funciones de Procesamiento Automático
Los desarrolladores pueden empezar a construir con una vista previa pública en la Gemini Live API o AI Studio. El modelo procesa el habla de forma continua y gestiona automáticamente todas las entradas multilingües, ahorrando a los desarrolladores la configuración manual de ajustes. También filtra el ruido de fondo en entornos concurridos.
Preguntas frecuentes
¿Qué idiomas admite Gemini 3.5 Live Translate?
Gemini 3.5 Live Translate admite más de 70 idiomas con detección y capacidades de traducción automáticas.
¿Dónde pueden los usuarios acceder a Gemini 3.5 Live Translate?
El modelo se está implementando en varias partes del ecosistema de Google, incluyendo Google Meet para traducción del habla, y los desarrolladores pueden acceder a él mediante la Gemini Live API o la vista previa pública de AI Studio.
¿Cómo maneja Gemini 3.5 Live Translate el procesamiento del habla?
El modelo procesa el habla de forma continua, gestiona automáticamente entradas multilingües sin configuración manual y filtra el ruido de fondo en entornos concurridos, al tiempo que iguala la entonación, el ritmo y el tono del hablante.