Google анонсировала Gemini 3.5 Live Translate для голосового перевода более чем на 70 языков

Google объявила Gemini 3.5 Live Translate — AI-модель для перевода «речь-в-речь» (speech-to-speech), обеспечивающую мгновенный перевод голоса в голос более чем на 70 языков. Выпуск расширяет доступность перевода в реальном времени по сравнению с прежними требованиями для отдельных телефонов или наушников Google, предлагая более низкую задержку, чем предыдущие реализации. Google занимается переводом в реальном времени уже несколько лет как одним из своих пионерских экспериментов в сфере машинного обучения: ранее компания запускала ограниченный перевод в реальном времени в приложении Translate год назад, прежде чем сегодня развернуть его шире.

Gemini 3.5 Live Translate: технические характеристики и семейство моделей

Gemini 3.5 Live Translate входит в семейство версии 3.5, которое дебютировало на I/O. До сегодняшнего дня Google выпустила только версию Flash, а модель Pro, как ожидается, выйдет в ближайшие недели. Модель «речь-в-речь» настроена на автоматическое определение и перевод более чем на 70 языков.

По словам Google, Gemini 3.5 Live Translate достаточно быстра, чтобы идти в темпе обычного разговора: перевод отстает от говорящего всего на несколько секунд, при этом сохраняя интонацию, темп и высоту голоса. Модель выдает голосовой ответ, который звучит ближе к исходному говорящему, чем к абстрактному «роботу». Google опубликовала демо, записанные в контролируемых условиях, демонстрирующие эти возможности.

Развертывание по экосистеме Google и доступ пользователей

Gemini 3.5 Live Translate развертывается в нескольких частях экосистемы Google. Модель доступна в Google Meet для речевого перевода во время видеозвонков. Пользователи могут пользоваться возможностями перевода, не дожидаясь длительных периодов дополнительной проверки.

Доступ к API для разработчиков и функции автоматической обработки

Разработчики могут начать работу, используя публичный предпросмотр в Gemini Live API или AI Studio. Модель непрерывно обрабатывает речь и автоматически работает со всеми многоязычными входными данными, избавляя разработчиков от ручной настройки параметров. Она также фильтрует фоновый шум в шумных окружениях.

FAQ

На какие языки рассчитан Gemini 3.5 Live Translate? Gemini 3.5 Live Translate поддерживает более 70 языков с автоматическим определением и функциями перевода.

Где пользователи могут получить доступ к Gemini 3.5 Live Translate? Модель развертывается в нескольких частях экосистемы Google, включая Google Meet для речевого перевода, а разработчики могут получить доступ через публичный предпросмотр Gemini Live API или AI Studio.

Как Gemini 3.5 Live Translate обрабатывает речь? Модель непрерывно обрабатывает речь, автоматически работает с многоязычными входными данными без ручной настройки и фильтрует фоновый шум в шумных окружениях, при этом сохраняя интонацию, темп и высоту голоса говорящего.

Дисклеймер: Информация на этой странице может быть получена из источников третьих сторон и предоставляется только для ознакомления. Она не отражает взгляды или мнения Gate и не является финансовой, инвестиционной или юридической рекомендацией. Торговля виртуальными активами связана с высоким риском. Пожалуйста, не основывайте свои решения исключительно на данных этой страницы. Подробнее смотрите в Дисклеймере.
комментарий
0/400
Нет комментариев