Керівник із взаємодії з розробниками Google AI Logan Kilpatrick 15 квітня оголосив про запуск Gemini 3.1 Flash TTS — найновішої моделі перетворення тексту на мовлення від Google. Ця модель підтримує 70 мов, точне керування рівнями сценарного спрямування (scene direction), рівнями мовців та аудіомітками; наразі її доступно для використання в аудіо-плейграунді Google AI Studio і в Gemini API.
Чотири основні функції
Gemini 3.1 Flash TTS порівняно з попередником має чотири помітні оновлення:
Сценарне спрямування (Scene Direction) — можна налаштовувати контекст для голосу, наприклад «пошепки говорити в галасливому кафе» або «з ентузіазмом оголосити добрі новини»; модель відповідно до сцени змінює інтонацію, темп і емоцію
Керування на рівні мовця (Speaker-Level Specificity) — у діалогах із кількома персонажами можна для кожного з них задати відмінні голосові характеристики
Аудіомітки (Audio Tags) — підтримує вставлення в текст інструкцій зі звуковими ефектами, керуючи такими деталями, як паузи та зміни манери подачі
Підтримка 70 мов — значно розширює покриття багатомовності, включно з китайською
Природніший і більш виразний звук
Google наголошує на прогресі цієї моделі в природності мовлення. Традиційні моделі TTS часто критикують за те, що їхній результат «звучить як AI». Gemini 1.1 Flash TTS намагається скоротити розрив із людською мовою завдяки більш багатим варіаціям мелодики та емоційного вираження. Kilpatrick зазначив, що прогрес від Gemini 2.5 до 3.1 «дуже помітний».
Як розробникам користуватися
Розробники можуть використовувати двома способами:
Google AI Studio Audio Playground — напряму тестуйте та попередньо переглядайте ефекти мовлення в вебінтерфейсі
Gemini API — інтегруйте в застосунки для таких сценаріїв, як голосові асистенти, аудіокниги, автоматичне створення Podcast, багатомовна служба підтримки тощо
Розширення продуктової лінійки Gemini
Flash TTS — це частина нещодавно розгорнутого циклу інтенсивних релізів у серії Gemini 3.1. Раніше Google вже представила Gemini Robotics ER 1.6 (роботизоване візуальне міркування), Tab Tab Tab (доповнення підказки Vibe Coding) та можливості дизайн-прев’ю. Google розширює Gemini з «чата» до всемодального AI-платформеного, що охоплює текст, мовлення, візію та роботів.
Ця стаття Google: Gemini 3.1 Flash TTS — підтримує 70 мов і сценарне спрямування, AI-голос звучить природніше — вперше з’явилася на ланцюжку новин ABMedia.
Пов'язані статті
Cloudflare: AI-агенти спричиняють нелюдський трафік, x402 пропонує рішення
IREN купує Mirantis за угодою повністю акціями $625M для розширення платформи AI Cloud
Гендиректор Anthropic: США розглядають спрощений процес випуску AI-моделей, конкуренти відстають на 1–3 місяці
Команда SGLang завершила раунд посівного фінансування $100M на оцінці $400M , лідирує Accel
OpenAI надає 8 тис. розробників підвищення ліміту швидкості Codex у 10 разів до 5 червня
Спільне підприємство OpenAI з Anthropic обговорює можливість придбання трьох компаній, що надають сервіси зі штучного інтелекту, 5 травня