Керівник із взаємодії з розробниками Google AI Logan Kilpatrick 15 квітня оголосив про запуск Gemini 3.1 Flash TTS — найновішої моделі перетворення тексту на мовлення від Google. Ця модель підтримує 70 мов, точне керування рівнями сценарного спрямування (scene direction), рівнями мовців та аудіомітками; наразі її доступно для використання в аудіо-плейграунді Google AI Studio і в Gemini API.

Чотири основні функції

Gemini 3.1 Flash TTS порівняно з попередником має чотири помітні оновлення:

Сценарне спрямування (Scene Direction) — можна налаштовувати контекст для голосу, наприклад «пошепки говорити в галасливому кафе» або «з ентузіазмом оголосити добрі новини»; модель відповідно до сцени змінює інтонацію, темп і емоцію

Керування на рівні мовця (Speaker-Level Specificity) — у діалогах із кількома персонажами можна для кожного з них задати відмінні голосові характеристики

Аудіомітки (Audio Tags) — підтримує вставлення в текст інструкцій зі звуковими ефектами, керуючи такими деталями, як паузи та зміни манери подачі

Підтримка 70 мов — значно розширює покриття багатомовності, включно з китайською

Природніший і більш виразний звук

Google наголошує на прогресі цієї моделі в природності мовлення. Традиційні моделі TTS часто критикують за те, що їхній результат «звучить як AI». Gemini 1.1 Flash TTS намагається скоротити розрив із людською мовою завдяки більш багатим варіаціям мелодики та емоційного вираження. Kilpatrick зазначив, що прогрес від Gemini 2.5 до 3.1 «дуже помітний».

Як розробникам користуватися

Розробники можуть використовувати двома способами:

Google AI Studio Audio Playground — напряму тестуйте та попередньо переглядайте ефекти мовлення в вебінтерфейсі

Gemini API — інтегруйте в застосунки для таких сценаріїв, як голосові асистенти, аудіокниги, автоматичне створення Podcast, багатомовна служба підтримки тощо

Розширення продуктової лінійки Gemini

Flash TTS — це частина нещодавно розгорнутого циклу інтенсивних релізів у серії Gemini 3.1. Раніше Google вже представила Gemini Robotics ER 1.6 (роботизоване візуальне міркування), Tab Tab Tab (доповнення підказки Vibe Coding) та можливості дизайн-прев’ю. Google розширює Gemini з «чата» до всемодального AI-платформеного, що охоплює текст, мовлення, візію та роботів.

Ця стаття Google: Gemini 3.1 Flash TTS — підтримує 70 мов і сценарне спрямування, AI-голос звучить природніше — вперше з’явилася на ланцюжку новин ABMedia.

Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.

Пов'язані статті

Cloudflare: AI-агенти спричиняють нелюдський трафік, x402 пропонує рішення

AI Agent Новини індустрії ШІ

Головний директор зі стратегії Cloudflare заявив, що нині понад половину трафіку в інтернеті становить не-людський трафік, підкресливши суттєву зміну моделей використання вебу, спричинену AI-агентами та автоматизованими системами. Керівник припустив, що x402 Foundation будує інфраструктуру для вирішення проблем

CryptoFrontier46хв. тому

IREN купує Mirantis за угодою повністю акціями $625M для розширення платформи AI Cloud

Новини індустрії ШІ

За даними BlockBeats, IREN Limited погодилася придбати компанію з хмарного інфраструктурного програмного забезпечення Mirantis приблизно за 625 мільйонів доларів у межах угоди з усіма акціями 5 травня. Придбання має на меті посилити AI-хмарні можливості IREN, упровадивши програмні та оркестраційні можливості для

GateNews6год тому

Гендиректор Anthropic: США розглядають спрощений процес випуску AI-моделей, конкуренти відстають на 1–3 місяці

Новини індустрії ШІ

За 金十, генеральний директор Anthropic повідомив 5 травня, що уряд США, схоже, розглядає спрощення процесу випуску моделей штучного інтелекту. Керівник зазначив, що можливості інших провідних AI-лабораторій можуть відставати від Anthropic на один–три

GateNews6год тому

Команда SGLang завершила раунд посівного фінансування $100M на оцінці $400M , лідирує Accel

Новини індустрії ШІ

За інформацією Beating, команда, що стоїть за open-source інференс-движком SGLang, офіційно заснувала RadixArk і завершила раунд seed на $100 мільйонів за оцінки в $400 мільйонів після інвестування. Accel очолила раунд, а Spark Capital виступила співлід-інвестором. Конкуренти в напівпровідниках Nvidia (через

GateNews7год тому

OpenAI надає 8 тис. розробників підвищення ліміту швидкості Codex у 10 разів до 5 червня

Новини індустрії ШІ

За даними Beating, OpenAI надіслала електронні листи понад 8 тис. розробникам, які зареєструвалися на офлайн-подію GPT-5.5 у Сан-Франциско, надаючи їм збільшення лімітів Codex у 10 разів, чинне негайно до 5 червня. Усі заявники отримують винагороду незалежно від того, чи отримали вони запрошення на подію

GateNews7год тому

Спільне підприємство OpenAI з Anthropic обговорює можливість придбання трьох компаній, що надають сервіси зі штучного інтелекту, 5 травня

Новини індустрії ШІ

Згідно з Jin 10, спільне підприємство OpenAI з Anthropic веде переговори про придбання трьох компаній, що надають послуги зі штучного інтелекту, 5 травня. За повідомленнями, цільові компанії включають інжинірингово-орієнтовані фірми в сегменті AI-послуг

GateNews7год тому

Прокоментувати

0/400

Немає коментарів