Trưởng phụ trách quan hệ nhà phát triển của Google AI, Logan Kilpatrick, đã công bố việc ra mắt Gemini 3.1 Flash TTS vào ngày 15 tháng 4 — mô hình chuyển văn bản thành giọng nói (TTS) mới nhất của Google. Mô hình này hỗ trợ 70 ngôn ngữ, khả năng điều khiển tinh chi tiết theo cấp độ người nói, chỉ dẫn theo ngữ cảnh (scene direction) và thẻ âm thanh (audio tags); hiện đã được mở cho sử dụng trong trình phát triển âm thanh của Google AI Studio (audio playground) và trong Gemini API.
Bốn chức năng cốt lõi
So với phiên bản tiền nhiệm, Gemini 3.1 Flash TTS có bốn điểm nâng cấp đáng chú ý:
Chỉ dẫn theo ngữ cảnh (Scene Direction) — Có thể thiết lập bối cảnh cho giọng nói, ví dụ như “nói khẽ trong quán cà phê ồn ào” hoặc “hào hứng công bố tin vui”; mô hình sẽ điều chỉnh giọng điệu, tốc độ nói và cảm xúc dựa trên bối cảnh
Điều khiển theo cấp độ người nói (Speaker-Level Specificity) — Trong các cuộc hội thoại đa vai, có thể thiết lập các đặc trưng giọng nói khác nhau cho từng nhân vật
Thẻ âm thanh (Audio Tags) — Hỗ trợ chèn các lệnh hiệu ứng âm thanh vào văn bản, kiểm soát chi tiết như nhịp ngừng (pause) và thay đổi ngữ điệu
Hỗ trợ 70 ngôn ngữ — Mở rộng đáng kể phạm vi đa ngôn ngữ, bao gồm tiếng Trung
Giọng nói tự nhiên và giàu biểu cảm hơn
Google nhấn mạnh những tiến bộ của mô hình này về độ tự nhiên của giọng nói. Các mô hình TTS truyền thống thường bị chỉ trích là “nghe như AI”. Gemini 3.1 Flash TTS tìm cách thu hẹp khoảng cách với giọng nói của con người thông qua biến đổi ngữ điệu và biểu đạt cảm xúc phong phú hơn. Kilpatrick cho biết, sự tiến bộ từ Gemini 2.5 lên 3.1 là “rất rõ rệt”.
Cách nhà phát triển sử dụng
Nhà phát triển có thể sử dụng theo hai cách:
Google AI Studio Audio Playground — Trực tiếp kiểm thử và xem trước hiệu quả giọng nói ngay trên giao diện web
Gemini API — Tích hợp vào ứng dụng để phục vụ các tình huống như trợ lý giọng nói, sách nói, tự động tạo Podcast, chăm sóc khách hàng đa ngôn ngữ, v.v.
Dòng sản phẩm Gemini tiếp tục mở rộng
Flash TTS là một phần trong chuỗi các bản phát hành dày đặc gần đây của dòng Gemini 3.1. Trước đó, Google đã giới thiệu Gemini Robotics ER 1.6 (suy luận thị giác cho robot), Tab Tab Tab (bổ toàn prompt “Vibe Coding”) và các tính năng xem trước thiết kế. Google đang mở rộng Gemini từ “mô hình chat” sang một nền tảng AI đa phương thức bao gồm văn bản, giọng nói, thị giác và robot.
Bài viết này Google ra mắt Gemini 3.1 Flash TTS: Hỗ trợ 70 ngôn ngữ và chỉ dẫn theo ngữ cảnh, giọng nói AI tự nhiên hơn đã xuất hiện sớm nhất trên 鏈新聞 ABMedia.
Bài viết liên quan
Robot Lightning của Honor giành chiến thắng tại Giải nửa marathon robot hình người Bắc Kinh 2026 với thành tích 50:26
Cổ phiếu Meta Tăng 1,73% khi Công Ty Lên Kế Hoạch Sa Thải 8.000 Nhân Sự Bắt Đầu Từ Ngày 20/5
Báo cáo thường niên của Google cho biết Gemini thực hiện chặn theo mili giây, chặn 99% quảng cáo lừa đảo
Đồng sáng lập Ethereum Lubin: AI sẽ là bước ngoặt then chốt cho crypto, nhưng độc quyền của các gã khổng lồ công nghệ tạo ra rủi ro mang tính hệ thống
Elon Musk Thúc Đẩy Các Khoản Chi Trả “Thu Nhập Cao Phổ Quát” như Giải Pháp Tối Ưu Cho Tình Trạng Thất Nghiệp Do AI