Trưởng phụ trách quan hệ nhà phát triển của Google AI, Logan Kilpatrick, đã công bố việc ra mắt Gemini 3.1 Flash TTS vào ngày 15 tháng 4 — mô hình chuyển văn bản thành giọng nói (TTS) mới nhất của Google. Mô hình này hỗ trợ 70 ngôn ngữ, khả năng điều khiển tinh chi tiết theo cấp độ người nói, chỉ dẫn theo ngữ cảnh (scene direction) và thẻ âm thanh (audio tags); hiện đã được mở cho sử dụng trong trình phát triển âm thanh của Google AI Studio (audio playground) và trong Gemini API.
Bốn chức năng cốt lõi
So với phiên bản tiền nhiệm, Gemini 3.1 Flash TTS có bốn điểm nâng cấp đáng chú ý:
Chỉ dẫn theo ngữ cảnh (Scene Direction) — Có thể thiết lập bối cảnh cho giọng nói, ví dụ như “nói khẽ trong quán cà phê ồn ào” hoặc “hào hứng công bố tin vui”; mô hình sẽ điều chỉnh giọng điệu, tốc độ nói và cảm xúc dựa trên bối cảnh
Điều khiển theo cấp độ người nói (Speaker-Level Specificity) — Trong các cuộc hội thoại đa vai, có thể thiết lập các đặc trưng giọng nói khác nhau cho từng nhân vật
Thẻ âm thanh (Audio Tags) — Hỗ trợ chèn các lệnh hiệu ứng âm thanh vào văn bản, kiểm soát chi tiết như nhịp ngừng (pause) và thay đổi ngữ điệu
Hỗ trợ 70 ngôn ngữ — Mở rộng đáng kể phạm vi đa ngôn ngữ, bao gồm tiếng Trung
Giọng nói tự nhiên và giàu biểu cảm hơn
Google nhấn mạnh những tiến bộ của mô hình này về độ tự nhiên của giọng nói. Các mô hình TTS truyền thống thường bị chỉ trích là “nghe như AI”. Gemini 3.1 Flash TTS tìm cách thu hẹp khoảng cách với giọng nói của con người thông qua biến đổi ngữ điệu và biểu đạt cảm xúc phong phú hơn. Kilpatrick cho biết, sự tiến bộ từ Gemini 2.5 lên 3.1 là “rất rõ rệt”.
Cách nhà phát triển sử dụng
Nhà phát triển có thể sử dụng theo hai cách:
Google AI Studio Audio Playground — Trực tiếp kiểm thử và xem trước hiệu quả giọng nói ngay trên giao diện web
Gemini API — Tích hợp vào ứng dụng để phục vụ các tình huống như trợ lý giọng nói, sách nói, tự động tạo Podcast, chăm sóc khách hàng đa ngôn ngữ, v.v.
Dòng sản phẩm Gemini tiếp tục mở rộng
Flash TTS là một phần trong chuỗi các bản phát hành dày đặc gần đây của dòng Gemini 3.1. Trước đó, Google đã giới thiệu Gemini Robotics ER 1.6 (suy luận thị giác cho robot), Tab Tab Tab (bổ toàn prompt “Vibe Coding”) và các tính năng xem trước thiết kế. Google đang mở rộng Gemini từ “mô hình chat” sang một nền tảng AI đa phương thức bao gồm văn bản, giọng nói, thị giác và robot.
Bài viết này Google ra mắt Gemini 3.1 Flash TTS: Hỗ trợ 70 ngôn ngữ và chỉ dẫn theo ngữ cảnh, giọng nói AI tự nhiên hơn đã xuất hiện sớm nhất trên 鏈新聞 ABMedia.
Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo
Tuyên bố miễn trừ trách nhiệm.
Bài viết liên quan
Cài đặt âm thầm 4GB mô hình Gemini Nano trên Chrome: Nhà nghiên cứu tiết lộ việc có thể đã vi phạm luật bảo mật EU khi chưa được sự đồng ý
Chrome từ ngày 20/4 đến 29/4/2026, không có sự đồng ý của người dùng, âm thầm cài đặt trên thiết bị khoảng 4GB mô hình Gemini Nano (weights.bin, OptGuideOnDeviceModel), không có lựa chọn opt-in/opt-out. Sau khi xóa, các bản cập nhật sẽ tự động tải lại, ảnh hưởng tới hơn 1 tỷ người dùng. Gemini Nano là LLM chạy trên thiết bị, nhưng AI Mode thực chất là cổng truy cập từ đám mây, không phải mô hình chạy cục bộ, dễ gây hiểu nhầm về quyền riêng tư. Hành vi này có thể vi phạm EU ePrivacy 5(3), có nguy cơ bị phạt tiền kèm chi phí phát thải carbon. Có thể chặn bằng công cụ quản trị dành cho doanh nghiệp.
ChainNewsAbmedia11phút trước
AMD dự báo doanh thu Q2 đạt 11,2 tỷ USD, cao hơn ước tính nhờ nhu cầu AI tăng
Theo Reuters, Advanced Micro Devices dự báo doanh thu quý 2 ở mức xấp xỉ 11,2 tỷ USD, cộng hoặc trừ 300 triệu USD, vượt kỳ vọng của Phố Wall là 10,52 tỷ USD nhờ nhu cầu mạnh mẽ đối với hạ tầng AI. Cổ phiếu của hãng sản xuất chip tăng 12% sau thông báo. Quý 1
GateNews16phút trước
AI thúc đẩy nhu cầu chất bán dẫn, Samsung tăng mạnh 12%, vốn hóa vượt 1 nghìn tỷ USD
Dưới tác động của nhu cầu hạ tầng AI, vốn hóa của Samsung vượt mốc 1 nghìn tỷ USD, giá cổ phiếu tăng mạnh trong gần 1 năm qua. Nhu cầu bộ nhớ đang rất cao, giá NAND/DRAM cũng tăng, dự kiến đến năm 2027 cung-cầu sẽ còn khắt khe hơn. Trong bối cảnh đó, Apple được cho là đang cân nhắc đặt gia công chip cốt lõi tại Mỹ; nếu điều này thành hiện thực, sẽ giúp mở rộng hơn nữa tính đa dạng trong chuỗi cung ứng. Đối mặt với áp lực chi phí ở mảng điện thoại và màn hình cùng rủi ro lao động-tổ chức, Forward P/E khoảng 5,3 lần; các nhà phân tích dự đoán dư địa tăng trong 12 tháng tới khoảng 30%.
ChainNewsAbmedia23phút trước
Anthropic cam kết $200B với Google Cloud trong hơn 5 năm
Anthropic đã đồng ý chi 200 tỷ USD cho Google Cloud trong 5 năm, theo Reuters. Cam kết này tương đương hơn 40% phần doanh thu đặt trước mảng cloud mà Alphabet đã công bố, và cổ phiếu Alphabet đã tăng khoảng 2% trong phiên giao dịch mở rộng sau thông báo.
Chi tiết thỏa thuận và Alphabet
CryptoFrontier25phút trước
OpenAI và Anthropic ra mắt các dịch vụ AI được hậu thuẫn bởi PE thông qua các liên doanh mua lại
OpenAI và Anthropic đang lần lượt hợp tác với các công ty cổ phần tư nhân để mua lại các công ty dịch vụ hỗ trợ doanh nghiệp triển khai trí tuệ nhân tạo, theo Reuters. Các thương vụ này nhằm đảm bảo đội ngũ kỹ sư và tư vấn viên để triển khai các mô hình AI của họ cho khách hàng doanh nghiệp.
OpenAI's
CryptoFrontier26phút trước
Google, Microsoft và xAI tham gia Chương trình rà soát AI của Bộ Thương mại Mỹ vào ngày 5 tháng 5
Theo Bloomberg, Google, Microsoft và xAI đã đồng ý vào ngày 5/5 để cho phép Bộ Thương mại Mỹ xem xét các mô hình AI của họ trước khi phát hành công khai. Động thái này mở rộng một chương trình thử nghiệm liên bang gắn với chính sách AI của Trump. Họ tham gia OpenAI và Anthropic, những mô hình đã được Bộ Thương mại xem xét s
GateNews36phút trước