XAI Grok ra mắt Custom Voices: nhân bản giọng nói trong 2 phút, xác thực danh tính 2 giai đoạn

2026-05-03 01:35:06

xAI ngày 2 tháng 5 ra mắt tính năng Grok Custom Voices trên blog chính thức, người dùng chỉ cần ghi âm khoảng 1 phút giọng nói tự nhiên trong bảng điều khiển của xAI, hệ thống sẽ hoàn tất xử lý trong 2 phút, tạo ra mô hình giọng nói tùy chỉnh có thể dùng cho TTS và Voice Agent API. Đồng thời cũng ra mắt model Grok 4.3 và giao diện Voice Library tổng hợp toàn bộ tài nguyên giọng nói. Custom Voices còn được thiết kế cơ chế xác thực danh tính hai giai đoạn, nhằm ngăn chặn việc sao chép giọng của người khác.

Tính năng: Ghi âm 1 phút, tạo giọng 2 phút, tích hợp TTS và Voice Agent API

Người dùng ghi âm khoảng 1 phút giọng nói tự nhiên trong bảng điều khiển xAI, quy trình hậu trường lần lượt hoàn tất: (1) xác thực danh tính, (2) xử lý giọng nói, (3) tạo mô hình. Trong tổng thời gian 2 phút, có thể nhận được mô hình giọng nói có thể sử dụng. Custom Voices kế thừa mọi năng lực của TTS, bao gồm speech tags (thẻ giọng), đầu ra đa ngôn ngữ và streaming qua REST lẫn WebSocket; có thể ghép trực tiếp với endpoint TTS của xAI hoặc Voice Agent API để hội thoại theo thời gian thực với agent.

Voice Library ra mắt đồng thời là giao diện quản lý thống nhất tài nguyên giọng nói trong bảng điều khiển xAI, cho phép duyệt, xem trước và quản lý mọi giọng do người dùng tự tạo lẫn giọng được xây sẵn, tránh việc bị phân tán giữa nhiều giao diện. Thư viện giọng được xây sẵn cung cấp hơn 80 giọng, hỗ trợ 28 ngôn ngữ.

Xác thực danh tính hai giai đoạn: ngăn chặn sao chép giọng của người khác

Trước khi tạo giọng nói, Custom Voices đặt hai cổng xác thực danh tính: Giai đoạn 1, người dùng đọc một đoạn câu xác thực, hệ thống sẽ chuyển âm trực tuyến đoạn giọng nói đó; Giai đoạn 2, hệ thống tính toán speaker embedding (vector đặc trưng người nói) từ đoạn câu xác thực và toàn bộ bản ghi tương ứng, rồi đối chiếu xem có thuộc cùng một người hay không. Chỉ khi cả hai giai đoạn đều vượt qua, quy trình tạo ra mô hình giọng nói mới được thực hiện.

xAI khẳng định rõ: người dùng không thể sao chép giọng bằng các bản ghi sẵn có, và cũng không thể sao chép giọng của người khác. Thiết kế này loại bỏ tình huống “lấy bản ghi buổi nói chuyện công khai của người khác rồi sao chép” và giới hạn phạm vi sao chép giọng trong “chỉ qua một đầu vào là người dùng tự ghi âm trực tiếp theo thời gian thực”. Với những người quan tâm đến vấn đề lạm dụng tạo giọng nói AI (như lừa đảo qua điện thoại, lồng tiếng khi chưa được cho phép), cơ chế này được xem là câu trả lời cụ thể của xAI cho vấn đề ngụy tạo.

Quan sát tiếp theo: Ra mắt đồng bộ với Grok 4.3, Voice Library mở rộng nhịp độ

Custom Voices và Grok 4.3 được phát hành cùng ngày, và xAI gắn “nâng cấp model + hoàn thiện tuyến công cụ giọng nói” vào cùng một đợt công bố. Điểm quan sát tiếp theo là nhịp độ mở rộng thư viện giọng được xây sẵn của Voice Library từ hơn 80 giọng và liệu bản đồ 28 ngôn ngữ có thể phủ thêm các ngôn ngữ thiểu số như tiếng Trung phồn thể hay không; một điểm khác là việc công bố các case sử dụng cụ thể của Voice Agent API, đặc biệt là các ví dụ tích hợp cho tự động hóa chăm sóc khách hàng, thu âm podcast, dịch vụ khách hàng đa ngôn ngữ và các bối cảnh tương tự.

Bài viết xAI Grok ra Custom Voices: Sao chép trong 2 phút, xác thực danh tính hai giai đoạn sớm nhất xuất hiện trên 鏈新聞 ABMedia.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ các nguồn bên thứ ba và chỉ mang tính chất tham khảo. Thông tin này không phản ánh quan điểm hoặc ý kiến của Gate và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Giao dịch tài sản ảo tiềm ẩn rủi ro cao. Vui lòng không chỉ dựa vào thông tin trên trang này khi đưa ra quyết định. Để biết thêm chi tiết, vui lòng xem Tuyên bố miễn trừ trách nhiệm.

Tin tức liên quan

05-02 06:41

xAI ra mắt Grok Custom Voices, cho phép người dùng sao chép giọng AI của chính mình trong 1 phút

05-02 04:53

OpenAI Ra mắt Codex Pets, trợ lý ảo được AI hỗ trợ với khả năng tạo nội dung tùy chỉnh

05-02 00:33

xAI ra mắt API sao chép giọng nói hỗ trợ hơn 80 giọng trên 28 ngôn ngữ