xAI ngày 2 tháng 5 ra mắt tính năng Grok Custom Voices trên blog chính thức, người dùng chỉ cần ghi âm khoảng 1 phút giọng nói tự nhiên trong bảng điều khiển của xAI, hệ thống sẽ hoàn tất xử lý trong 2 phút, tạo ra mô hình giọng nói tùy chỉnh có thể dùng cho TTS và Voice Agent API. Đồng thời cũng ra mắt model Grok 4.3 và giao diện Voice Library tổng hợp toàn bộ tài nguyên giọng nói. Custom Voices còn được thiết kế cơ chế xác thực danh tính hai giai đoạn, nhằm ngăn chặn việc sao chép giọng của người khác.
Tính năng: Ghi âm 1 phút, tạo giọng 2 phút, tích hợp TTS và Voice Agent API
Người dùng ghi âm khoảng 1 phút giọng nói tự nhiên trong bảng điều khiển xAI, quy trình hậu trường lần lượt hoàn tất: (1) xác thực danh tính, (2) xử lý giọng nói, (3) tạo mô hình. Trong tổng thời gian 2 phút, có thể nhận được mô hình giọng nói có thể sử dụng. Custom Voices kế thừa mọi năng lực của TTS, bao gồm speech tags (thẻ giọng), đầu ra đa ngôn ngữ và streaming qua REST lẫn WebSocket; có thể ghép trực tiếp với endpoint TTS của xAI hoặc Voice Agent API để hội thoại theo thời gian thực với agent.
Voice Library ra mắt đồng thời là giao diện quản lý thống nhất tài nguyên giọng nói trong bảng điều khiển xAI, cho phép duyệt, xem trước và quản lý mọi giọng do người dùng tự tạo lẫn giọng được xây sẵn, tránh việc bị phân tán giữa nhiều giao diện. Thư viện giọng được xây sẵn cung cấp hơn 80 giọng, hỗ trợ 28 ngôn ngữ.
Xác thực danh tính hai giai đoạn: ngăn chặn sao chép giọng của người khác
Trước khi tạo giọng nói, Custom Voices đặt hai cổng xác thực danh tính: Giai đoạn 1, người dùng đọc một đoạn câu xác thực, hệ thống sẽ chuyển âm trực tuyến đoạn giọng nói đó; Giai đoạn 2, hệ thống tính toán speaker embedding (vector đặc trưng người nói) từ đoạn câu xác thực và toàn bộ bản ghi tương ứng, rồi đối chiếu xem có thuộc cùng một người hay không. Chỉ khi cả hai giai đoạn đều vượt qua, quy trình tạo ra mô hình giọng nói mới được thực hiện.
xAI khẳng định rõ: người dùng không thể sao chép giọng bằng các bản ghi sẵn có, và cũng không thể sao chép giọng của người khác. Thiết kế này loại bỏ tình huống “lấy bản ghi buổi nói chuyện công khai của người khác rồi sao chép” và giới hạn phạm vi sao chép giọng trong “chỉ qua một đầu vào là người dùng tự ghi âm trực tiếp theo thời gian thực”. Với những người quan tâm đến vấn đề lạm dụng tạo giọng nói AI (như lừa đảo qua điện thoại, lồng tiếng khi chưa được cho phép), cơ chế này được xem là câu trả lời cụ thể của xAI cho vấn đề ngụy tạo.
Quan sát tiếp theo: Ra mắt đồng bộ với Grok 4.3, Voice Library mở rộng nhịp độ
Custom Voices và Grok 4.3 được phát hành cùng ngày, và xAI gắn “nâng cấp model + hoàn thiện tuyến công cụ giọng nói” vào cùng một đợt công bố. Điểm quan sát tiếp theo là nhịp độ mở rộng thư viện giọng được xây sẵn của Voice Library từ hơn 80 giọng và liệu bản đồ 28 ngôn ngữ có thể phủ thêm các ngôn ngữ thiểu số như tiếng Trung phồn thể hay không; một điểm khác là việc công bố các case sử dụng cụ thể của Voice Agent API, đặc biệt là các ví dụ tích hợp cho tự động hóa chăm sóc khách hàng, thu âm podcast, dịch vụ khách hàng đa ngôn ngữ và các bối cảnh tương tự.
Bài viết xAI Grok ra Custom Voices: Sao chép trong 2 phút, xác thực danh tính hai giai đoạn sớm nhất xuất hiện trên 鏈新聞 ABMedia.
Bài viết liên quan
Công ty khởi nghiệp bán lẻ tạp hóa của Ấn Độ Apna Mart cắt giảm 10% nhân sự sau vòng gọi vốn
Solana Foundation và Google Cloud ra mắt cổng thanh toán AI Pay.sh hỗ trợ hơn 50 nhà cung cấp API
WorldClaw và WLFI Ra mắt WorldRouter, cung cấp quyền truy cập hơn 300 mô hình AI với chi phí thấp hơn 30%
Epic Angels ủng hộ Enaxiom trong vòng gọi vốn Seed trị giá 1,8 triệu USD cho công nghệ làm mát trung tâm dữ liệu AI
Cipher Digital đăng khoản lỗ 114 triệu USD trong quý 1 khi thợ đào Bitcoin đẩy nhanh bước chuyển sang trung tâm dữ liệu AI
Oobit ra mắt thẻ Visa USDT dành cho doanh nghiệp do AI điều khiển vào ngày 5/5