xAI ngày 1 tháng 7 công bố ra mắt phiên bản Beta của Voice Agent Builder, đây là nền tảng xây dựng tác nhân giọng nói AI hoàn toàn không cần code, cho phép người dùng xây dựng tác nhân giọng nói cấp doanh nghiệp trong vòng 2 phút thông qua gợi ý ngôn ngữ tự nhiên; nền tảng sử dụng đường dẫn giọng nói đơn nhất Speech-to-Speech từ đầu đến cuối được kết hợp chặt chẽ với Grok Voice, vượt qua GPT trong các bài kiểm tra chuẩn.
(Nguồn: website xAI)
Theo công bố chính thức từ xAI, Grok Voice Think Fast 1.0 đứng đầu bảng xếp hạng bài kiểm tra chuẩn giọng nói τ-voice Bench, vượt trực tiếp Google Gemini 3.1 Flash Live và OpenAI GPT Realtime 1.5 về hai chỉ số tốc độ phản hồi và khả năng suy luận.
xAI giải thích rằng Grok Voice được huấn luyện với các tình huống cuộc gọi thực tế được thiết kế "khó nhất", bao gồm nhiễu điện thoại chất lượng thấp, giọng địa phương mạnh, người dùng ngắt lời giữa chừng và hướng dẫn mơ hồ, đồng thời hỗ trợ bản địa hơn 25 ngôn ngữ.
xAI chính thức giải thích, dịch vụ khách hàng giọng nói AI doanh nghiệp truyền thống phải kết nối ba hệ thống độc lập: chuyển giọng nói thành văn bản (STT), mô hình ngôn ngữ lớn (LLM) và chuyển văn bản thành giọng nói (TTS). Kiến trúc ghép này làm tăng độ trễ đa bước nhảy, đồng thời tăng tỷ lệ lỗi và chi phí vận hành.
Voice Agent Builder sử dụng đường dẫn giọng nói đơn nhất Speech-to-Speech từ đầu đến cuối được kết hợp chặt chẽ với Grok Voice, toàn bộ quy trình xử lý giọng nói không chuyển đổi theo từng đoạn, nhằm giảm độ trễ và giảm lỗi kết nối.
Theo mô tả tính năng chính thức từ xAI, bốn mô-đun tính năng cốt lõi của Voice Agent Builder như sau:
Cơ sở kiến thức (Knowledge Base): Hỗ trợ tải lên các định dạng Word, Excel, PDF, JSON, có thể sắp xếp thành Collections chia sẻ giữa các tác nhân, đảm bảo tính nhất quán về thông số sản phẩm và chính sách.
Kết nối công cụ (Tools & Connectors): Tích hợp sẵn lịch Google/Outlook, tìm kiếm Web, tìm kiếm X (Twitter) và Notion; hỗ trợ chuyển tiếp tới nhân viên hỗ trợ thực, kết thúc cuộc gọi và thông báo nhóm tức thì.
Giọng nói và điện thoại (Voice & Telephony): Cung cấp hơn 80 giọng nói tích hợp sẵn; hỗ trợ nhân bản giọng nói thương hiệu chỉ cần 2 phút âm thanh; có thể nhận số điện thoại miễn phí từ xAI, hoặc kết nối với hệ thống tổng đài hiện có qua SIP.
Định giá minh bạch (Pricing): Phí API tính toán là 0,05 USD mỗi phút, không thu phí nền tảng bổ sung; khi sử dụng số điện thoại do xAI cung cấp, thu thêm phí liên lạc 0,01 USD mỗi phút.
Theo thông báo chính thức từ xAI, Voice Agent Builder tích hợp sẵn cơ chế giám sát (Observability) và lan can bảo mật (Guardrails) cho người dùng doanh nghiệp: mỗi cuộc gọi tự động ghi âm và tạo bản ghi chép; quản trị viên có thể xem nhật ký công cụ mà AI đã sử dụng trong cuộc gọi bất cứ lúc nào; và có thể thiết lập các ranh giới hội thoại nghiêm ngặt, ví dụ buộc AI không được đọc số thẻ tín dụng của khách hàng, hoặc cấm thảo luận với người dùng về các chủ đề chính trị lạc đề.
xAI cho biết trong thông báo chính thức: "Đánh giá bằng tai chính xác hơn nhìn vào bài kiểm tra chuẩn — hãy xây dựng một tác nhân, gọi điện thử với quy trình làm việc khó nhất của bạn."
Theo thông báo chính thức từ xAI, phí API tính toán là 0,05 USD mỗi phút, không thu phí nền tảng bổ sung; nếu sử dụng số điện thoại miễn phí do xAI cung cấp, thì thu thêm phí liên lạc 0,01 USD mỗi phút.
Theo công bố chính thức từ xAI, Grok Voice Think Fast 1.0 vượt qua Google Gemini 3.1 Flash Live và OpenAI GPT Realtime 1.5 trong bài kiểm tra chuẩn τ-voice Bench, đứng đầu bảng xếp hạng về hai chỉ số tốc độ phản hồi và khả năng suy luận.
Theo thông báo chính thức từ xAI, phiên bản Beta của Voice Agent Builder đã chính thức được triển khai trên xAI Console, mở cho dùng thử.
Tin tức liên quan
Cơ chế quản trị trên chuỗi Solana đã ra mắt, các đề xuất cần 15% hỗ trợ staking mới được đưa ra bỏ phiếu.
Claude Sonnet 5 ra mắt, giá API rẻ hơn 60% so với Opus.
6 trình duyệt AI bị lừa bởi trò chơi "2+2=5", toàn bộ chứng chỉ SSH bị rò rỉ
Meituan LongCat-2.0 mã nguồn mở: 1,6 nghìn tỷ tham số, không cần GPU NVIDIA