xAI 2 พฤษภาคม เปิดตัวฟีเจอร์ Grok Custom Voices ผ่านบล็อกทางการ โดยผู้ใช้เพียงบันทึกเสียงพูดแบบเป็นธรรมชาติราว 1 นาทีในแดชบอร์ดของ xAI ระบบจะประมวลผลให้เสร็จภายใน 2 นาที และได้โมเดลเสียงแบบกำหนดเองที่ใช้ได้กับทั้ง TTS และ Voice Agent API พร้อมกันนี้ยังเปิดตัวโมเดล Grok 4.3 และอินเทอร์เฟซ Voice Library สำหรับรวบรวมทรัพยากรเสียงทั้งหมด Custom Voices ยังออกแบบกลไกยืนยันตัวตนแบบ 2 ขั้นตอน เพื่อลดความเสี่ยงจากการโคลนเสียงผู้อื่น
ฟีเจอร์: บันทึก 1 นาที, สร้าง 2 นาที, ผสานรวม TTS และ Voice Agent API
ผู้ใช้บันทึกเสียงพูดแบบเป็นธรรมชาติราว 1 นาทีในแดชบอร์ดของ xAI จากนั้นกระบวนการหลังบ้านจะดำเนินตามลำดับดังนี้: (1) การยืนยันตัวตน (2) การประมวลผลเสียง (3) การสร้างผลผลิตเป็นโมเดล โดยรวมแล้วภายใน 2 นาทีจะได้โมเดลเสียงที่นำไปใช้งานได้ Custom Voices สืบทอดความสามารถทั้งหมดของ TTS รวมถึง speech tags (แท็กเสียง) เอาต์พุตหลายภาษา และการสตรีมแบบ REST และ WebSocket สามารถนำไปใช้งานร่วมกับปลายทาง TTS ของ xAI หรือ Voice Agent API เพื่อสนทนาแบบเรียลไทม์กับเอเจนต์
Voice Library ที่เปิดพร้อมกันคืออินเทอร์เฟซสำหรับจัดการทรัพยากรเสียงทั้งหมดแบบศูนย์กลางในแดชบอร์ดของ xAI สามารถเรียกดู ดูตัวอย่าง และจัดการเสียงที่ผู้ใช้สร้างเองรวมถึงเสียงที่เตรียมไว้ เพื่อหลีกเลี่ยงการกระจายอยู่หลายหน้าจอ โดยคลังเสียงที่เตรียมไว้มีเสียงมากกว่า 80 แบบ และรองรับ 28 ภาษา
การยืนยันตัวตนแบบ 2 ขั้นตอน: ป้องกันการโคลนเสียงผู้อื่น
ก่อนการสร้างเสียง Custom Voices จะตั้งด่านยืนยันตัวตน 2 ชั้น: ชั้นที่ 1 ให้ผู้ใช้อ่านประโยคสำหรับยืนยัน ระบบจะถอดเสียงประโยคนั้นแบบทันที; ชั้นที่ 2 ระบบจะคำนวณ speaker embedding (เวกเตอร์ลักษณะเฉพาะของผู้พูด) จากทั้งประโยคยืนยันและบันทึกเสียงเต็ม จากนั้นนำมาเทียบว่าทั้งสองสอดคล้องกับบุคคลเดียวกันหรือไม่ หากผ่านทั้ง 2 ขั้นเท่านั้น จึงจะเข้าสู่ขั้นตอนการสร้างผลผลิตโมเดลเสียง
xAI ชัดเจนว่า ผู้ใช้ไม่สามารถใช้ไฟล์บันทึกเสียงที่มีอยู่เพื่อโคลนเสียงได้ และไม่สามารถโคลนเสียงของผู้อื่นได้ การออกแบบนี้ตัดโอกาสการใช้งานแบบ “นำเอาการบันทึกการพูดในที่สาธารณะของผู้อื่นที่เปิดเผยอยู่แล้วมาแค่ก็อปปี้” โดยจำกัดขอบเขตการโคลนเสียงไว้ที่ “การบันทึกแบบเรียลไทม์โดยตัวผู้ใช้เอง” เท่านั้น สำหรับผู้ที่ติดตามประเด็นการนำการสร้างเสียงด้วย AI ไปใช้ในทางที่ผิด (เช่น การโทรหลอกลวงหรือการพากย์เสียงโดยไม่ได้รับอนุญาต) กลไกนี้ถือเป็นคำตอบที่เป็นรูปธรรมของ xAI ต่อประเด็นการปลอมแปลง
การสังเกตในระยะถัดไป: ไปพร้อม Grok 4.3 และจังหวะการขยาย Voice Library
Custom Voices และโมเดล Grok 4.3 เปิดตัวในวันเดียวกัน โดย xAI ผูก “การอัปเกรดโมเดล + ทำให้เครื่องมือด้านเสียงครบถ้วนขึ้น” ไว้ในประกาศรอบเดียวกัน จุดสังเกตต่อไปคือจังหวะการขยายคลังเสียงที่เตรียมไว้ของ Voice Library จาก 80 แบบขึ้นไป และแผนที่รองรับ 28 ภาษา จะสามารถครอบคลุมภาษาจีนตัวเต็มและภาษากลุ่มย่อยอื่น ๆ เพิ่มเติมได้หรือไม่ อีกจุดสังเกตคือการเปิดเผยเคสการนำ Voice Agent API ไปใช้จริง โดยเฉพาะตัวอย่างการบูรณาการในสถานการณ์อย่างระบบบริการลูกค้าอัตโนมัติ การผลิตพอดแคสต์ และการบริการลูกค้าหลายภาษา
บทความนี้ xAI Grok เปิด Custom Voices: โคลนใน 2 นาที, ยืนยันตัวตนแบบ 2 ขั้นตอน เผยแพร่ครั้งแรกที่ 鏈新聞 ABMedia
btc.bar.articles
Osome ลดบทบาทมากกว่า 70 ตำแหน่ง เพิ่ม EBITDA 50% ด้วยการเปลี่ยนไปใช้ AI
Schneider Electric เตรียมเปิดศูนย์ฝึกอบรมด้านการพัฒนาในเอเชียตะวันออกเฉียงใต้ในมาเลเซียภายในปีนี้ โดยเครื่องมือ AI ช่วยลดการใช้พลังงาน 2%-3%
Hut 8 ลงนามสัญญาศูนย์ข้อมูล AI มูลค่า 9.8 พันล้านดอลลาร์ ระยะเวลา 15 ปี ราคาหุ้นพุ่งขึ้น 36% ในช่วงก่อนเปิดตลาด
Core Scientific เข้าซื้อกิจการผู้ขุด Bitcoin Polaris ด้วยมูลค่า 421 ล้านดอลลาร์ ขยายการดำเนินงานศูนย์ข้อมูล AI
Hut 8 ล็อกรายได้ศูนย์ข้อมูล AI มูลค่า 16.8 พันล้านดอลลาร์ และปล่อย 3,300 BTC ในไตรมาส 1
Prophet เปิดตัวตลาดคาดการณ์ที่ขับเคลื่อนด้วย AI พร้อมเงินลงทุนซื้อขายสดจำนวน 10,000 ดอลลาร์ วันนี้