Google เปิดตัว Gemini 3.5 Live Translate ซึ่งเป็นโมเดล AI แบบพูด-ต่อ-พูด (speech-to-speech) ให้การแปลด้วยเสียงแบบทันทีข้ามกว่า 70 ภาษา การเปิดตัวครั้งนี้ขยายความพร้อมใช้งานของการแปลแบบเรียลไทม์จากข้อกำหนดเดิมที่จำกัดเฉพาะโทรศัพท์หรือหูฟังของ Google รุ่นบางรุ่น พร้อมมอบความหน่วง (latency) ต่ำกว่าการใช้งานรุ่นก่อน Google ไขว่คว้าการแปลแบบเรียลไทม์มานานหลายปีในฐานะหนึ่งในการทดลองด้านแมชชีนเลิร์นนิงของบริษัท โดยก่อนหน้านี้ Google เคยปล่อยการแปลแบบเรียลไทม์ในวงจำกัดภายในแอป Translate เมื่อปีที่แล้ว ก่อนการใช้งานในวงกว้างขึ้นในวันนี้
Gemini 3.5 Live Translate เป็นส่วนหนึ่งของตระกูลเวอร์ชัน 3.5 ที่เปิดตัวในงาน I/O ก่อนวันนี้ Google เปิดตัวเฉพาะรุ่น Flash เท่านั้น โดยคาดว่า Pro จะเปิดตัวภายในไม่กี่สัปดาห์ โมเดลแบบพูด-ต่อ-พูดได้รับการปรับให้ตรวจจับและแปลโดยอัตโนมัติในกว่า 70 ภาษา
ตามที่ Google ระบุ Gemini 3.5 Live Translate เร็วพอที่จะทันกับการสนทนาตามปกติ โดยตามหลังผู้พูดเพียงไม่กี่วินาที และยังรักษาโทนเสียง จังหวะ และระดับเสียงให้สอดคล้อง โมเดลสร้างเอาต์พุตเสียงที่ฟังดูคล้ายผู้พูดต้นฉบับมากกว่าหุ่นยนต์ทั่วไป Google ปล่อยเดโม่ที่บันทึกภายใต้เงื่อนไขควบคุม เพื่อแสดงความสามารถเหล่านี้
Gemini 3.5 Live Translate กำลังทยอยเปิดให้ใช้งานในหลายส่วนของระบบนิเวศของ Google โมเดลนี้พร้อมใช้งานใน Google Meet สำหรับการแปลคำพูดระหว่างการโทรผ่านวิดีโอ โดยผู้ใช้สามารถเข้าถึงความสามารถด้านการแปลได้โดยไม่ต้องรอช่วงเวลาตรวจสอบที่ยาวนาน
นักพัฒนาสามารถเริ่มสร้างแอปได้ด้วยการเปิดให้ลองใช้แบบสาธารณะใน Gemini Live API หรือ AI Studio โมเดลจะประมวลผลคำพูดอย่างต่อเนื่องและจัดการอินพุตหลายภาษาได้โดยอัตโนมัติ ทำให้นักพัฒนาไม่ต้องตั้งค่าด้วยตนเอง นอกจากนี้ยังกรองเสียงรบกวนในสภาพแวดล้อมที่มีความวุ่นวายได้อีกด้วย
Gemini 3.5 Live Translate รองรับภาษาอะไรบ้าง?
Gemini 3.5 Live Translate รองรับมากกว่า 70 ภาษา พร้อมความสามารถในการตรวจจับและแปลอัตโนมัติ
ผู้ใช้สามารถเข้าถึง Gemini 3.5 Live Translate ได้ที่ไหน?
โมเดลนี้กำลังทยอยเปิดให้ใช้งานในหลายส่วนของระบบนิเวศของ Google รวมถึง Google Meet สำหรับการแปลคำพูด และนักพัฒนาสามารถเข้าถึงได้ผ่าน Gemini Live API หรือ AI Studio ในรูปแบบการเปิดให้ลองใช้แบบสาธารณะ
Gemini 3.5 Live Translate จัดการการประมวลผลคำพูดอย่างไร?
โมเดลประมวลผลคำพูดอย่างต่อเนื่อง จัดการอินพุตหลายภาษาได้โดยอัตโนมัติโดยไม่ต้องตั้งค่าด้วยตนเอง และกรองเสียงรบกวนในสภาพแวดล้อมที่วุ่นวาย ขณะเดียวกันก็จับคู่โทนเสียง จังหวะ และระดับเสียงของผู้พูด
news.related.news
สหภาพยุโรปสั่งให้ Meta คืนการเข้าถึงฟีเจอร์ AI ของ WhatsApp ภายใน 5 วัน
หุ้น Apple ร่วง 3% หลังประกาศ AI ของ Siri ในงาน WWDC
Apple ยืนยันว่า AI ของ Siri ทำงานบนเซิร์ฟเวอร์ของ Google ขณะยังคงยืนยันเรื่องความเป็นส่วนตัว
Google เปิดตัวฟีเจอร์ยืนยันตัวตนทางโทรศัพท์เพื่อต่อต้านการหลอกลวงที่ขับเคลื่อนด้วย AI