Google ประกาศ Gemini 3.5 รองรับการแปลสดแบบถ่ายทอดด้วยเสียงสำหรับกว่า 70 ภาษา

Google เปิดตัว Gemini 3.5 Live Translate ซึ่งเป็นโมเดล AI แบบพูด-ต่อ-พูด (speech-to-speech) ให้การแปลด้วยเสียงแบบทันทีข้ามกว่า 70 ภาษา การเปิดตัวครั้งนี้ขยายความพร้อมใช้งานของการแปลแบบเรียลไทม์จากข้อกำหนดเดิมที่จำกัดเฉพาะโทรศัพท์หรือหูฟังของ Google รุ่นบางรุ่น พร้อมมอบความหน่วง (latency) ต่ำกว่าการใช้งานรุ่นก่อน Google ไขว่คว้าการแปลแบบเรียลไทม์มานานหลายปีในฐานะหนึ่งในการทดลองด้านแมชชีนเลิร์นนิงของบริษัท โดยก่อนหน้านี้ Google เคยปล่อยการแปลแบบเรียลไทม์ในวงจำกัดภายในแอป Translate เมื่อปีที่แล้ว ก่อนการใช้งานในวงกว้างขึ้นในวันนี้

Gemini 3.5 Live Translate ข้อกำหนดทางเทคนิคและตระกูลโมเดล

Gemini 3.5 Live Translate เป็นส่วนหนึ่งของตระกูลเวอร์ชัน 3.5 ที่เปิดตัวในงาน I/O ก่อนวันนี้ Google เปิดตัวเฉพาะรุ่น Flash เท่านั้น โดยคาดว่า Pro จะเปิดตัวภายในไม่กี่สัปดาห์ โมเดลแบบพูด-ต่อ-พูดได้รับการปรับให้ตรวจจับและแปลโดยอัตโนมัติในกว่า 70 ภาษา

ตามที่ Google ระบุ Gemini 3.5 Live Translate เร็วพอที่จะทันกับการสนทนาตามปกติ โดยตามหลังผู้พูดเพียงไม่กี่วินาที และยังรักษาโทนเสียง จังหวะ และระดับเสียงให้สอดคล้อง โมเดลสร้างเอาต์พุตเสียงที่ฟังดูคล้ายผู้พูดต้นฉบับมากกว่าหุ่นยนต์ทั่วไป Google ปล่อยเดโม่ที่บันทึกภายใต้เงื่อนไขควบคุม เพื่อแสดงความสามารถเหล่านี้

การทยอยเปิดให้ใช้งานทั่วระบบนิเวศของ Google และการเข้าถึงของผู้ใช้

Gemini 3.5 Live Translate กำลังทยอยเปิดให้ใช้งานในหลายส่วนของระบบนิเวศของ Google โมเดลนี้พร้อมใช้งานใน Google Meet สำหรับการแปลคำพูดระหว่างการโทรผ่านวิดีโอ โดยผู้ใช้สามารถเข้าถึงความสามารถด้านการแปลได้โดยไม่ต้องรอช่วงเวลาตรวจสอบที่ยาวนาน

การเข้าถึงผ่าน API สำหรับนักพัฒนาและฟีเจอร์การประมวลผลอัตโนมัติ

นักพัฒนาสามารถเริ่มสร้างแอปได้ด้วยการเปิดให้ลองใช้แบบสาธารณะใน Gemini Live API หรือ AI Studio โมเดลจะประมวลผลคำพูดอย่างต่อเนื่องและจัดการอินพุตหลายภาษาได้โดยอัตโนมัติ ทำให้นักพัฒนาไม่ต้องตั้งค่าด้วยตนเอง นอกจากนี้ยังกรองเสียงรบกวนในสภาพแวดล้อมที่มีความวุ่นวายได้อีกด้วย

FAQ

Gemini 3.5 Live Translate รองรับภาษาอะไรบ้าง?
Gemini 3.5 Live Translate รองรับมากกว่า 70 ภาษา พร้อมความสามารถในการตรวจจับและแปลอัตโนมัติ

ผู้ใช้สามารถเข้าถึง Gemini 3.5 Live Translate ได้ที่ไหน?
โมเดลนี้กำลังทยอยเปิดให้ใช้งานในหลายส่วนของระบบนิเวศของ Google รวมถึง Google Meet สำหรับการแปลคำพูด และนักพัฒนาสามารถเข้าถึงได้ผ่าน Gemini Live API หรือ AI Studio ในรูปแบบการเปิดให้ลองใช้แบบสาธารณะ

Gemini 3.5 Live Translate จัดการการประมวลผลคำพูดอย่างไร?
โมเดลประมวลผลคำพูดอย่างต่อเนื่อง จัดการอินพุตหลายภาษาได้โดยอัตโนมัติโดยไม่ต้องตั้งค่าด้วยตนเอง และกรองเสียงรบกวนในสภาพแวดล้อมที่วุ่นวาย ขณะเดียวกันก็จับคู่โทนเสียง จังหวะ และระดับเสียงของผู้พูด

news.article.disclaimer
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น