Google ประกาศ Gemini 3.5 รองรับการแปลสดแบบถ่ายทอดด้วยเสียงสำหรับกว่า 70 ภาษา

2026-06-09 19:09:54

Google เปิดตัว Gemini 3.5 Live Translate ซึ่งเป็นโมเดล AI แบบพูด-ต่อ-พูด (speech-to-speech) ให้การแปลด้วยเสียงแบบทันทีข้ามกว่า 70 ภาษา การเปิดตัวครั้งนี้ขยายความพร้อมใช้งานของการแปลแบบเรียลไทม์จากข้อกำหนดเดิมที่จำกัดเฉพาะโทรศัพท์หรือหูฟังของ Google รุ่นบางรุ่น พร้อมมอบความหน่วง (latency) ต่ำกว่าการใช้งานรุ่นก่อน Google ไขว่คว้าการแปลแบบเรียลไทม์มานานหลายปีในฐานะหนึ่งในการทดลองด้านแมชชีนเลิร์นนิงของบริษัท โดยก่อนหน้านี้ Google เคยปล่อยการแปลแบบเรียลไทม์ในวงจำกัดภายในแอป Translate เมื่อปีที่แล้ว ก่อนการใช้งานในวงกว้างขึ้นในวันนี้

Gemini 3.5 Live Translate ข้อกำหนดทางเทคนิคและตระกูลโมเดล

Gemini 3.5 Live Translate เป็นส่วนหนึ่งของตระกูลเวอร์ชัน 3.5 ที่เปิดตัวในงาน I/O ก่อนวันนี้ Google เปิดตัวเฉพาะรุ่น Flash เท่านั้น โดยคาดว่า Pro จะเปิดตัวภายในไม่กี่สัปดาห์ โมเดลแบบพูด-ต่อ-พูดได้รับการปรับให้ตรวจจับและแปลโดยอัตโนมัติในกว่า 70 ภาษา

ตามที่ Google ระบุ Gemini 3.5 Live Translate เร็วพอที่จะทันกับการสนทนาตามปกติ โดยตามหลังผู้พูดเพียงไม่กี่วินาที และยังรักษาโทนเสียง จังหวะ และระดับเสียงให้สอดคล้อง โมเดลสร้างเอาต์พุตเสียงที่ฟังดูคล้ายผู้พูดต้นฉบับมากกว่าหุ่นยนต์ทั่วไป Google ปล่อยเดโม่ที่บันทึกภายใต้เงื่อนไขควบคุม เพื่อแสดงความสามารถเหล่านี้

การทยอยเปิดให้ใช้งานทั่วระบบนิเวศของ Google และการเข้าถึงของผู้ใช้

Gemini 3.5 Live Translate กำลังทยอยเปิดให้ใช้งานในหลายส่วนของระบบนิเวศของ Google โมเดลนี้พร้อมใช้งานใน Google Meet สำหรับการแปลคำพูดระหว่างการโทรผ่านวิดีโอ โดยผู้ใช้สามารถเข้าถึงความสามารถด้านการแปลได้โดยไม่ต้องรอช่วงเวลาตรวจสอบที่ยาวนาน

การเข้าถึงผ่าน API สำหรับนักพัฒนาและฟีเจอร์การประมวลผลอัตโนมัติ

นักพัฒนาสามารถเริ่มสร้างแอปได้ด้วยการเปิดให้ลองใช้แบบสาธารณะใน Gemini Live API หรือ AI Studio โมเดลจะประมวลผลคำพูดอย่างต่อเนื่องและจัดการอินพุตหลายภาษาได้โดยอัตโนมัติ ทำให้นักพัฒนาไม่ต้องตั้งค่าด้วยตนเอง นอกจากนี้ยังกรองเสียงรบกวนในสภาพแวดล้อมที่มีความวุ่นวายได้อีกด้วย

FAQ

Gemini 3.5 Live Translate รองรับภาษาอะไรบ้าง?
Gemini 3.5 Live Translate รองรับมากกว่า 70 ภาษา พร้อมความสามารถในการตรวจจับและแปลอัตโนมัติ

ผู้ใช้สามารถเข้าถึง Gemini 3.5 Live Translate ได้ที่ไหน?
โมเดลนี้กำลังทยอยเปิดให้ใช้งานในหลายส่วนของระบบนิเวศของ Google รวมถึง Google Meet สำหรับการแปลคำพูด และนักพัฒนาสามารถเข้าถึงได้ผ่าน Gemini Live API หรือ AI Studio ในรูปแบบการเปิดให้ลองใช้แบบสาธารณะ

Gemini 3.5 Live Translate จัดการการประมวลผลคำพูดอย่างไร?
โมเดลประมวลผลคำพูดอย่างต่อเนื่อง จัดการอินพุตหลายภาษาได้โดยอัตโนมัติโดยไม่ต้องตั้งค่าด้วยตนเอง และกรองเสียงรบกวนในสภาพแวดล้อมที่วุ่นวาย ขณะเดียวกันก็จับคู่โทนเสียง จังหวะ และระดับเสียงของผู้พูด

news.view.source

news.article.disclaimer

news.related.news

8 ชั่วโมง ที่แล้ว

Google เปิดตัว Gemini 3.5 แปลเสียงแบบเรียลไทม์จากเสียงเป็นเสียงในวันที่ 9 มิถุนายน

10 ชั่วโมง ที่แล้ว

Apple ยืนยันว่า Siri AI ทำงานบนเซิร์ฟเวอร์ของ Google ในงาน WWDC พร้อมคงคำกล่าวอ้างเรื่องความเป็นส่วนตัว

15 ชั่วโมง ที่แล้ว

Samsung เปิดตัว Google Gemini และ OpenAI ChatGPT ให้บริษัทในเครือ ใช้ในเดือนนี้

btc.bar.articles

สหภาพยุโรปสั่งให้ Meta คืนการเข้าถึงฟีเจอร์ AI ของ WhatsApp ภายใน 5 วัน

Oliver Grant4 ชั่วโมง ที่แล้ว