Thinking Machines เปิดตัวโมเดลการโต้ตอบด้วยเวลาตอบสนอง 200ms และทำผลงานได้เหนือกว่า GPT-Realtime-2.0

ตาม Beating ซึ่งเป็น Thinking Machines—แล็บที่ก่อตั้งโดย Mira Murati อดีต CTO ของ OpenAI—ได้ปล่อยตัวอย่างงานวิจัย (research preview) ของโมเดล Interaction โดยมีการประมวลผลเสียงและวิดีโอแบบเรียลไทม์ในตัว พร้อมการตอบสนองแบบ micro-turn ระยะเวลา 200 มิลลิวินาที โมเดลนี้ช่วยให้ฟัง ดู และพูดได้พร้อมกัน รวมถึงรองรับการที่ผู้ใช้ขัดจังหวะได้แบบเรียลไทม์

โมเดล TML-Interaction-Small ใช้สถาปัตยกรรม MoE 276 พันล้านพารามิเตอร์ โดยมีพารามิเตอร์ที่ถูกใช้งาน 12 พันล้านต่อการอนุมาน ข้อมูลทางการระบุว่ามีความหน่วงสำหรับการผลัดกันพูด (speech turn-taking) ที่ 0.40 วินาที และคะแนน FD-bench V1.5 อยู่ที่ 77.8 ซึ่งทั้งคู่สูงกว่า GPT-Realtime-2.0 และ Gemini 3.1 Flash Live มีแผนเปิดให้เข้าถึงตัวอย่างแบบจำกัดในช่วงไม่กี่เดือนข้างหน้า

news.article.disclaimer
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น