OpenAI เปิดตัวโมเดลเสียงแบบเรียลไทม์ 3 รุ่นใน Realtime API; GPT-Realtime-2 มาพร้อมหน้าต่างบริบท 128K

Beating ระบุว่า OpenAI เปิดตัวโมเดลเสียง 3 รุ่นใน Realtime API ได้แก่ GPT-Realtime-2 สำหรับการสนทนาด้วยเสียงพร้อมเหตุผล, GPT-Realtime-Translate สำหรับการแปลแบบเรียลไทม์ และ GPT-Realtime-Whisper สำหรับการถอดเสียงแบบสตรีมมิง
GPT-Realtime-2 เป็นโมเดลเสียงรุ่นแรกของ OpenAI ที่มีความสามารถด้านการให้เหตุผลระดับ GPT-5 โดยขยายหน้าต่างบริบทจาก 32K เป็น 128K โทเค็น และรองรับการสนทนาแบบหนาแน่นได้นานถึง 1-2 ชั่วโมง

GPT-Realtime-2 ทำคะแนนดีขึ้น 15.2% ในเกณฑ์ Big Bench Audio และดีขึ้น 13.8% ใน Audio MultiChallenge เมื่อเทียบกับ GPT-Realtime-1.5
GPT-Realtime-Translate รองรับภาษาขาเข้า 70+ ภาษา สำหรับการแปลไปยังภาษาขาออก 13 ภาษา
ราคา: GPT-Realtime-2 อยู่ที่ $32 ต่อ 1 ล้านโทเค็นอินพุต และ $64 ต่อ 1 ล้านโทเค็นเอาต์พุต; Translate อยู่ที่ $0.034 ต่อนาที; Whisper อยู่ที่ $0.017 ต่อนาที

news.article.disclaimer
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น