OpenAI เปิดตัว GPT-Realtime-2: นำการให้เหตุผลของ GPT-5 มาสู่เอเจนต์ด้วยเสียง และเพิ่มคอนเทกซ์ต์เป็น 128K

ChainNewsAbmedia

OpenAI 7 พฤษภาคม (เวลา สหรัฐฯ) ได้ประกาศโมเดลเสียง Realtime ใหม่ 3 รุ่นในงานประชุมสำหรับนักพัฒนา ได้แก่ GPT-Realtime-2, GPT-Realtime-Translate, GPT-Realtime-Whisper โดยทั้งหมดเปิดให้ผู้พัฒนาสามารถใช้งานผ่าน Realtime API ได้ นอกจากนี้ ประกาศอย่างเป็นทางการของ OpenAI ระบุว่า GPT-Realtime-2 เป็นโมเดลเสียงรุ่นแรกของ OpenAI ที่มีความสามารถด้านการให้เหตุผลระดับ GPT-5 สามารถให้เหตุผลแบบทันทีระหว่างการสนทนาแบบเสียง เรียกใช้งานเครื่องมือ จัดการการแก้ไข และรักษาจังหวะการสนทนาให้เป็นธรรมชาติ

GPT-Realtime-2:context จาก 32K เพิ่มเป็น 128K ปรับระดับความเข้มข้นของการให้เหตุผลได้ 5 ระดับ

การอัปเกรดหลักของ GPT-Realtime-2:

context window:32K เพิ่มเป็น 128K tokens

ปรับความเข้มข้นการให้เหตุผลได้:minimal、low、medium、high、xhigh 5 ระดับ

การทดสอบ Big Bench Audio:ให้เหตุผลระดับ high 96.6% ขณะที่ GPT-Realtime-1.5 รุ่นก่อนหน้าอยู่ที่ 81.4%

การปฏิบัติตามคำสั่ง Audio MultiChallenge:xhigh ให้เหตุผล 48.5% เทียบกับ 34.7% ของรุ่นก่อนหน้า

context ที่มากขึ้นและความเข้มข้นของการให้เหตุผลที่ปรับได้ทำให้นักพัฒนาสามารถสลับระหว่าง “ถูกและรวดเร็ว” กับ “คิดลึก” ได้ตามสถานการณ์ เช่น ฝ่ายบริการลูกค้าง่าย ๆ ใช้โหมด minimal เพื่อคุมต้นทุน ส่วนงานที่ซับซ้อนจะเปลี่ยนไปใช้ xhigh เพื่อแลกกับคุณภาพการให้เหตุผลระดับ GPT-5

เผยแพร่โมเดลเฉพาะทางอีก 2 รุ่นควบคู่กัน:Translate แปลข้ามภาษา และ Whisper สำหรับสตรีมถอดเสียงแบบเรียลไทม์

การแบ่งหน้าที่ของโมเดลใหม่ทั้ง 3 รุ่นในรอบนี้:

GPT-Realtime-Translate:แปลเสียงหลายภาษาแบบทันที รองรับ 70 ภาษาอินพุต และ 13 ภาษาสำหรับเอาต์พุต

GPT-Realtime-Whisper:ถอดเสียงแบบสตรีมหน่วงต่ำ พูดไปแล้วได้ข้อความออกมาทันที เหมาะสำหรับซับไตเติลแบบเรียลไทม์ บันทึกการประชุม และสคริปต์คำต่อคำในห้องเรียน

GPT-Realtime-2:เอเจนต์สนทนาแบบครบวงจร ให้เหตุผลได้ ใช้เครื่องมือได้ และสามารถดำเนินการตามคำสั่งได้

Translate และ Whisper คือการทำให้โมเดลเฉพาะทางสำหรับงานเสียงที่เจาะจง—ความไวต่อความหน่วงและต้นทุนสำหรับการแปลและการถอดเสียงสูงกว่าการสนทนาเอนกประสงค์ ดังนั้นการใช้โมเดลแยกกันจึงช่วยปรับให้เหมาะกับตัวชี้วัดของแต่ละงานได้ดีขึ้น

ราคา:GPT-Realtime-2 อินพุต 32 ดอลลาร์ต่อ 1 ล้านครั้ง และเอาต์พุต 64 ดอลลาร์ต่อ 1 ล้านครั้ง

โครงสร้างราคาของทั้ง 3 โมเดล:

GPT-Realtime-2:อินพุตเสียง 32 ดอลลาร์ต่อ 1 ล้านครั้ง, cached input 0.40 ดอลลาร์, เอาต์พุต 64 ดอลลาร์

GPT-Realtime-Translate:0.034 ดอลลาร์ต่อนาที

GPT-Realtime-Whisper:0.017 ดอลลาร์ต่อนาที

เหตุการณ์ที่ติดตามได้ในภายหลัง:การนำ GPT-Realtime-2 ไปใช้จริงในสภาพแวดล้อมการทำงานแบบเสียงของเอเจนต์ ระดับการเข้ามาทดแทน (cannibalization) เมื่อเทียบกับโมเดลเสียง GPT-4o เดิม และปฏิกิริยาการตอบโต้จากคู่แข่งอย่าง Anthropic, Google และอื่น ๆ

บทความนี้ที่ OpenAI ปล่อย GPT-Realtime-2:นำการให้เหตุผลระดับ GPT-5 เข้าสู่ voice agent และอัปเกรด context เป็น 128K ปรากฏเป็นครั้งแรกบน ChainNews ABMedia

news.article.disclaimer
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น