OpenAI เปิดตัว GPT-Realtime-2: นำการให้เหตุผลของ GPT-5 มาสู่เอเจนต์ด้วยเสียง และเพิ่มคอนเทกซ์ต์เป็น 128K

ChainNewsAbmedia

2026-05-08 04:04:44

OpenAI 7 พฤษภาคม (เวลา สหรัฐฯ) ได้ประกาศโมเดลเสียง Realtime ใหม่ 3 รุ่นในงานประชุมสำหรับนักพัฒนา ได้แก่ GPT-Realtime-2, GPT-Realtime-Translate, GPT-Realtime-Whisper โดยทั้งหมดเปิดให้ผู้พัฒนาสามารถใช้งานผ่าน Realtime API ได้ นอกจากนี้ ประกาศอย่างเป็นทางการของ OpenAI ระบุว่า GPT-Realtime-2 เป็นโมเดลเสียงรุ่นแรกของ OpenAI ที่มีความสามารถด้านการให้เหตุผลระดับ GPT-5 สามารถให้เหตุผลแบบทันทีระหว่างการสนทนาแบบเสียง เรียกใช้งานเครื่องมือ จัดการการแก้ไข และรักษาจังหวะการสนทนาให้เป็นธรรมชาติ

GPT-Realtime-2：context จาก 32K เพิ่มเป็น 128K ปรับระดับความเข้มข้นของการให้เหตุผลได้ 5 ระดับ

การอัปเกรดหลักของ GPT-Realtime-2：

context window：32K เพิ่มเป็น 128K tokens

ปรับความเข้มข้นการให้เหตุผลได้：minimal、low、medium、high、xhigh 5 ระดับ

การทดสอบ Big Bench Audio：ให้เหตุผลระดับ high 96.6% ขณะที่ GPT-Realtime-1.5 รุ่นก่อนหน้าอยู่ที่ 81.4%

การปฏิบัติตามคำสั่ง Audio MultiChallenge：xhigh ให้เหตุผล 48.5% เทียบกับ 34.7% ของรุ่นก่อนหน้า

context ที่มากขึ้นและความเข้มข้นของการให้เหตุผลที่ปรับได้ทำให้นักพัฒนาสามารถสลับระหว่าง “ถูกและรวดเร็ว” กับ “คิดลึก” ได้ตามสถานการณ์ เช่น ฝ่ายบริการลูกค้าง่าย ๆ ใช้โหมด minimal เพื่อคุมต้นทุน ส่วนงานที่ซับซ้อนจะเปลี่ยนไปใช้ xhigh เพื่อแลกกับคุณภาพการให้เหตุผลระดับ GPT-5

เผยแพร่โมเดลเฉพาะทางอีก 2 รุ่นควบคู่กัน：Translate แปลข้ามภาษา และ Whisper สำหรับสตรีมถอดเสียงแบบเรียลไทม์

การแบ่งหน้าที่ของโมเดลใหม่ทั้ง 3 รุ่นในรอบนี้：

GPT-Realtime-Translate：แปลเสียงหลายภาษาแบบทันที รองรับ 70 ภาษาอินพุต และ 13 ภาษาสำหรับเอาต์พุต

GPT-Realtime-Whisper：ถอดเสียงแบบสตรีมหน่วงต่ำ พูดไปแล้วได้ข้อความออกมาทันที เหมาะสำหรับซับไตเติลแบบเรียลไทม์ บันทึกการประชุม และสคริปต์คำต่อคำในห้องเรียน

GPT-Realtime-2：เอเจนต์สนทนาแบบครบวงจร ให้เหตุผลได้ ใช้เครื่องมือได้ และสามารถดำเนินการตามคำสั่งได้

Translate และ Whisper คือการทำให้โมเดลเฉพาะทางสำหรับงานเสียงที่เจาะจง—ความไวต่อความหน่วงและต้นทุนสำหรับการแปลและการถอดเสียงสูงกว่าการสนทนาเอนกประสงค์ ดังนั้นการใช้โมเดลแยกกันจึงช่วยปรับให้เหมาะกับตัวชี้วัดของแต่ละงานได้ดีขึ้น

ราคา：GPT-Realtime-2 อินพุต 32 ดอลลาร์ต่อ 1 ล้านครั้ง และเอาต์พุต 64 ดอลลาร์ต่อ 1 ล้านครั้ง

โครงสร้างราคาของทั้ง 3 โมเดล：

GPT-Realtime-2：อินพุตเสียง 32 ดอลลาร์ต่อ 1 ล้านครั้ง, cached input 0.40 ดอลลาร์, เอาต์พุต 64 ดอลลาร์

GPT-Realtime-Translate：0.034 ดอลลาร์ต่อนาที

GPT-Realtime-Whisper：0.017 ดอลลาร์ต่อนาที

เหตุการณ์ที่ติดตามได้ในภายหลัง：การนำ GPT-Realtime-2 ไปใช้จริงในสภาพแวดล้อมการทำงานแบบเสียงของเอเจนต์ ระดับการเข้ามาทดแทน (cannibalization) เมื่อเทียบกับโมเดลเสียง GPT-4o เดิม และปฏิกิริยาการตอบโต้จากคู่แข่งอย่าง Anthropic, Google และอื่น ๆ

บทความนี้ที่ OpenAI ปล่อย GPT-Realtime-2：นำการให้เหตุผลระดับ GPT-5 เข้าสู่ voice agent และอัปเกรด context เป็น 128K ปรากฏเป็นครั้งแรกบน ChainNews ABMedia

news.article.disclaimer

news.related.news

05-08 02:01

OpenAI เปลี่ยนโมเดลเริ่มต้นของ ChatGPT เป็น GPT-5.5 แบบ Instant ลดภาพหลอนลง 52.5%

05-08 01:25

OpenAI เปิดตัวโมเดลเสียงแบบเรียลไทม์ 3 รุ่นใน Realtime API; GPT-Realtime-2 มาพร้อมหน้าต่างบริบท 128K

05-08 00:08

OpenAI เปิดตัวโมเดล GPT-5.5-Cyber และกรอบการเข้าถึงที่เชื่อถือได้สำหรับผู้พิทักษ์ด้านความปลอดภัยทางไซเบอร์

btc.bar.articles

NVIDIA เปิดตัว Nemotron 3 Nano Omni แบบโอเพนซอร์สหลายรูปแบบ

ChainNewsAbmedia05-07 10:56

งาน OpenAI DevDay 2026 จะจัดขึ้นที่ซานฟรานซิสโกในวันที่ 29/9