OpenAI 7 พฤษภาคม (เวลา สหรัฐฯ) ได้ประกาศโมเดลเสียง Realtime ใหม่ 3 รุ่นในงานประชุมสำหรับนักพัฒนา ได้แก่ GPT-Realtime-2, GPT-Realtime-Translate, GPT-Realtime-Whisper โดยทั้งหมดเปิดให้ผู้พัฒนาสามารถใช้งานผ่าน Realtime API ได้ นอกจากนี้ ประกาศอย่างเป็นทางการของ OpenAI ระบุว่า GPT-Realtime-2 เป็นโมเดลเสียงรุ่นแรกของ OpenAI ที่มีความสามารถด้านการให้เหตุผลระดับ GPT-5 สามารถให้เหตุผลแบบทันทีระหว่างการสนทนาแบบเสียง เรียกใช้งานเครื่องมือ จัดการการแก้ไข และรักษาจังหวะการสนทนาให้เป็นธรรมชาติ
GPT-Realtime-2:context จาก 32K เพิ่มเป็น 128K ปรับระดับความเข้มข้นของการให้เหตุผลได้ 5 ระดับ
การอัปเกรดหลักของ GPT-Realtime-2:
context window:32K เพิ่มเป็น 128K tokens
ปรับความเข้มข้นการให้เหตุผลได้:minimal、low、medium、high、xhigh 5 ระดับ
การทดสอบ Big Bench Audio:ให้เหตุผลระดับ high 96.6% ขณะที่ GPT-Realtime-1.5 รุ่นก่อนหน้าอยู่ที่ 81.4%
การปฏิบัติตามคำสั่ง Audio MultiChallenge:xhigh ให้เหตุผล 48.5% เทียบกับ 34.7% ของรุ่นก่อนหน้า
context ที่มากขึ้นและความเข้มข้นของการให้เหตุผลที่ปรับได้ทำให้นักพัฒนาสามารถสลับระหว่าง “ถูกและรวดเร็ว” กับ “คิดลึก” ได้ตามสถานการณ์ เช่น ฝ่ายบริการลูกค้าง่าย ๆ ใช้โหมด minimal เพื่อคุมต้นทุน ส่วนงานที่ซับซ้อนจะเปลี่ยนไปใช้ xhigh เพื่อแลกกับคุณภาพการให้เหตุผลระดับ GPT-5
เผยแพร่โมเดลเฉพาะทางอีก 2 รุ่นควบคู่กัน:Translate แปลข้ามภาษา และ Whisper สำหรับสตรีมถอดเสียงแบบเรียลไทม์
การแบ่งหน้าที่ของโมเดลใหม่ทั้ง 3 รุ่นในรอบนี้:
GPT-Realtime-Translate:แปลเสียงหลายภาษาแบบทันที รองรับ 70 ภาษาอินพุต และ 13 ภาษาสำหรับเอาต์พุต
GPT-Realtime-Whisper:ถอดเสียงแบบสตรีมหน่วงต่ำ พูดไปแล้วได้ข้อความออกมาทันที เหมาะสำหรับซับไตเติลแบบเรียลไทม์ บันทึกการประชุม และสคริปต์คำต่อคำในห้องเรียน
GPT-Realtime-2:เอเจนต์สนทนาแบบครบวงจร ให้เหตุผลได้ ใช้เครื่องมือได้ และสามารถดำเนินการตามคำสั่งได้
Translate และ Whisper คือการทำให้โมเดลเฉพาะทางสำหรับงานเสียงที่เจาะจง—ความไวต่อความหน่วงและต้นทุนสำหรับการแปลและการถอดเสียงสูงกว่าการสนทนาเอนกประสงค์ ดังนั้นการใช้โมเดลแยกกันจึงช่วยปรับให้เหมาะกับตัวชี้วัดของแต่ละงานได้ดีขึ้น
ราคา:GPT-Realtime-2 อินพุต 32 ดอลลาร์ต่อ 1 ล้านครั้ง และเอาต์พุต 64 ดอลลาร์ต่อ 1 ล้านครั้ง
โครงสร้างราคาของทั้ง 3 โมเดล:
GPT-Realtime-2:อินพุตเสียง 32 ดอลลาร์ต่อ 1 ล้านครั้ง, cached input 0.40 ดอลลาร์, เอาต์พุต 64 ดอลลาร์
GPT-Realtime-Translate:0.034 ดอลลาร์ต่อนาที
GPT-Realtime-Whisper:0.017 ดอลลาร์ต่อนาที
เหตุการณ์ที่ติดตามได้ในภายหลัง:การนำ GPT-Realtime-2 ไปใช้จริงในสภาพแวดล้อมการทำงานแบบเสียงของเอเจนต์ ระดับการเข้ามาทดแทน (cannibalization) เมื่อเทียบกับโมเดลเสียง GPT-4o เดิม และปฏิกิริยาการตอบโต้จากคู่แข่งอย่าง Anthropic, Google และอื่น ๆ
บทความนี้ที่ OpenAI ปล่อย GPT-Realtime-2:นำการให้เหตุผลระดับ GPT-5 เข้าสู่ voice agent และอัปเกรด context เป็น 128K ปรากฏเป็นครั้งแรกบน ChainNews ABMedia
news.related.news
NVIDIA เปิดตัว Nemotron 3 Nano Omni แบบโอเพนซอร์สหลายรูปแบบ
งาน OpenAI DevDay 2026 จะจัดขึ้นที่ซานฟรานซิสโกในวันที่ 29/9
OpenAI เปิดตัว ChatGPT Futures: นักศึกษารุ่นแรก 26 คน ได้รับทุน 10,000 ดอลลาร์ สหรัฐ ครอบคลุมมากกว่า 20 แห่งมหาวิทยาลัย
OpenAI เปิดเผยโปรโตคอลเครือข่ายซูเปอร์คอมพิวเตอร์ MRC! ร่วมมือกับ Nvidia, AMD และ Microsoft เพื่อสร้างโครงสร้างพื้นฐานของ Stargate
ChatGPT เปิดตัวบน Excel และ Google Sheets: GPT-5.5 เข้าสู่สเปรดชีตได้ทันที ปะทะ Copilot และ Gemini แบบสามฝ่าย