GPT-5.5 กลับมาล้ำหน้าในการเขียนโค้ด แต่ OpenAI เปลี่ยนเกณฑ์มาตรฐานหลังแพ้ Opus 4.7

ข่าวประจำเกต 27 เมษายน — SemiAnalysis บริษัทวิเคราะห์เซมิคอนดักเตอร์และ AI ได้เผยแพร่มาตรฐานเปรียบเทียบเชิงเปรียบเทียบของผู้ช่วยการเขียนโค้ด รวมถึง GPT-5.5, Claude Opus 4.7 และ DeepSeek V4 ผลค้นหาที่สำคัญ: GPT-5.5 แสดงถึงการกลับสู่ขอบล้ำในการพัฒนาโมเดลการเขียนโค้ดของ OpenAI เป็นครั้งแรกในรอบหกเดือน โดยวิศวกรของ SemiAnalysis ตอนนี้สลับไปมาระหว่าง Codex และ Claude Code หลังจากก่อนหน้านี้พึ่งพา Claude เกือบทั้งหมด GPT-5.5 อ้างอิงจากแนวทางการพรีเทรนแบบใหม่ที่มีชื่อรหัสว่า “Spud” และถือเป็นการขยายขนาดการพรีเทรนครั้งแรกของ OpenAI นับตั้งแต่ GPT-4.5.

ในการทดสอบเชิงปฏิบัติที่ชัดเจน ได้แยกบทบาทออกมาอย่างชัดเจน Claude จัดการการวางแผนโครงการใหม่และการตั้งค่าเริ่มต้น ในขณะที่ Codex โดดเด่นสำหรับการแก้บั๊กที่ต้องใช้การให้เหตุผลหนักๆ Codex แสดงความเข้าใจโครงสร้างข้อมูลและการให้เหตุผลเชิงตรรกะที่แข็งแกร่งกว่า แต่กลับมีปัญหาในการคาดเดาความตั้งใจของผู้ใช้ที่ไม่ชัดเจน ในงานที่คล้ายกันบนแดชบอร์ดเดียว Claude คัดลอกเค้าโครงหน้าจากตัวอย่างได้โดยอัตโนมัติแต่ได้สร้างข้อมูลจำนวนมากขึ้นมา ในขณะที่ Codex ข้ามเรื่องเค้าโครงแต่ให้ข้อมูลที่แม่นยำกว่ามาก

การวิเคราะห์เผยรายละเอียดเกี่ยวกับการปรับแต่งเกณฑ์มาตรฐาน: โพสต์บล็อกของ OpenAI ในเดือนกุมภาพันธ์ได้เรียกร้องให้วงการนำ SWE-bench Pro มาเป็นมาตรฐานใหม่สำหรับการประเมินเกณฑ์การเขียนโค้ด อย่างไรก็ตาม การประกาศของ GPT-5.5 ได้เปลี่ยนไปใช้เกณฑ์มาตรฐานใหม่ที่ชื่อ “Expert-SWE” เหตุผล—ซ่อนอยู่ในส่วนปลีกย่อย—คือ GPT-5.5 ถูก Opus 4.7 แซงบน SWE-bench Pro และทำผลงานได้ต่ำกว่ามากเมื่อเทียบกับ Mythos ที่ยังไม่เผยแพร่ของ Anthropic (77.8%).

สำหรับ Opus 4.7 Anthropic เผยแพร่การวิเคราะห์สรุปหลังเหตุการณ์ (postmortem) หนึ่งสัปดาห์หลังการเปิดตัว โดยยอมรับบั๊กสามจุดใน Claude Code ที่ยังคงอยู่ต่อเนื่องเป็นเวลาหลายสัปดาห์ตั้งแต่เดือนมีนาคมถึงเมษายน ส่งผลกระทบต่อผู้ใช้งานเกือบทั้งหมด วิศวกรหลายคนเคยรายงานว่าประสิทธิภาพลดลงในเวอร์ชัน 4.6 มาก่อน แต่ถูกมองว่าเป็นข้อสังเกตเชิงอัตวิสัย นอกจากนี้ โทเคไนเซอร์ใหม่ของ Opus 4.7 เพิ่มการใช้งานโทเคนได้สูงถึง 35% ซึ่ง Anthropic ยอมรับอย่างตรงไปตรงมา—ซึ่งเท่ากับเป็นการขึ้นราคาที่ซ่อนอยู่โดยปริยาย

DeepSeek V4 ถูกประเมินว่า “ตามทันความก้าวหน้าในระดับแนวหน้าแต่ไม่ได้เป็นผู้นำ” โดยวางตำแหน่งตัวเองเป็นทางเลือกที่มีต้นทุนต่ำที่สุดในบรรดาโมเดลที่ปิดซอร์ส การวิเคราะห์ยังระบุว่า “Claude ยังคงทำผลงานได้ดีกว่า DeepSeek V4 Pro ในงานเขียนภาษาจีนที่มีความยากสูง” โดยแสดงความคิดเห็นว่า “Claude ชนะโมเดลภาษาจีนในภาษาเดียวกับที่มันใช้”

บทความนำเสนอแนวคิดสำคัญว่า ควรประเมินราคาของโมเดลด้วย “ต้นทุนต่อหนึ่งงาน” แทนที่จะเป็น “ต้นทุนต่อหนึ่งโทเคน” ราคาของ GPT-5.5 เป็นสองเท่าของ GPT-5.4 (input $5, output $30 per million tokens) แต่ทำงานเดียวกันได้โดยใช้โทเคนน้อยกว่า ดังนั้นต้นทุนที่แท้จริงจึงไม่ได้จำเป็นต้องสูงขึ้น ข้อมูลเบื้องต้นจาก SemiAnalysis แสดงว่าอัตราส่วนอินพุตต่อเอาต์พุตของ Codex อยู่ที่ 80:1 ต่ำกว่าของ Claude Code ที่ 100:1.

news.article.disclaimer

btc.bar.articles

อินเดียเตือนความเสี่ยงด้านไซเบอร์ ขณะที่ AI Mythos ของ Anthropic ฝ่ากำแพงป้องกันได้ใน 83 จาก 100 กรณีทดสอบ

ตามรายงานของ The Economic Times หน่วยงานด้านความปลอดภัยไซเบอร์ของอินเดียเพิ่งออกคำเตือนระดับความรุนแรงสูง หลังจากที่ AI Mythos ของ Anthropic แสดงให้เห็นว่าสามารถค้นพบช่องโหว่ได้หลายหมื่นรายการ และแปลงบั๊กซอฟต์แวร์ให้กลายเป็นการโจมตีที่นำไปใช้ประโยชน์ได้ภายในไม่กี่นาที Palo Alto Networks' Unit 42 และ

GateNews44 นาที ที่แล้ว

นักลงทุนถือหุ้น 1 หุ้นเพิ่มเป็น 480 หุ้น โอกาสในการเข้าลงทุนก่อนการแตกพาร์หุ้นรอบถัดไปของ Nvidia อยู่ที่ตอนนี้หรือไม่?

บทความทบทวนการที่ Nvidia มีการแตกหุ้นหลายครั้งตั้งแต่เข้าจดทะเบียนในปี 1999 ทำให้จำนวนหุ้นที่ถืออยู่ในช่วงแรกเพิ่มขึ้นจากการแตกหุ้นเป็น 480 หุ้น และในปี 2024 ได้มีการปรับราคาโดยทำ 10 แยก 1 ส่งผลให้ราคาหุ้นอยู่ที่ราว 120 ดอลลาร์สหรัฐ ภายใต้แรงหนุนจากความต้องการโครงสร้างพื้นฐานด้าน AI ทั่วโลก ทำให้ Nvidia กลายเป็นผู้จัดหาหลักให้กับศูนย์ข้อมูล โดยมูลค่าตลาดเข้าใกล้ 5 ล้านล้านดอลลาร์ และแรงส่งการเติบโตยังคงแข็งแกร่ง นักวิเคราะห์คาดการณ์ว่าการแตกหุ้นครั้งถัดไปจะขึ้นอยู่กับราคาหุ้นและผลการเติบโต ปัจจุบันราคาหุ้นอยู่ที่ประมาณ 198 ดอลลาร์สหรัฐ หากยังคงเติบโตอย่างต่อเนื่อง หรืออาจมีโอกาสในการเข้าลงทุนครั้งใหม่ แต่เป็นเพียงการสังเกตของตลาด ไม่ใช่คำแนะนำการลงทุน

ChainNewsAbmedia51 นาที ที่แล้ว

Google, VNG เปิดตัว Applied AI Lab ในเวียดนาม วันที่ 4 พฤษภาคม

ตามที่ VNG Corporation, Google, VNG และมหาวิทยาลัยแห่งชาติเวียดนาม เมืองโฮจิมินห์ ได้เปิดตัว Applied AI Lab ในเวียดนามผ่าน Saigon AI Hub เมื่อวันที่ 4 พฤษภาคม Google Labs และ AI Future Funds จะมอบการเข้าถึงเทคโนโลยีของ Google ล่วงหน้าสำหรับทีมที่ได้รับการคัดเลือก พร้อมการสนับสนุนด้านเทคนิคจาก Google และ

GateNews54 นาที ที่แล้ว

Anthropic Partners, BlackRock และ Goldman Sachs เตรียมเปิดตัวบริษัทร่วมทุนที่ปรึกษา AI พร้อมการลงทุน 1.5 พันล้านดอลลาร์

ตามรายงานของ WSJ ระบุว่า Anthropic กำลังเร่งปิดดีลเพื่อเปิดตัวกิจการร่วมทุนกับ BlackRock, Goldman Sachs และบริษัทในวอลสตรีทอื่นๆ ในวันจันทร์ โดยมีเป้าหมายเพื่อขายเครื่องมือปัญญาประดิษฐ์ให้กับบริษัทที่ได้รับการหนุนโดยไพรเวทอิควิตี้ ทั้งนี้ กิจการร่วมทุนดังกล่าวคาดว่าจะทำหน้าที่เป็นหน่วยงานให้คำปรึกษาของ Anthropic

GateNews1 ชั่วโมง ที่แล้ว

จีนบล็อกการเข้าซื้อกิจการ US$2B Manus AI ของ Meta

จีนประกาศว่าจะระงับการเข้าซื้อกิจการของ Meta มูลค่า 2 พันล้านดอลลาร์สหรัฐสำหรับบริษัทผู้พัฒนาเอเจนต์ AI ชื่อ Manus โดยอ้างถึงความกังวลเรื่องการโอนทรัพย์สินทางปัญญาด้านปัญญาประดิษฐ์ของจีนไปยังบริษัทในสหรัฐ ตามรายงานของ Tech in Asia Manus เป็นบริษัทที่ก่อตั้งในจีน และได้ย้ายสำนักงานใหญ่ไปยัง

CryptoFrontier1 ชั่วโมง ที่แล้ว

รายงานของ The Information ระบุว่า Tencent ใช้ Claude Code ของ Anthropic ในการฝึกโมเดล Hy3 ล่าสุด

ตามรายงานของ The Information โดยอ้างอิงบันทึกภายในของ Tencent และแหล่งข่าว พนักงานของ Tencent ใช้ Anthropic's Claude Code ระหว่างช่วงหลังการฝึก (post-training) ของ Hy3 ซึ่งเป็นโมเดลภาษาขนาดใหญ่ (large language model) ล่าสุดของบริษัท ทั้งที่ Anthropic ได้ห้ามบริการเชิงพาณิชย์สำหรับบริษัทในจีนอย่างชัดเจน โดยอ้างถึงเหตุผลด้านความมั่นคงแห่งชาติ

GateNews2 ชั่วโมง ที่แล้ว
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น