GPT-5 ทำความแม่นยำได้ 62.7% ในเหตุขัดข้องระดับการใช้งานจริง แต่ยังต่ำกว่าเกณฑ์ฐานของผู้เชี่ยวชาญที่ 72.7%

จากผลการทดสอบเกณฑ์มาตรฐานล่าสุดของ Datadog และ Carnegie Mellon GPT-5 ทำคะแนนได้ 62.7% ในการทดสอบ ARFBench ขณะที่ยังต่ำกว่าผู้เชี่ยวชาญด้านโดเมนของมนุษย์ที่ทำได้ 72.7% ARFBench เป็นเกณฑ์มาตรฐานด้าน AI ชุดแรกที่สร้างจากเหตุการณ์จริงในงานผลิต 63 เหตุการณ์ ประกอบด้วยคำถามแบบเลือกตอบ 750 ข้อ ครอบคลุมตัวชี้วัดการเฝ้าระวัง 142 รายการ และข้อมูล 5.38 ล้านจุด—ไม่มีข้อมูลสังเคราะห์

โมเดล AI ประสบความยากที่สุดในด้านการให้เหตุผลข้ามตัวชี้วัด (คำถามระดับ Tier III) ซึ่ง GPT-5 ได้คะแนน F1 เพียง 47.5% ส่วนโมเดลเชิงทฤษฎีที่ทำหน้าที่เป็นผู้เชี่ยวชาญแบบ oracle ซึ่งผสานทั้ง AI และการตัดสินของมนุษย์ ทำได้ 87.2% สะท้อนว่าการทำงานร่วมกันอาจทำได้ดีกว่าแบบใดแบบหนึ่งเพียงอย่างเดียว Datadog ใช้โมเดลแบบผสม Toto-1.0-QA-Experimental ครองอันดับสูงสุดด้วยความแม่นยำ 63.9% โดยทำผลงานได้ดีกว่า GPT-5 ในการระบุความผิดปกติ

news.article.disclaimer

news.related.news

แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น