จากผลการทดสอบเกณฑ์มาตรฐานล่าสุดของ Datadog และ Carnegie Mellon GPT-5 ทำคะแนนได้ 62.7% ในการทดสอบ ARFBench ขณะที่ยังต่ำกว่าผู้เชี่ยวชาญด้านโดเมนของมนุษย์ที่ทำได้ 72.7% ARFBench เป็นเกณฑ์มาตรฐานด้าน AI ชุดแรกที่สร้างจากเหตุการณ์จริงในงานผลิต 63 เหตุการณ์ ประกอบด้วยคำถามแบบเลือกตอบ 750 ข้อ ครอบคลุมตัวชี้วัดการเฝ้าระวัง 142 รายการ และข้อมูล 5.38 ล้านจุด—ไม่มีข้อมูลสังเคราะห์
โมเดล AI ประสบความยากที่สุดในด้านการให้เหตุผลข้ามตัวชี้วัด (คำถามระดับ Tier III) ซึ่ง GPT-5 ได้คะแนน F1 เพียง 47.5% ส่วนโมเดลเชิงทฤษฎีที่ทำหน้าที่เป็นผู้เชี่ยวชาญแบบ oracle ซึ่งผสานทั้ง AI และการตัดสินของมนุษย์ ทำได้ 87.2% สะท้อนว่าการทำงานร่วมกันอาจทำได้ดีกว่าแบบใดแบบหนึ่งเพียงอย่างเดียว Datadog ใช้โมเดลแบบผสม Toto-1.0-QA-Experimental ครองอันดับสูงสุดด้วยความแม่นยำ 63.9% โดยทำผลงานได้ดีกว่า GPT-5 ในการระบุความผิดปกติ
news.related.news
รูป F.03 ช่วงเวลา 81 ชั่วโมงติดต่อกันที่ไม่มีการคัดแยกพัสดุ 101,391 ชิ้น
มอลตาให้ประชาชนใช้ ChatGPT Plus ฟรี 1 ปี: ความร่วมมือระดับประเทศแห่งแรกของ OpenAI
Anthropic หารือการแข่งขัน AI ระหว่างสหรัฐและจีน: จีนที่นำหน้าอาจกลายเป็นภัยคุกคามต่อโลก คำแนะนำ 3 ข้อเพื่อเสริมความแข็งแกร่ง “คูเมือง” ของสหรัฐ