จากผลการทดสอบเกณฑ์มาตรฐานล่าสุดของ Datadog และ Carnegie Mellon GPT-5 ทำคะแนนได้ 62.7% ในการทดสอบ ARFBench ขณะที่ยังต่ำกว่าผู้เชี่ยวชาญด้านโดเมนของมนุษย์ที่ทำได้ 72.7% ARFBench เป็นเกณฑ์มาตรฐานด้าน AI ชุดแรกที่สร้างจากเหตุการณ์จริงในงานผลิต 63 เหตุการณ์ ประกอบด้วยคำถามแบบเลือกตอบ 750 ข้อ ครอบคลุมตัวชี้วัดการเฝ้าระวัง 142 รายการ และข้อมูล 5.38 ล้านจุด—ไม่มีข้อมูลสังเคราะห์

โมเดล AI ประสบความยากที่สุดในด้านการให้เหตุผลข้ามตัวชี้วัด (คำถามระดับ Tier III) ซึ่ง GPT-5 ได้คะแนน F1 เพียง 47.5% ส่วนโมเดลเชิงทฤษฎีที่ทำหน้าที่เป็นผู้เชี่ยวชาญแบบ oracle ซึ่งผสานทั้ง AI และการตัดสินของมนุษย์ ทำได้ 87.2% สะท้อนว่าการทำงานร่วมกันอาจทำได้ดีกว่าแบบใดแบบหนึ่งเพียงอย่างเดียว Datadog ใช้โมเดลแบบผสม Toto-1.0-QA-Experimental ครองอันดับสูงสุดด้วยความแม่นยำ 63.9% โดยทำผลงานได้ดีกว่า GPT-5 ในการระบุความผิดปกติ

news.view.source

news.article.disclaimer

news.related.news

14 ชั่วโมง ที่แล้ว

Elliptic ระดมทุน $120M สำหรับแพลตฟอร์มการกำกับดูแลที่ขับเคลื่อนด้วย AI ท่ามกลางความกังวลด้านความปลอดภัยที่เพิ่มขึ้น

17 ชั่วโมง ที่แล้ว

Anthropic เตรียมยื่นสรุปให้ FSB เกี่ยวกับข้อค้นพบด้านความปลอดภัยทางไซเบอร์ของโมเดล AI Mythos; FSB จะเปิดตัวรายงานแนวปฏิบัติที่ดีที่สุดสำหรับ AI ในเดือนหน้า

18 ชั่วโมง ที่แล้ว

มนุษย์เอาชนะหุ่นยนต์ Figure AI ในความท้าทายคัดแยกพัสดุเป็นเวลา 10 ชั่วโมงในวันที่ 18 พฤษภาคม

19 ชั่วโมง ที่แล้ว

โมเดล AI ของจีนสร้างคำขอมากกว่าสหรัฐ 1.81 เท่า; ทูเซนต์ Hy3 พรีวิวพุ่งขึ้น 210% เพื่อขึ้นนำ

05-17 06:31