ตามประกาศอย่างเป็นทางการของ OpenAI ในวันที่ 20 มิถุนายน บริษัทได้เปิดตัว LifeSciBench ซึ่งเป็นเกณฑ์การประเมินใหม่ที่ออกแบบมาเพื่อประเมินระบบ AI ในงานวิจัยทางวิทยาศาสตร์ในโลกความเป็นจริง เกณฑ์ดังกล่าวประกอบด้วย 750 งานที่ผู้เชี่ยวชาญเขียนขึ้นเอง ครอบคลุม 7 เวิร์กโฟลว์การวิจัย และ 7 สาขาวิชาในด้านชีววิทยา โดยจัดทำโดยนักวิจัยระดับปริญญาเอก 173 คนที่มีประสบการณ์ในอุตสาหกรรมไบโอเทคหรือเภสัชกรรม

มากกว่า 79% ของงานต้องใช้การให้เหตุผลแบบหลายขั้นตอน โดยเฉลี่ยประมาณ 4 ขั้นตอนของการให้เหตุผลต่อคำถาม หน่วยประเมินยังรวมไฟล์แนบข้อมูลวิจัยจริงจำนวน 1,062 รายการ เช่น เอกสาร แผนภูมิ ข้อมูลลำดับ และไฟล์เชิงโครงสร้าง เพื่อเน้นความสามารถในการวิจัยที่ซับซ้อน รวมถึงการบูรณาการหลักฐาน การออกแบบการทดลอง การวิเคราะห์ข้อมูล การให้เหตุผลทางวิทยาศาสตร์ และการสื่อสารงานวิจัย มากกว่าคำถามข้อเท็จจริงแบบง่ายๆ

news.view.source

news.article.disclaimer

news.related.news

06-19 18:22

เวลาในการตอบของ ChatGPT พุ่งแตะ 60+ นาทีในการทดสอบ GPT-5.6 แบบ A/B ที่คาดว่าเกิดขึ้นสัปดาห์นี้

06-19 15:30

OpenAI เปิดตัว LifeSciBench พร้อม 750 งานสำหรับผู้เชี่ยวชาญ เพื่อประเมิน AI ในเวิร์กโฟลว์งานวิทยาศาสตร์จริง

06-19 08:21

Perplexity เปิดตัวระบบหน่วยความจำ Brain AI พร้อมยกระดับความแม่นยำของคำตอบขึ้น 25%

06-19 06:14

OpenAI เปิดตัวการวิเคราะห์การใช้งานและตัวควบคุมค่าใช้จ่ายสำหรับ ChatGPT Enterprise

06-17 12:00