OpenAI เปิดตัว LifeSciBench เพื่อประเมิน AI บนงานวิจัยจริง ประกอบด้วยรายการที่เขียนโดยผู้เชี่ยวชาญ 750 รายการ ใน 7 สาขาวิชาชีววิทยา

ตามประกาศอย่างเป็นทางการของ OpenAI ในวันที่ 20 มิถุนายน บริษัทได้เปิดตัว LifeSciBench ซึ่งเป็นเกณฑ์การประเมินใหม่ที่ออกแบบมาเพื่อประเมินระบบ AI ในงานวิจัยทางวิทยาศาสตร์ในโลกความเป็นจริง เกณฑ์ดังกล่าวประกอบด้วย 750 งานที่ผู้เชี่ยวชาญเขียนขึ้นเอง ครอบคลุม 7 เวิร์กโฟลว์การวิจัย และ 7 สาขาวิชาในด้านชีววิทยา โดยจัดทำโดยนักวิจัยระดับปริญญาเอก 173 คนที่มีประสบการณ์ในอุตสาหกรรมไบโอเทคหรือเภสัชกรรม

มากกว่า 79% ของงานต้องใช้การให้เหตุผลแบบหลายขั้นตอน โดยเฉลี่ยประมาณ 4 ขั้นตอนของการให้เหตุผลต่อคำถาม หน่วยประเมินยังรวมไฟล์แนบข้อมูลวิจัยจริงจำนวน 1,062 รายการ เช่น เอกสาร แผนภูมิ ข้อมูลลำดับ และไฟล์เชิงโครงสร้าง เพื่อเน้นความสามารถในการวิจัยที่ซับซ้อน รวมถึงการบูรณาการหลักฐาน การออกแบบการทดลอง การวิเคราะห์ข้อมูล การให้เหตุผลทางวิทยาศาสตร์ และการสื่อสารงานวิจัย มากกว่าคำถามข้อเท็จจริงแบบง่ายๆ

news.article.disclaimer
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น