ตามประกาศอย่างเป็นทางการของ OpenAI ในวันที่ 20 มิถุนายน บริษัทได้เปิดตัว LifeSciBench ซึ่งเป็นเกณฑ์การประเมินใหม่ที่ออกแบบมาเพื่อประเมินระบบ AI ในงานวิจัยทางวิทยาศาสตร์ในโลกความเป็นจริง เกณฑ์ดังกล่าวประกอบด้วย 750 งานที่ผู้เชี่ยวชาญเขียนขึ้นเอง ครอบคลุม 7 เวิร์กโฟลว์การวิจัย และ 7 สาขาวิชาในด้านชีววิทยา โดยจัดทำโดยนักวิจัยระดับปริญญาเอก 173 คนที่มีประสบการณ์ในอุตสาหกรรมไบโอเทคหรือเภสัชกรรม
มากกว่า 79% ของงานต้องใช้การให้เหตุผลแบบหลายขั้นตอน โดยเฉลี่ยประมาณ 4 ขั้นตอนของการให้เหตุผลต่อคำถาม หน่วยประเมินยังรวมไฟล์แนบข้อมูลวิจัยจริงจำนวน 1,062 รายการ เช่น เอกสาร แผนภูมิ ข้อมูลลำดับ และไฟล์เชิงโครงสร้าง เพื่อเน้นความสามารถในการวิจัยที่ซับซ้อน รวมถึงการบูรณาการหลักฐาน การออกแบบการทดลอง การวิเคราะห์ข้อมูล การให้เหตุผลทางวิทยาศาสตร์ และการสื่อสารงานวิจัย มากกว่าคำถามข้อเท็จจริงแบบง่ายๆ