بحسب الإعلان الرسمي من OpenAI في 20 يونيو، أطلقت الشركة LifeSciBench، وهو معيار تقييم جديد صُمم لقياس أداء أنظمة الذكاء الاصطناعي في مهام بحث علمي واقعية. يتألف المعيار من 750 مهمة مكتوبة بواسطة خبراء، تغطي 7 مسارات بحثية و7 مجالات في علم الأحياء، تم إعدادها بواسطة 173 باحثاً على مستوى الدكتوراه ذوي خبرة في قطاع التكنولوجيا الحيوية أو الصناعة الدوائية.
تتطلب أكثر من 79% من المهام استدلالاً متعدد الخطوات، بمتوسط يقارب 4 خطوات استدلال لكل سؤال. يتضمن المعيار 1,062 مرفقاً حقيقياً لبيانات بحثية مثل الأوراق والجداول والبيانات التسلسلية والملفات الهيكلية، مع التركيز على القدرات البحثية المعقدة بما في ذلك دمج الأدلة، وتصميم التجارب، وتحليل البيانات، والاستدلال العلمي، والتواصل البحثي، وليس مجرد أسئلة معلوماتية بسيطة.