ووفقاً لOdaily، أصدرت OpenAI LifeSciBench، وهو معيار تقييم جديد يضم 750 مهمة مكتوبة من خبراء، تغطي 7 مسارات لبحث علمي و7 مجالات في علم الأحياء. تم تطوير المعيار بواسطة 173 باحثاً حاصلين على الدكتوراه، مع خبرة في صناعات التكنولوجيا الحيوية أو الأدوية.
تتطلب أكثر من 79% من المهام تفكيراً متعدد الخطوات، بمتوسط 4 خطوات استدلال لكل مهمة، مع 1,062 مرفق بيانات علمية حقيقية تشمل أوراقاً بحثية ورسوماً بيانية وبيانات تسلسل وملفات بنيوية. يقيم المعيار قدرات بحثية معقدة مثل دمج الأدلة، وتصميم التجارب، وتحليل البيانات، والاستدلال العلمي، والتواصل البحثي.