Menurut Odaily, OpenAI merilis LifeSciBench, sebuah tolok ukur evaluasi baru yang terdiri dari 750 tugas yang ditulis oleh para ahli, mencakup 7 alur kerja penelitian ilmiah dan 7 domain biologi. Tolok ukur ini dikembangkan oleh 173 peneliti bergelar PhD dengan pengalaman di industri biotech atau farmasi.
Lebih dari 79% tugas memerlukan penalaran bertahap dengan rata-rata 4 langkah penalaran per tugas, dengan 1.062 lampiran data ilmiah nyata yang mencakup makalah, bagan, data sekuens, dan file struktural. Tolok ukur ini menilai kemampuan riset yang kompleks seperti integrasi bukti, perancangan eksperimen, analisis data, penalaran ilmiah, dan komunikasi riset.