Laut Odaily hat OpenAI LifeSciBench veröffentlicht, einen neuen Bewertungsmaßstab mit 750 von Experten verfassten Aufgaben, die 7 wissenschaftliche Forschungs-Workflows und 7 Biologie-Domänen abdecken. Der Benchmark wurde von 173 Forschern mit PhDs entwickelt, die Erfahrung in der Biotech- oder Pharmaindustrie haben.
Mehr als 79% der Aufgaben erfordern mehrstufiges Denken, im Schnitt 4 Denkschritte pro Aufgabe, mit 1.062 echten wissenschaftlichen Datenanhängen, darunter Papers, Diagramme, Sequenzdaten und strukturierte Dateien. Der Benchmark bewertet komplexe Forschungsfähigkeiten wie Evidenzintegration, Versuchsdesign, Datenanalyse, wissenschaftliches Schlussfolgern und Forschungskommunikation.