20 июня, согласно официальному объявлению OpenAI, компания выпустила LifeSciBench — новый оценочный бенчмарк, предназначенный для проверки ИИ-систем на реальных задачах из научных исследований. Бенчмарк включает 750 задач, написанных экспертами, и охватывает 7 исследовательских рабочих процессов и 7 биологических областей; он создан 173 исследователями на уровне Ph.D. с опытом в биотехнологической или фармацевтической отрасли.
Более 79% задач требуют многошагового рассуждения, в среднем примерно по 4 шагa рассуждений на вопрос. В бенчмарк входят 1 062 реальных вложения с данными исследований, такие как статьи, графики, последовательностные данные и структурные файлы. Он акцентирует сложные исследовательские возможности, включая интеграцию доказательств, экспериментальный дизайн, анализ данных, научное рассуждение и исследовательскую коммуникацию, а не простые вопросы на факты.