За даними Odaily, OpenAI випустила LifeSciBench — новий оціночний бенчмарк, який складається з 750 завдань, написаних експертами, у межах 7 науково-дослідницьких робочих процесів і 7 біологічних доменів. Бенчмарк розробили 173 дослідники з PhD та досвідом у біотехнологічній або фармацевтичній індустріях.
Понад 79% завдань вимагають багатокрокового міркування, у середньому 4 кроки міркування на завдання, а також 1 062 реальні наукові додатки з даними, включно з статтями, графіками, даними послідовностей і структурними файлами. Бенчмарк оцінює складні дослідницькі можливості, такі як інтеграція доказів, експериментальний дизайн, аналіз даних, наукове міркування та дослідницька комунікація.