De acordo com a Odaily, a OpenAI lançou o LifeSciBench, uma nova referência de avaliação que inclui 750 tarefas escritas por especialistas, abrangendo 7 fluxos de trabalho de investigação científica e 7 domínios de biologia. A referência foi desenvolvida por 173 investigadores com doutoramento (PhDs) e experiência nas indústrias de biotecnologia ou farmacêutica.
Mais de 79% das tarefas exigem raciocínio em múltiplos passos, com uma média de 4 passos de raciocínio por tarefa, e 1.062 anexos de dados científicos reais, incluindo artigos, gráficos, dados de sequências e ficheiros estruturais. A referência avalia capacidades complexas de investigação, como integração de evidências, desenho experimental, análise de dados, raciocínio científico e comunicação de investigação.