据 Odaily 报道,OpenAI 发布了 LifeSciBench,这是一项新的评估基准,包含 750 项由专家撰写的任务,覆盖 7 个科学研究工作流程和 7 个生物学领域。该基准由 173 名拥有博士学位、并具有生物技术或制药行业经验的研究人员开发。
其中超过 79% 的任务需要多步骤推理,每个任务平均包含 4 个推理步骤,并配有 1,062 份真实的科学数据附件,包括论文、图表、序列数据和结构文件。该基准用于评估复杂研究能力,例如证据整合、实验设计、数据分析、科学推理以及研究沟通。
相关快讯
Algorand 计划在 2027 年底前实现抗量子区块链
Midjourney 推出医疗影像部门,配备超声 CT 扫描仪
B2Prime 在 B2TRADER 平台推出 AI 助手用于市场分析