Odailyによると、OpenAIが新たな評価ベンチマーク「LifeSciBench」をリリースしました。これは、7つの科学研究ワークフローと7つの生物学領域にまたがる、専門家が書いた750のタスクで構成されています。このベンチマークは、バイオテクノロジーまたは製薬業界での経験を持つ博士号(PhD)を有する173人の研究者によって開発されました。
79%以上のタスクはマルチステップ推論を必要とし、タスクあたり平均4つの推論ステップです。また、論文、チャート、配列データ、構造ファイルなど、1,062件の実データの添付が含まれています。このベンチマークは、エビデンス統合、実験設計、データ分析、科学的推論、研究コミュニケーションといった複雑な研究能力を評価します。