OpenAI Rilis LifeSciBench dengan 750 Tugas Ahli untuk Mengevaluasi AI dalam Alur Kerja Ilmiah Nyata

Menurut Odaily, OpenAI merilis LifeSciBench, sebuah tolok ukur evaluasi baru yang terdiri dari 750 tugas yang ditulis oleh para ahli, mencakup 7 alur kerja penelitian ilmiah dan 7 domain biologi. Tolok ukur ini dikembangkan oleh 173 peneliti bergelar PhD dengan pengalaman di industri biotech atau farmasi.

Lebih dari 79% tugas memerlukan penalaran bertahap dengan rata-rata 4 langkah penalaran per tugas, dengan 1.062 lampiran data ilmiah nyata yang mencakup makalah, bagan, data sekuens, dan file struktural. Tolok ukur ini menilai kemampuan riset yang kompleks seperti integrasi bukti, perancangan eksperimen, analisis data, penalaran ilmiah, dan komunikasi riset.

Penafian: Informasi di halaman ini mungkin berasal dari sumber pihak ketiga dan hanya untuk referensi. Ini tidak mewakili pandangan atau pendapat Gate dan bukan merupakan nasihat keuangan, investasi, atau hukum. Perdagangan aset virtual melibatkan risiko tinggi. Mohon jangan hanya mengandalkan informasi di halaman ini saat membuat keputusan. Untuk detailnya, lihat Penafian.
Komentar
0/400
Tidak ada komentar