OpenAI lanza LifeSciBench con 750 tareas de expertos para evaluar la IA en flujos de trabajo científicos reales

De acuerdo con Odaily, OpenAI lanzó LifeSciBench, un nuevo benchmark de evaluación que incluye 750 tareas escritas por expertos, abarcando 7 flujos de trabajo de investigación científica y 7 dominios de biología. El benchmark fue desarrollado por 173 investigadores con doctorado y experiencia en industrias de biotecnología o farmacéutica.

Más del 79% de las tareas requieren razonamiento en múltiples pasos, con un promedio de 4 pasos de razonamiento por tarea, e incluye 1.062 adjuntos de datos científicos reales, como artículos, gráficos, datos de secuencia y archivos estructurales. El benchmark evalúa capacidades complejas de investigación, como la integración de evidencia, el diseño experimental, el análisis de datos, el razonamiento científico y la comunicación de investigaciones.

Aviso legal: La información en esta página puede provenir de fuentes de terceros y es solo para referencia. No representa las opiniones ni puntos de vista de Gate y no constituye asesoramiento financiero, de inversión ni legal. El comercio de activos virtuales implica un alto riesgo. No te bases únicamente en la información presentada en esta página para tomar decisiones. Para más detalles, consulta el Aviso legal.
Comentar
0/400
Sin comentarios