20 июня, согласно официальному объявлению OpenAI, компания выпустила LifeSciBench — новый оценочный бенчмарк, предназначенный для проверки ИИ-систем на реальных задачах из научных исследований. Бенчмарк включает 750 задач, написанных экспертами, и охватывает 7 исследовательских рабочих процессов и 7 биологических областей; он создан 173 исследователями на уровне Ph.D. с опытом в биотехнологической или фармацевтической отрасли.

Более 79% задач требуют многошагового рассуждения, в среднем примерно по 4 шагa рассуждений на вопрос. В бенчмарк входят 1 062 реальных вложения с данными исследований, такие как статьи, графики, последовательностные данные и структурные файлы. Он акцентирует сложные исследовательские возможности, включая интеграцию доказательств, экспериментальный дизайн, анализ данных, научное рассуждение и исследовательскую коммуникацию, а не простые вопросы на факты.

Посмотреть источник

Дисклеймер: Информация на этой странице может быть получена из источников третьих сторон и предоставляется только для ознакомления. Она не отражает взгляды или мнения Gate и не является финансовой, инвестиционной или юридической рекомендацией. Торговля виртуальными активами связана с высоким риском. Пожалуйста, не основывайте свои решения исключительно на данных этой страницы. Подробнее смотрите в Дисклеймере.

Связанные новости

21ч назад

Время ответа ChatGPT достигало 60+ минут в предполагаемом A/B-тесте GPT-5.6 на этой неделе

06-19 15:30

OpenAI выпустила LifeSciBench с 750 экспертными задачами для оценки ИИ в реальных научных рабочих процессах

06-19 08:21

Perplexity запускает систему памяти Brain AI, повышая точность ответов на 25%

06-19 06:14

OpenAI запускает аналитику использования и контроль расходов для ChatGPT Enterprise

06-17 12:00

Ornn запускает индексы бенчмарков стоимости токенов для моделей Anthropic и OpenAI

Детальный анализ