OpenAI Phát hành LifeSciBench để Đánh giá AI trên Các Nhiệm vụ Nghiên cứu Thực tế, Bao gồm 750 Mục do Chuyên gia Viết trên 7 Lĩnh vực Sinh học

Theo thông báo chính thức của OpenAI vào ngày 20/6, công ty đã phát hành LifeSciBench, một bộ tiêu chuẩn đánh giá mới nhằm đo lường hiệu suất các hệ thống AI trên các tác vụ nghiên cứu khoa học trong thế giới thực. Bộ tiêu chuẩn bao gồm 750 tác vụ do các chuyên gia viết, trải rộng trên 7 quy trình nghiên cứu và 7 lĩnh vực sinh học, được tạo ra bởi 173 nhà nghiên cứu cấp Ph.D. có kinh nghiệm trong lĩnh vực công nghệ sinh học hoặc công nghiệp dược phẩm.

Hơn 79% số tác vụ yêu cầu suy luận theo nhiều bước, với mức trung bình khoảng 4 bước suy luận cho mỗi câu hỏi. Bộ tiêu chuẩn bao gồm 1.062 tệp dữ liệu nghiên cứu thực như bài báo, biểu đồ, dữ liệu chuỗi và các tệp cấu trúc, nhấn mạnh năng lực nghiên cứu phức tạp bao gồm tích hợp bằng chứng, thiết kế thí nghiệm, phân tích dữ liệu, suy luận khoa học và truyền thông nghiên cứu, thay vì các câu hỏi chỉ cần nắm thông tin đơn thuần.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ các nguồn bên thứ ba và chỉ mang tính chất tham khảo. Thông tin này không phản ánh quan điểm hoặc ý kiến của Gate và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Giao dịch tài sản ảo tiềm ẩn rủi ro cao. Vui lòng không chỉ dựa vào thông tin trên trang này khi đưa ra quyết định. Để biết thêm chi tiết, vui lòng xem Tuyên bố miễn trừ trách nhiệm.
Bình luận
0/400
Không có bình luận