Nghiên cứu của Harvard đăng trên Science: Chẩn đoán cấp cứu của OpenAI o1 chính xác 67%, đã vượt qua hai bác sĩ nhân loại

Hà Harvard Y học viện và Beth Israel Deaconess Medical Center hợp tác nhóm đã công bố nghiên cứu trên tạp chí Science, sử dụng mẫu gồm 76 bệnh nhân cấp cứu để kiểm tra khả năng chẩn đoán quyết định của mô hình OpenAI o1. Kết quả cho thấy độ chính xác của o1 đạt 67%, rõ ràng vượt xa hai bác sĩ nội khoa chính phụ lần lượt là 55% và 50%. Tuy nhiên, các nhà nghiên cứu đồng thời phát đi cảnh báo quan trọng: nhóm đối chứng không phải là bác sĩ chuyên khoa cấp cứu, và nghiên cứu cũng không khẳng định AI đã có thể đưa ra quyết định sinh tử trong thực tế.

(Tiền đề: Nghiên cứu của Đại học California về hiện tượng “Sương mù AI”: 14% nhân viên văn phòng bị Agent, tự động hóa làm phát điên, ý định nghỉ việc cao tới 40%)

(Bổ sung nền: Tác giả Lược sử loài người nói rằng: AI đang trở thành mối đe dọa, nó xâm phạm hệ thống vận hành của nền văn minh loài người! Như vũ khí hạt nhân)

Một bài báo từ Harvard Y học lặng lẽ đăng tên trên tạp chí hàng đầu Science, đưa cuộc thảo luận về AI y tế từ sân khấu demo chính thức bước vào vòng nghiên cứu lâm sàng.

Nghiên cứu này do Harvard Y học phối hợp với Beth Israel Deaconess Medical Center thực hiện, dựa trên dữ liệu hồ sơ bệnh án của 76 bệnh nhân cấp cứu thực tế, lần lượt để OpenAI o1, GPT-4o, và hai bác sĩ nội khoa chính phụ chẩn đoán từng ca. Tiêu chuẩn đánh giá là tỷ lệ “đưa ra câu trả lời chính xác hoặc rất gần đúng”.

Kết quả cuối cùng khiến nhiều người phải dừng lại nhìn kỹ hơn — độ chính xác của o1 đạt 67%, còn hai bác sĩ lần lượt là 55%50%. GPT-4o cũng được đưa vào so sánh, nhưng hiệu suất thấp hơn o1.

o1 mạnh ở điểm nào?

Nhóm nghiên cứu đặc biệt nhấn mạnh, sự khác biệt rõ rệt nhất giữa o1 và bác sĩ xuất hiện ở giai đoạn “phân loại sơ bộ” (triage) — tức là lúc bệnh nhân mới vào viện, thông tin ít ỏi, độ không chắc chắn cao nhất.

Trong tình huống này, o1 cần dựa vào mô tả bằng văn bản về triệu chứng, dấu hiệu sinh tồn, để tổng hợp hướng chẩn đoán sơ bộ. Đây chính là lĩnh vực mạnh của mô hình ngôn ngữ lớn: nhận dạng mẫu trong văn bản có cấu trúc, tích hợp kiến thức đa lĩnh vực nhanh chóng, và khả năng đưa ra lý luận có hệ thống ngay khi thông tin còn thiếu.

GPT-4o dù cũng tham gia thử nghiệm đối chứng, nhưng trong điều kiện tương tự lại thể hiện không ổn định bằng o1, khoảng cách với bác sĩ cũng nhỏ hơn. Các nhà nghiên cứu cho rằng, điều này liên quan trực tiếp đến cấu trúc suy luận chuỗi mạnh mẽ hơn của o1.

Về ý nghĩa nghiên cứu, đây không còn chỉ là câu chuyện “AI thắng trong benchmark” — mẫu dữ liệu lấy từ hồ sơ cấp cứu thực tế, chứ không phải đề thi do con người thiết kế, khiến con số này có giá trị tham chiếu lâm sàng nhất định.

Đừng để tiêu đề đánh lừa: Ba điều bạn cần biết trước

Trước khi nghiên cứu này gây tranh luận rộng rãi, có ba việc cần chậm lại để xác nhận rõ ràng.

Thứ nhất, nhóm đối chứng không phải là bác sĩ chuyên khoa cấp cứu. Trong thử nghiệm, hai bác sĩ so sánh là “bác sĩ nội khoa chính phụ”, chứ không phải bác sĩ ER có đào tạo chuyên sâu về cấp cứu. Thực tế, chẩn đoán cấp cứu đòi hỏi khả năng xử lý trong môi trường áp lực cao, đa tác vụ, thông tin rời rạc — nội khoa vốn không phải là tiêu chuẩn so sánh tối ưu trong bối cảnh này — nên khung so sánh của nghiên cứu có thể còn tranh cãi.

Thứ hai, đây là “phân loại sơ bộ bằng văn bản”, không phải là thực tế đa phương thức của phòng cấp cứu. Trưởng nhóm nghiên cứu rõ ràng nhấn mạnh: “Đây chỉ là phân loại sơ bộ dựa trên văn bản, không thể thay thế thực tế đa phương thức của ER.” Trong thực tế, cấp cứu còn bao gồm đọc hình ảnh, quan sát lâm sàng, giao tiếp trực tiếp, thao tác cấp cứu — những lĩnh vực mà mô hình ngôn ngữ lớn hiện tại chưa thể can thiệp.

Thứ ba, nhóm nghiên cứu không tự ý khẳng định AI đã có thể đưa ra quyết định sinh tử. Khi công bố kết quả, các nhà nghiên cứu đồng thời nhấn mạnh giới hạn của nghiên cứu này, không đề xuất áp dụng AI chẩn đoán trực tiếp vào thực hành lâm sàng.

Từ góc độ ứng dụng, đây thực sự là một bước tiến công nghệ — trong lĩnh vực “chẩn đoán bằng văn bản có cấu trúc”, AI đã có khả năng vượt qua một số bác sĩ trong tình huống đặc thù. Nhưng từ “độ chính xác phòng thí nghiệm” đến “triển khai thực tế trong bệnh viện” còn cách rất xa, còn phải giải quyết các vấn đề về pháp lý, trách nhiệm, tích hợp hệ thống nội bộ, và — điều khó nhất — ai sẽ chịu trách nhiệm khi xảy ra sai sót. Mức độ kỹ thuật có thể đã vượt qua, nhưng thách thức để AI y tế thực sự đi vào thực tế còn rất nhiều.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim