Гарвардське дослідження опубліковане в Science: OpenAI o1 точність діагностики швидкої допомоги становить 67%, перевершуючи двох людських лікарів

Гарвардська медична школа у співпраці з Beth Israel Deaconess Medical Center опублікували дослідження у журналі «Science», яке тестувало діагностичні можливості моделі OpenAI o1 на 76 реальних пацієнтах швидкої допомоги. Результати показали, що точність o1 досягла 67%, що значно перевищує 55% та 50% двох внутрішніх лікарів-спеціалістів. Однак дослідники одночасно висловили важливі застереження: контрольна група не складалася з лікарів-екстрених спеціалістів, і дослідження не стверджує, що штучний інтелект здатен приймати життєво важливі рішення у реальних ситуаціях.
(Передісторія: дослідження Каліфорнійського університету про «AI-розумову хмару»: 14% офісних працівників злітають з розуму через агентів та автоматизацію, 40% мають намір звільнитися)
(Додатковий контекст: автор «Короткої історії людства»: AI стає загрозою, він руйнує системи людської цивілізації! Як ядерна зброя)

Стаття з Гарвардської медичної школи тихо з’явилася у престижному науковому журналі «Science», що переводить обговорення медичного AI із демонстраційних платформ у реальні клінічні дослідження.

Це дослідження, проведене Гарвардською медичною школою у співпраці з Beth Israel Deaconess Medical Center, базується на історіях 76 реальних пацієнтів швидкої допомоги. Вони порівнювали діагнози, поставлені OpenAI o1, GPT-4o та двома внутрішніми лікарями-спеціалістами. Оцінка базувалася на відсотку випадків, коли відповідь була «точною або дуже близькою до правильної».

Результати викликали здивування — точність o1 склала 67%, тоді як два лікарі — відповідно 55% і 50%. GPT-4o також був включений у порівняння, але показав меншу стабільність і поступався o1.

У чому сильна сторона o1?

Дослідники особливо підкреслюють, що найбільша різниця між o1 і лікарями спостерігалася на етапі «первинної класифікації пацієнтів (triage)» — тобто у момент, коли пацієнт тільки прибув до швидкої допомоги, і інформації було найменше, а невизначеність — найвища.

У цьому сценарії o1 має аналізувати текстовий опис скарг, симптомів і життєвих показників, щоб сформувати попередній напрямок діагностики. Це саме зона сильних сторін великих мовних моделей: розпізнавання шаблонів у структурованому тексті, швидка інтеграція знань з різних галузей, а також здатність давати логічні висновки за умов неповної інформації.

GPT-4o, хоча й брав участь у порівняльних тестах, у тих самих умовах показав меншу стабільність і поступався o1. Вчені вважають, що це пов’язано з більш складною структурою логічних ланцюгів у o1.

З точки зору значущості, це вже не просто «AI переміг у бенчмарках» — дані взяті з реальних історій швидкої допомоги, а не з штучно створених тестів, що додає цим результатам клінічної ваги.

Не ведіться на заголовки: три важливі передумови, які потрібно знати

Перед широким обговоренням цього дослідження варто зупинитись і чітко усвідомити три моменти.

Перше, контрольна група не складалася з лікарів-екстрених спеціалістів. У тесті порівнювалися два внутрішні лікарі-спеціалісти, а не фахівці швидкої допомоги. Основна складність у швидкій допомозі — це високий тиск, багатозадачність і фрагментація інформації, тому внутрішні лікарі не є найкращою базою для порівняння. Саме структура дослідження вже піддається критиці.

Друге, це «текстовий triage», а не реальна мультимодальна швидка допомога. Керівник дослідження чітко заявив: «Це лише текстове сортування, а не реальна мультимодальна швидка допомога». У реальності швидка допомога включає зображення, фізичний огляд, комунікацію на місці, екстрені маніпуляції — ці аспекти наразі недоступні для великих мовних моделей.

Третє, команда дослідників сама не стверджує, що AI вже здатен приймати життєво важливі рішення. Публікуючи результати, вони одночасно підкреслюють обмеження дослідження і не рекомендують застосовувати AI для безпосереднього клінічного діагностування.

З точки зору технічного прогресу: це справді важливий технічний рубіж — у «структурованому текстовому діагностуванні» AI вже може перевищувати окремих лікарів у певних сценаріях. Але між «точністю у лабораторних умовах» і «реальним застосуванням у медичній практиці» ще стоять регуляторні питання, відповідальність, інтеграція з системами закладу та — найскладніше — хто нестиме відповідальність за помилки. Технічний бар’єр, можливо, вже подолано, але реальне впровадження медичного AI — це ще довгий шлях.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити