Penelitian Harvard diterbitkan di Science: OpenAI o1 tingkat akurasi diagnosis darurat 67%, mengalahkan dua dokter manusia

Harvard Medical School dan Beth Israel Deaconess Medical Center mengumumkan sebuah studi yang diterbitkan di jurnal Science, menggunakan sampel 76 pasien gawat darurat untuk menguji kemampuan pengambilan keputusan diagnosis dari model OpenAI o1. Hasilnya menunjukkan bahwa akurasi o1 mencapai 67%, secara signifikan lebih baik dari dua dokter spesialis penyakit dalam yang masing-masing mencapai 55% dan 50%. Namun, para peneliti juga menyampaikan peringatan penting secara bersamaan: kelompok pembanding bukanlah dokter spesialis gawat darurat, dan studi ini tidak menyatakan bahwa AI sudah mampu membuat keputusan hidup-mati dalam situasi nyata.
(Latar belakang: Penelitian University of California tentang fenomena “AI Brain Fog”: 14% pekerja kantor terganggu oleh agen dan otomatisasi, keinginan keluar kerja meningkat 40%)
(Tambahan latar: Penulis Sapiens menyatakan: AI mulai menjadi ancaman, merusak sistem operasi peradaban manusia! Seperti senjata nuklir)

Sebuah makalah dari Harvard Medical School secara diam-diam menempatkan namanya di jurnal akademik terkemuka Science, menandai bahwa diskusi tentang AI medis secara resmi memasuki ranah penelitian klinis dari sekadar demonstrasi.

Studi ini, yang dilakukan oleh Harvard Medical School bersama Beth Israel Deaconess Medical Center, menggunakan data rekam medis 76 pasien gawat darurat nyata sebagai sampel pengujian, dan membandingkan diagnosis dari OpenAI o1, GPT-4o, serta dua dokter spesialis penyakit dalam untuk setiap kasus. Standar penilaian adalah: proporsi jawaban yang diberikan sebagai “akurasi tepat atau sangat mendekati benar”.

Angka akhirnya membuat banyak orang berhenti dan memperhatikan lagi—akurasi o1 mencapai 67%, sedangkan dua dokter manusia masing-masing di angka 55% dan 50%. GPT-4o juga dimasukkan sebagai pembanding, tetapi performanya di bawah o1.

Apa keunggulan o1 di bagian mana?

Tim peneliti secara khusus menunjukkan bahwa perbedaan paling mencolok antara o1 dan dokter manusia terjadi pada tahap “triage awal”—yaitu saat pasien baru masuk ke UGD, dengan informasi paling minim dan ketidakpastian tertinggi.

Dalam situasi ini, o1 harus mengintegrasikan deskripsi teks tentang keluhan utama, gejala, tanda vital, dan merumuskan arah diagnosis awal. Ini tepat berada di area kekuatan model bahasa besar: pengenalan pola dari teks terstruktur, integrasi pengetahuan lintas disiplin secara cepat, dan kemampuan memberikan reasoning yang terstruktur meskipun informasi tidak lengkap.

GPT-4o meskipun juga ikut dalam pengujian pembanding, dalam kondisi yang sama performanya tidak se-stabil o1, dan jarak dengan dokter juga relatif lebih kecil. Peneliti berpendapat, ini terkait langsung dengan struktur reasoning chain yang lebih kuat dari o1.

Dari segi makna penelitian, ini bukan lagi sekadar cerita “AI menang di benchmark”—sampel berasal dari catatan nyata pasien gawat darurat, bukan soal tes buatan, sehingga angka ini memiliki nilai referensi klinis tertentu.

Jangan tertipu headline: Tiga hal yang harus kamu ketahui sebagai prasyarat

Sebelum studi ini memicu diskusi luas, ada tiga hal yang patut kita perlambat dan pastikan dulu.

Pertama, kelompok pembanding bukan dokter spesialis gawat darurat. Dua dokter yang digunakan untuk perbandingan adalah “dokter penyakit dalam”, bukan dokter ER yang memiliki pelatihan khusus di bidang gawat darurat. Diagnosa di UGD memang sangat menantang karena situasi yang penuh tekanan, multitasking, dan fragmentasi informasi—dokter penyakit dalam di situasi ini bukanlah standar pembanding terbaik—kerangka perbandingan studi ini sendiri bisa dipertanyakan.

Kedua, ini adalah “triage teks”, bukan situasi nyata gawat darurat multimodal. Kepala peneliti secara tegas menyatakan: “Ini hanyalah triage berbasis teks, tidak sama dengan situasi ER multimodal yang sesungguhnya.” UGD nyata melibatkan interpretasi gambar, observasi fisik, komunikasi langsung, tindakan darurat—semua aspek yang saat ini belum bisa diintervensi oleh model bahasa besar.

Ketiga, tim peneliti sendiri tidak mengklaim AI sudah mampu membuat keputusan hidup-mati. Saat merilis hasil, mereka juga menegaskan keterbatasan studi ini dan tidak menyarankan AI diagnosis langsung diterapkan dalam praktik klinis.

Dari sudut pandang praktis: studi ini memang menandai sebuah tonggak teknologi nyata—dalam jalur “diagnosis berbasis teks terstruktur”, AI sudah mampu melampaui dokter manusia dalam konteks tertentu. Tapi dari “akurasi laboratorium” ke “implementasi di lapangan medis”, masih ada banyak tantangan: regulasi, tanggung jawab multi-modal, integrasi sistem rumah sakit, dan—yang paling sulit—siapa yang bertanggung jawab saat terjadi kesalahan. Mungkin secara teknis sudah bisa, tapi penerapan AI medis yang sesungguhnya baru akan dimulai tantangannya.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan