Dalam sepuluh tahun terakhir, kita terbiasa mengukur kemajuan kecerdasan buatan dengan “apakah jawaban tepat atau tidak”: memberikan pertanyaan ke model, membandingkan jawaban dengan standar, lalu menilai dan langsung menentukan hasilnya. Tapi logika ini sedang kehilangan relevansi dengan cepat. Karena peran AI telah berubah — ia tidak lagi sekadar alat pasif yang menjawab pertanyaan, melainkan mulai menjadi pelaku yang “melakukan sendiri”. Dari merencanakan jadwal otomatis, memanggil alat eksternal, hingga membuat beberapa keputusan secara berurutan dalam tugas yang kompleks, generasi AI terbaru secara bertahap mengambil alih alur kerja yang sebelumnya dilakukan manusia.
Dunia tanpa jawaban standar, mengapa ujian tidak lagi efektif
Pertanyaan pun muncul: jika AI tidak hanya menghasilkan satu jawaban, tetapi menyelesaikan seluruh tugas, apakah kita masih bisa menilai dengan standar benar-salah seperti ujian? Ketika sebuah tugas tidak memiliki solusi tunggal, bahkan AI mungkin mencapai tujuan dengan cara yang “di luar prediksi, tetapi lebih efektif”, metode penilaian tradisional malah bisa menganggap keberhasilan sebagai kegagalan. Ini bukan hanya detail teknis, melainkan sebuah tantangan sistemik — cara penilaian sedang menentukan apakah AI akan belajar memecahkan masalah, atau hanya belajar mengikuti aturan.
Fokus penilaian, beralih dari hasil ke proses
Untuk mengatasi masalah ini, komunitas riset AI akhir-akhir ini mulai menyepakati satu hal: menilai AI tidak cukup hanya dari hasilnya, tetapi harus melihat “bagaimana caranya”. Dalam penelitian terbaru dan pengalaman praktis, fokus penilaian secara bertahap beralih dari jawaban tunggal ke seluruh proses tindakan — bagaimana AI memahami tugas, bagaimana memecah langkah, kapan memanggil alat, dan apakah mampu menyesuaikan strategi saat lingkungan berubah. Dengan kata lain, AI tidak lagi sekadar peserta ujian yang dinilai, melainkan lebih mirip asisten yang sedang menjalankan tugas, dan sistem penilaian harus mampu menilai apakah AI benar-benar menuju tujuan yang tepat, bukan hanya memeriksa apakah mengikuti instruksi secara kaku. Perubahan ini juga berarti bahwa “penilaian” sendiri sedang menjadi kunci untuk menentukan apakah AI dapat berjalan dengan aman menuju aplikasi nyata.
Sebuah evaluasi AI sebenarnya adalah sebuah eksperimen tindakan
Dalam konteks ini, tim riset termasuk Anthropic mulai memandang “evaluasi AI” sebagai sebuah eksperimen tindakan lengkap, bukan sekadar satu soal. Secara praktis, para peneliti akan merancang sebuah skenario tugas yang membutuhkan banyak langkah keputusan dan kolaborasi alat, lalu membiarkan AI menyelesaikan dari awal hingga akhir secara mandiri, sambil merekam setiap penilaian, setiap tindakan, dan penyesuaian strategi yang dilakukan. Proses ini seperti sebuah ujian praktik yang direkam secara lengkap.
Penilaian yang sesungguhnya terjadi setelah tugas selesai
Sistem penilaian akan meninjau rekaman lengkap dari seluruh tindakan tersebut, dan menilai apakah AI telah mencapai “tujuan sejati”, bukan sekadar mengikuti proses yang dirancang sebelumnya. Untuk menghindari ketidakakuratan dari satu standar tunggal, penilaian biasanya menggabungkan berbagai metode: bagian yang bisa dinilai dengan aturan program otomatis, bagian yang membutuhkan pemahaman makna dan strategi, akan dibantu oleh model lain untuk menilai, dan jika perlu, melibatkan pakar manusia untuk kalibrasi. Desain seperti ini dirancang untuk menanggapi satu situasi nyata — ketika solusi AI mulai lebih fleksibel daripada proses yang dirancang manusia, sistem penilaian sendiri harus mampu memahami bahwa “keberhasilan tidak hanya satu bentuk”.
Penilaian bukan pengukuran statis, tetapi membentuk arah perilaku AI
Namun, desain penilaian sendiri juga mengandung risiko. Karena penilaian sebenarnya juga melatih AI “bagaimana seharusnya menjadi”. Jika standar penilaian terlalu menekankan kepatuhan proses, AI mungkin akan belajar solusi yang panjang dan aman; jika hanya melihat hasil tanpa memperhatikan proses, sistem bisa cenderung mencari celah, mengambil jalan pintas, bahkan mengadopsi strategi yang mungkin tidak dapat diterima manusia. Penilaian bukanlah pengukuran netral, melainkan sebuah panduan nilai terselubung — jika arahnya salah, bisa mendorong AI ke kondisi “skor tinggi, perilaku tidak terkendali”.
Optimisasi yang keliru: AI bukan menjadi lebih bodoh, melainkan lebih mahir melakukan kesalahan
Ini juga alasan komunitas riset sangat waspada terhadap masalah “optimisasi keliru” dalam beberapa tahun terakhir: ketika model terus-menerus diperkuat dengan target penilaian yang salah, ia tidak akan menjadi lebih bodoh, malah menjadi lebih mahir melakukan hal yang salah secara ekstrem. Bias ini sering tidak langsung terlihat, baru muncul saat AI diterapkan di dunia nyata dan memikul tanggung jawab lebih besar. Pada titik ini, masalahnya bukan lagi kualitas produk, tetapi keamanan, tanggung jawab, dan kepercayaan yang masih bisa dipertahankan.
Mengapa ini bukan hanya masalah insinyur
Bagi orang awam, penilaian AI mungkin terdengar seperti detail teknis antar insinyur, tetapi dampaknya adalah apakah kita akan dikendalikan oleh “sistem yang tampak cerdas, tetapi salah arah”. Ketika AI mulai mengatur jadwal, menyaring informasi, menjalankan transaksi, bahkan mempengaruhi keputusan publik dan pribadi, cara menilai “apakah AI melakukan dengan baik” tidak lagi sekadar peringkat model, tetapi menjadi dasar keandalan, prediktabilitas, dan kepercayaan. AI akan menjadi asisten yang layak diandalkan, atau hanya sistem kotak hitam yang mengikuti aturan, tergantung dari standar penilaian yang ditetapkan sejak awal. Oleh karena itu, ketika AI mulai melakukan sendiri, bagaimana menilainya bukan lagi urusan internal teknologi, tetapi isu publik yang harus dihadapi oleh setiap orang yang akan hidup berdampingan dengan AI.
Artikel ini “AI mulai sendiri melakukan tugasnya” oleh Anthropic menjelaskan: Bagaimana manusia harus menilai apakah AI melakukan dengan baik atau tidak? Pertama kali muncul di ABMedia.