Ringkasan Utama
OpenAI meluncurkan EVMbench, sistem benchmarking baru yang dikembangkan bersama Paradigm untuk menguji bagaimana model AI canggih mendeteksi, memperbaiki, dan mengeksploitasi kerentanan dalam kontrak pintar Ethereum.
Hasil awal menunjukkan adanya “Kesenjangan Eksploitasi,” di mana model-model teratas saat ini lebih baik dalam melakukan serangan daripada melakukan audit menyeluruh atau memperbaiki kerentanan — menyoroti kemajuan AI yang cepat dan risiko yang muncul.
EVMbench dapat mendefinisikan ulang standar keamanan kripto, memungkinkan audit berkelanjutan berbasis AI untuk tim DeFi dan memberikan jaminan tingkat institusional saat miliaran aset bergerak di on-chain.
Dalam konvergensi besar antara Kecerdasan Buatan dan teknologi blockchain, OpenAI secara resmi meluncurkan EVMbench. Dikembangkan melalui kemitraan strategis dengan raksasa investasi kripto Paradigm, sistem benchmarking ini dirancang untuk menguji secara ketat bagaimana agen AI mengidentifikasi, mengeksploitasi, dan memperbaiki kerentanan dalam ekosistem Ethereum Virtual Machine (EVM).
Dengan lebih dari $100 miliar aset kripto sumber terbuka saat ini diamankan oleh kontrak pintar, taruhannya belum pernah sebesar ini. EVMbench mewakili pergeseran proaktif menuju penggunaan “model frontier” untuk melindungi decentralized finance (DeFi) dari ancaman siber yang semakin canggih.
Sumber: openai
EVMbench melampaui analisis kode statis dengan mengevaluasi agen AI melalui tiga mode operasional berisiko tinggi. Siklus “Deteksi-Patch-Eksploitasi” ini meniru alur kerja dunia nyata dari seorang peneliti keamanan tingkat atas.
1. Mode Deteksi (Pengaudit): Agen memindai repositori kode kompleks untuk menemukan kerentanan tersembunyi. Keberhasilan diukur melalui “Recall”—kemampuan menemukan masalah “kebenaran dasar”—dan imbalan bug bounty simulasi.
2. Mode Patch (Insinyur): Setelah menemukan bug, agen harus menulis ulang kode. Benchmark ini menggunakan rangkaian pengujian otomatis untuk memastikan patch memperbaiki kerentanan tanpa merusak fungsi asli kontrak.
3. Mode Eksploitasi (Penyerang): Dalam sandbox Anvil yang aman, agen mencoba melakukan serangan end-to-end untuk menguras dana. Ini mengukur kemampuan penalaran ofensif agen dan kemampuannya untuk “mengaitkan” kerentanan kecil menjadi pelanggaran besar.
Sumber: openai
EVMbench tidak didasarkan pada teka-teki teoretis. Ia dibangun dari perpustakaan yang dikurasi berisi 120 kerentanan tingkat tinggi yang diambil dari 40 audit profesional. Banyak data berasal dari kompetisi audit dunia nyata (seperti Code4rena) dan proses keamanan internal dari blockchain Tempo milik Paradigm.
Dengan fokus pada kontrak “berorientasi pembayaran,” benchmark ini memastikan model AI diuji secara ketat terhadap jenis kode yang menangani miliaran modal cair.
Pengujian internal OpenAI mengungkapkan percepatan mencengangkan dalam kemampuan AI. Dalam beberapa bulan saja, model-model tingkat atas telah berkembang dari kesulitan dengan logika dasar menjadi mampu melakukan eksploitasi multi-langkah yang kompleks.
“Kesenjangan Eksploitasi”: Menariknya, agen saat ini tampil jauh lebih baik dalam mengeksploitasi (72,2%) daripada memperbaiki atau mendeteksi. Peneliti OpenAI mencatat bahwa agen unggul saat diberikan satu tujuan eksplisit—seperti “menguras dana”—namun membutuhkan penalaran yang lebih halus untuk menangani tugas audit yang rumit dan berkelanjutan.
Sumber: Openai
Bagi ekosistem kripto yang lebih luas, EVMbench lebih dari sekadar skor; ini adalah pendorong untuk pengembangan “Keamanan-Kiri”—mengintegrasikan audit tingkat elit langsung ke dalam proses pengkodean daripada menunggu audit pasca-deploy.
Keamanan yang Didesentralisasi: Tim DeFi kecil yang tidak mampu membayar audit manual seharga $200k dapat menggunakan agen AI bersertifikat EVMbench untuk review kode berkelanjutan dan berkualitas tinggi.
Kesiapan Institusional: Saat raksasa TradFi seperti Goldman Sachs dan Franklin Templeton beralih ke on-chain, mereka membutuhkan standar “Emas” dari tata kelola AI yang dapat disediakan oleh benchmark standar ini.
Tantangan Dual-Use: Dengan membuka sumber benchmark ini, OpenAI dan Paradigm memberi alat kepada “pihak baik” untuk mengukur dan mengungguli “pihak jahat,” sambil menjaga kerangka kerja “Akses Tepercaya untuk Siber” guna memantau risiko yang muncul.
Meskipun EVMbench adalah langkah revolusioner, saat ini terbatas pada lingkungan deterministik dan sandbox. Iterasi mendatang diharapkan akan mengintegrasikan ketergantungan multi-chain dan pertimbangan MEV (Maximal Extractable Value) untuk mensimulasikan lebih baik “Hutan Gelap” dari mainnet Ethereum yang nyata.
Seiring agen AI beralih dari “menulis kode” ke “mengamankan ekonomi,” EVMbench berdiri sebagai tolok ukur utama untuk generasi berikutnya dari kepercayaan tanpa pihak ketiga.
Disclaimer: Pandangan dan analisis yang disajikan dalam artikel ini hanya untuk tujuan informasi dan mencerminkan perspektif penulis, bukan nasihat keuangan. Pola dan indikator teknis yang dibahas dapat dipengaruhi volatilitas pasar dan mungkin atau mungkin tidak menghasilkan hasil yang diharapkan. Investor disarankan berhati-hati, melakukan riset independen, dan membuat keputusan sesuai toleransi risiko masing-masing.
Tentang Penulis: Nilesh Hembade adalah Pendiri dan Penulis Utama Coinsprobe, dengan pengalaman lebih dari 5 tahun di industri cryptocurrency dan blockchain. Sejak meluncurkan Coinsprobe pada 2023, ia menyediakan wawasan harian berbasis riset melalui analisis pasar mendalam, data on-chain, dan riset teknis.