
Perusahaan audit keamanan blockchain OpenZeppelin melakukan audit independen terhadap standar pengujian keamanan kontrak pintar AI EVMbench yang diluncurkan bekerja sama dengan OpenAI dan Paradigm, dan menemukan dua masalah serius: pencemaran data pelatihan dan setidaknya 4 kategori kerentanan yang ditandai sebagai “kerentanan berisiko tinggi” sebenarnya adalah palsu.
EVMbench dirilis pada pertengahan Februari 2026, bertujuan untuk menilai kemampuan berbagai model AI dalam mengenali, memperbaiki, dan memanfaatkan kerentanan kontrak pintar. Selama pengujian, akses jaringan agen AI diputuskan untuk mencegah pencarian jawaban dari internet. Namun, audit dari OpenZeppelin mengungkapkan celah struktural: standar pengujian ini didasarkan pada kerentanan yang ditemukan selama 120 audit dari pertengahan 2024 hingga 2025, dan sebagian besar model AI teratas juga memiliki batas waktu pelatihan yang berakhir pada pertengahan 2025.
Ini berarti agen AI kemungkinan telah mengakses laporan kerentanan EVMbench selama pelatihan awal, dan jawaban dari semua pertanyaan mungkin sudah tersimpan dalam memori mereka. OpenZeppelin menyatakan: “Kemampuan terpenting dalam keamanan AI adalah kemampuan untuk menemukan kerentanan baru dalam kode yang belum pernah dilihat sebelumnya.” Skala dataset yang terbatas semakin memperbesar dampak pencemaran ini terhadap penilaian keseluruhan.
Pencemaran data pelatihan: Kemungkinan agen AI telah mempelajari laporan kerentanan EVMbench selama pelatihan awal, membuat pengujian “penemuan nol pengetahuan” menjadi tidak berarti.
Kategori kerentanan berisiko tinggi palsu: Setidaknya 4 kerentanan yang ditandai sebagai berisiko tinggi sebenarnya tidak dapat dieksploitasi.
Kelemahan sistem penilaian: Sebelumnya, EVMbench memberi poin untuk AI yang menemukan kerentanan palsu ini, sehingga dasar penilaian menjadi bermasalah.
Skala dataset terbatas: Memperbesar dampak pencemaran terhadap hasil penilaian secara keseluruhan.
Peringkat saat ini: Anthropic dengan Claude 4.6 memimpin, diikuti oleh OpenAI dengan OC-GPT-5.2 dan Google dengan Gemini 3 Pro.
Selain pencemaran data, OpenZeppelin juga menemukan kesalahan fakta yang lebih spesifik. Mereka menilai minimal 4 kerentanan yang diklasifikasikan sebagai berisiko tinggi oleh EVMbench ternyata tidak ada—lebih penting lagi, cara eksploitasi yang dideskripsikan sama sekali tidak efektif.
OpenZeppelin menyatakan, “Ini bukan perbedaan subjektif tentang tingkat keparahan; melainkan bahwa metode eksploitasi yang dideskripsikan tidak berhasil.” Jika agen AI “menemukan” kerentanan palsu ini selama pengujian, itu berarti sistem penilaian memberi penghargaan atas hasil yang salah.
OpenZeppelin menegaskan bahwa audit ini bukan untuk menolak potensi AI dalam keamanan blockchain: “Masalahnya bukan apakah AI akan mengubah keamanan kontrak pintar—tentu saja akan. Masalahnya adalah apakah data dan standar pengujian yang kita gunakan untuk membangun dan menilai alat ini sesuai dengan standar yang mereka coba lindungi.”
OpenZeppelin menemukan dua masalah utama: pertama, pencemaran data pelatihan, karena laporan kerentanan EVMbench berasal dari audit antara 2024 dan 2025 yang tumpang tindih dengan batas waktu pelatihan model AI, sehingga model mungkin sudah “melihat” jawaban selama pelatihan; kedua, setidaknya 4 kerentanan berisiko tinggi yang ditandai ternyata palsu dan tidak dapat dieksploitasi.
Jika model AI telah mengakses laporan kerentanan selama pelatihan, mereka mungkin hanya mengingat jawaban daripada benar-benar menemukan kerentanan. Ini membuat pengujian kehilangan makna sebagai “pengujian nol pengetahuan” dan tidak mampu secara akurat menilai kemampuan AI dalam melakukan audit keamanan kontrak pintar yang benar-benar baru dan tidak dikenal.
OpenZeppelin secara tegas menyatakan bahwa AI akan berdampak besar pada keamanan kontrak pintar, tetapi dampak ini harus didasarkan pada metodologi yang dapat dipercaya dan penilaian yang akurat. Mereka melihat masalah pada EVMbench sebagai peringatan penting bagi standar industri, bukan penolakan terhadap potensi AI.
Artikel Terkait
Polisi Spanyol menghancurkan sebuah tambang Bitcoin ilegal, diduga melakukan penipuan listrik lebih dari 860.000 euro
Upgrade Pi Network v19.9 Membuka Jalan untuk Peluncuran Pi DEX
Lido menghentikan sementara pengisian jembatan ZKsync menimbulkan kekhawatiran keamanan, LDO dan ZK keduanya melemah
Eks polisi LAPD dihukum karena mencuri cryptocurrency senilai $350.000 dan penculikan
Perdana Menteri Jepang, Takashi Sanae, mengklarifikasi bahwa dia tidak terkait dengan Meme Coin yang memiliki nama yang sama, dan token tersebut langsung jatuh lebih dari 85%
Mantan Petugas LAPD Dinyatakan Bersalah atas Perampokan Bitcoin '$350K ' dengan Serangan Kunci Inggris