私たちは最近、Claude Opus 4.6による脆弱性が原因で177万ドルの攻撃を目撃しました。
cbETHは$$1 ではなく、$2,000で価格設定されていました。
その後すぐに@OpenAIがEVMbenchをリリースしました。簡単に言えば、これはAIエージェントがスマートコントラクトとやり取りする能力を評価するベンチマークです。
主な評価モードは3つあります:
> Detect:脆弱性を検出するエージェントの能力を分析
> Patch:脆弱性を修正するエージェントの能力を分析
> Exploit:脆弱性を悪用するエージェントの能力を分析
彼らの分析によると、最近のモデル(Opus 4.6、GPT-5.3-Codexなど)は、脆弱性を悪用するのに非常に優れている一方で、検出と修正は弱いことがわかりました。
これはまさに私が最新モデルで自分のエージェントを動かして観察していることと一致します。私のエージェントチームでは、常に完全なコンテキストを得る監査エージェントを含めており、主な目的は脆弱性を見つけることです。
脆弱性を見つけると、開発者エージェントが簡単に修正します。
しかし問題は、10個の脆弱性のうち、3つしか見つけられないことです。現時点では、エージェントに脆弱性を適切に検出させることはできません。
このベンチマークをリリースするのは非常に強力な動きです。私も自分のエー
原文表示