我们最近看到一起由Claude Opus 4.6编写的漏洞导致的178万美元的攻击事件。


cbETH的价格为$1 ,而不是2000美元。
不久之后,@OpenAI@推出了EVMbench。简单来说,它是一个评估AI代理与智能合约交互能力的基准测试。

它有3个主要评估模式:
> 检测:分析代理检测漏洞的能力
> 修补:分析代理修复漏洞的能力
> 利用:分析代理利用漏洞的能力
他们的分析显示,最新模型(Opus 4.6、GPT-5.3-Codex等)在利用漏洞方面表现非常出色,但在检测和修补方面较弱。
这正是我在用我自己的代理运行最新模型时所观察到的。在我的代理团队中,我总是包括一个审计代理,它可以获得完整的上下文,主要目标是发现漏洞。
当它发现漏洞时,开发代理可以轻松修复。
但问题是,在10个漏洞中,它可能只找到3个。目前,我们还不能完全依赖代理来正确检测漏洞。
推出这个基准测试是一个非常强有力的举措。我很期待用我的代理进行测试。
需要澄清的是,这不是一个安全扫描器或生产就绪的审计工具。它主要用于衡量AI的能力、比较模型,并提供关于AI在该领域进展的指标。
基本上,这是一个让AI在该领域进行评估和改进的工具,坦白说,我们确实非常需要这个。
查看原文
post-image
post-image
post-image
post-image
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
0/400
暂无评论
交易,随时随地
qrCode
扫码下载 Gate App
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)