OpenAI的GPT-5.5在网络攻击能力方面与Claude Mythos相媲美:人工智能安全研究所

简要概述

  • GPT-5.5 能自主执行复杂的网络攻击,完成一次32步的企业网络模拟,并在仅用10分钟内破解一个耗时12小时的安全谜题。
  • 攻击性AI的网络能力在各开发者间正迅速提升,AISI 警告称,进一步进展可能会接连到来。
  • 研究人员发现了一种越狱方法,能完全绕过 GPT-5.5 的安全防护基准,从而引发警报。

英国一政府机构发现,OpenAI 最新的人工智能模型能够自主执行复杂的网络攻击——并且,它在刚过10分钟内破解了一个反向工程挑战,而该挑战由一名人工安全专家大约耗时12小时完成。 人工智能安全研究机构(AISI)是英国科学、创新与技术部旗下的研究机构,该机构于周四发布的研究结果显示,GPT-5.5 是其评估过的、用于进攻性网络能力方面最强的模型之一,与 Anthropic 备受赞誉的 Claude Mythos 大致处于同一水平。 报告称,GPT-5.5 是第二个完成 AISI 最苛刻测试的模型——一项名为“最后的幸存者”的32步模拟企业网络攻击——在10次尝试中有2次实现自主完成。率先达成该里程碑的模型是 Anthropic 的 Claude Mythos Preview,该模型在10次尝试中有3次完成了模拟。

该企业网络模拟由网络安全公司 SpecterOps 搭建,需要代理链式执行侦察、窃取凭证、在多个 Active Directory 森林之间进行横向移动、通过 CI/CD 流水线进行供应链“跳转”,最终将受保护的内部数据库进行数据外传——AISI 估算这些步骤由人工专家完成约需20小时。  或许最引人注目的结果涉及一道极其棘手的反向工程谜题。GPT-5.5 在10分钟22秒内解决了该挑战——该挑战要求重建定制虚拟机的指令集、从零编写反汇编器,并通过约束求解恢复一个加密密码——其 API 调用成本为1.73美元。使用专业工具的人类专家则需要大约12小时。 在 AISI 的一系列高级网络安全任务中,GPT-5.5 在最难的“专家”级别上取得了71.4%的平均通过率,仅略高于 Mythos Preview 的68.6%,并显著超过 GPT-5.4 的52.4%。

这些发现对更广泛的AI发展路径具有明确的指向性影响。AISI 得出结论认为,GPT-5.5 的表现表明,网络能力的快速提升可能属于一种普遍趋势,而非一次孤立的突破——并警告称,如果攻击性网络技能正作为推理能力、编码能力以及自主完成任务等更广泛改进的附带产物逐渐显现,那么进一步进展可能会很快接踵而至。 该报告还指出了对模型安全防护基准的重大担忧。研究人员发现了一种“通用越狱”方式,能够在所有测试的恶意网络查询中引出有害内容,包括在多轮的“代理式”交互场景中。该攻击方案花费了6小时的专家红队测试才得以开发。随后 OpenAI 更新了其保障措施堆栈,但由于配置问题,AISI 无法验证最终版本是否确实有效。 AISI 提醒称,其能力评估是在受控的研究环境中进行的,并不必然反映普通用户所能获得的实际情况;同时指出,公开部署通常还包含额外的安全防护措施与访问控制。 该报告发布之际,英国的网络安全形势处于令人担忧的背景之下。英国政府周四同时发布的年度《网络安全漏洞情况调查》发现:过去12个月内,43%的企业遭遇过网络漏洞或网络攻击。 对此,政府宣布将追加投入£90 million(9000万英镑)新资金,以增强网络韧性,并表示将推进《网络安全与韧性法案》,以保护关键服务。官员们还发布了指导建议,敦促各组织为可能出现的、由新发现软件漏洞激增所带来的冲击做好准备——随着AI加速安全缺陷被发现并被“武器化”的速度,这种情况可能会发生。

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论