英国一政府机构发现，OpenAI 最新的人工智能模型能够自主执行复杂的网络攻击——并且，它在刚过10分钟内破解了一个反向工程挑战，而该挑战由一名人工安全专家大约耗时12小时完成。人工智能安全研究机构（AISI）是英国科学、创新与技术部旗下的研究机构，该机构于周四发布的研究结果显示，GPT-5.5 是其评估过的、用于进攻性网络能力方面最强的模型之一，与 Anthropic 备受赞誉的 Claude Mythos 大致处于同一水平。报告称，GPT-5.5 是第二个完成 AISI 最苛刻测试的模型——一项名为“最后的幸存者”的32步模拟企业网络攻击——在10次尝试中有2次实现自主完成。率先达成该里程碑的模型是 Anthropic 的 Claude Mythos Preview，该模型在10次尝试中有3次完成了模拟。

该企业网络模拟由网络安全公司 SpecterOps 搭建，需要代理链式执行侦察、窃取凭证、在多个 Active Directory 森林之间进行横向移动、通过 CI/CD 流水线进行供应链“跳转”，最终将受保护的内部数据库进行数据外传——AISI 估算这些步骤由人工专家完成约需20小时。或许最引人注目的结果涉及一道极其棘手的反向工程谜题。GPT-5.5 在10分钟22秒内解决了该挑战——该挑战要求重建定制虚拟机的指令集、从零编写反汇编器，并通过约束求解恢复一个加密密码——其 API 调用成本为1.73美元。使用专业工具的人类专家则需要大约12小时。在 AISI 的一系列高级网络安全任务中，GPT-5.5 在最难的“专家”级别上取得了71.4%的平均通过率，仅略高于 Mythos Preview 的68.6%，并显著超过 GPT-5.4 的52.4%。

这些发现对更广泛的AI发展路径具有明确的指向性影响。AISI 得出结论认为，GPT-5.5 的表现表明，网络能力的快速提升可能属于一种普遍趋势，而非一次孤立的突破——并警告称，如果攻击性网络技能正作为推理能力、编码能力以及自主完成任务等更广泛改进的附带产物逐渐显现，那么进一步进展可能会很快接踵而至。该报告还指出了对模型安全防护基准的重大担忧。研究人员发现了一种“通用越狱”方式，能够在所有测试的恶意网络查询中引出有害内容，包括在多轮的“代理式”交互场景中。该攻击方案花费了6小时的专家红队测试才得以开发。随后 OpenAI 更新了其保障措施堆栈，但由于配置问题，AISI 无法验证最终版本是否确实有效。 AISI 提醒称，其能力评估是在受控的研究环境中进行的，并不必然反映普通用户所能获得的实际情况；同时指出，公开部署通常还包含额外的安全防护措施与访问控制。该报告发布之际，英国的网络安全形势处于令人担忧的背景之下。英国政府周四同时发布的年度《网络安全漏洞情况调查》发现：过去12个月内，43%的企业遭遇过网络漏洞或网络攻击。对此，政府宣布将追加投入£90 million（9000万英镑）新资金，以增强网络韧性，并表示将推进《网络安全与韧性法案》，以保护关键服务。官员们还发布了指导建议，敦促各组织为可能出现的、由新发现软件漏洞激增所带来的冲击做好准备——随着AI加速安全缺陷被发现并被“武器化”的速度，这种情况可能会发生。

查看原文

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

赞赏
点赞
评论
转发
分享

请输入评论内容

暂无评论

置顶

OpenAI的GPT-5.5在网络攻击能力方面与Claude Mythos相媲美：人工智能安全研究所

简要概述

热门话题

WCTC交易王PK

美国寻求战略比特币储备

比特币ETF期权持仓限额增4倍

美联储利率不变但内部分歧加剧

DeFi4月安全事件损失超6亿美元

置顶