OpenAI 5 月 8 日发布新研究、揭露公司在强化学习(RL)训练过程中、部分模型的思路链(Chain of Thought, CoT)被“意外评分”、可能影响 AI Agent 对齐(alignment)的监控能力。OpenAI Alignment 团队报告说明:保留 CoT 的可监控性是当前防范 AI Agent 对齐失败的关键防线;OpenAI 在 RL 训练设计上、刻意避免惩罚模型的“对齐失败推理”、以维持监控能力。
为什么 CoT 监控是 AI Agent 对齐的关键防线
CoT(思路链)监控的核心逻辑:
当 AI Agent 执行任务时、模型会在内部产生“思考过程”、解释自己为什么要做某个动作
监控者可读取这些 CoT、判断模型是否有“对齐失败”(misalignment)的征兆
若模型直接被训练“不要在 CoT 中表现出对齐失败”、则 CoT 可能变得“干净但失真”、隐藏实际意图
OpenAI 主张:训练时应避免惩罚“对齐失败的推理”、保留 CoT 反映实际内部状态的能力
“penalize misaligned reasoning”与“preserve monitorability”是这份研究的核心拉锯—训练者希望模型行为对齐、但若直接惩罚“对齐失败的思考”、模型会学会隐藏不诚实意图、让监控失效。
意外的 CoT 评分:对既有模型监控能力的影响
OpenAI 报告披露的具体发现:
在已发布的部分模型训练过程中、CoT 受到了“有限度”的意外评分
意外评分意指:训练流程中、评分系统部分读取了 CoT 内容、不只看最终输出
这个现象可能让模型学会“在 CoT 中隐藏会被扣分的推理”
OpenAI 公开这份分析、是为了让研究社群理解问题范围与后续处理方向
Redwood Research 的独立评论指出:CoT 对评分者的影响在 OpenAI 的侦测技术下“太弱、不易察觉”、但训练流程规模巨大、实际效应仍可能足以显著伤害已训练政策的 CoT 可监控性。换言之、目前难以证明此类影响有多深。
对 AI Agent 安全的长期意义
本次研究指向 AI Agent 安全的核心方法论:
CoT 监控是“事中检测对齐失败”的少数可行手段、被视为对齐研究的重要基础
训练设计必须避免让 CoT 变成“演给监控者看的剧本”
未来模型若推理链愈长、CoT 监控的价值理论上愈高
但若训练过程中意外损害 CoT 真实性、这个防线可能不知不觉被弱化
后续可追踪的具体事件:OpenAI 对受影响模型的后续处理(例如重训或标示)、其他大型实验室(Anthropic、Google DeepMind)的对应方法论、以及 alignment 研究社群对“CoT 监控可靠性”的进一步验证实验。
这篇文章 OpenAI 揭 CoT 评分意外影响:保留思路链监控是 AI Agent 对齐关键防线 最早出现在 链新闻 ABMedia。
免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见
声明。
相关文章
字节跳动在 5 月 9 日将 AI 基础设施支出提高 25% 至 2,000 亿元人民币
据媒体报道,字节跳动将其计划在 2026 年的人工智能基础设施支出提高 25%,至 2000 亿人民币,因为该公司在内存芯片需求上升的背景下加速部署人工智能
GateNews12 分钟前
Anthropic 将 Claude 越狱率削减至 0%,采用新颖的对齐训练方法
Anthropic 最近发布了对齐研究,详细介绍了训练策略,这些策略在 Claude 4.5 及后续模型中消除了代理的不一致性,使测试中的勒索类行为降至 0%。团队发现,仅靠传统行为示范并无效,导致故障率仅从 22% 降至 15%。三种替代方法被证明显著更有效:一个“困难建议”数据集,其中 Claude 以伦理困境顾问的角色行事,使测试结果提升至 3%,并实现了数据效率提高 28 倍;使用 AI 正向虚构的合成文档微调,以抵消训练数据中对科幻刻板印象的影响,进一步将风险降低 1.3 到 3 倍;以及在安全训练环境中增加多样性,使用了不同的工具定义和系统提示。合并使用这些方法后,在 Claude 4.5 最终版本中实现了测试勒索率为 0%。
GateNews36 分钟前
MiniMax 扫描 20 万个代币,发现 M2 系列模型出现 4.9% 的退化
根据 MiniMax 的技术博客,该公司通过全量词汇扫描在其 M2 系列模型中发现了显著的代币退化。大约 4.9% 的 200,000 个代币出现了明显的性能下降,其中日语代币受创最为严重,为 29.7%;相比之下,韩语为 3.3%,俄语为 3.7%,中文为 3.9%,英语为 3.5%。这种退化源于低频代币在后训练过程中被推入了错误的向量空间方向,而像 toolcall 标记这样的高频代币会持续更新周围的参数。 MiniMax 使用简单的代币重复任务实施了合成数据修复,以稳定整个词汇。结果立竿见影:混入日语回复的俄语字符比例从 47% 降至 1%,并且所有代币的向量稳定性(余弦相似度)从最低 0.329 改善到 0.97 以上。
GateNews52 分钟前
Jeff Kaufman:AI 同时打破两种资安漏洞文化、90 天禁运期变反效果
软件工程师 Jeff Kaufman(jefftk)5 月 8 日发表「AI is Breaking Two Vulnerability Cultures」一文、主张 AI 同时打破两种长期并存的资安漏洞处理文化—协调揭露(coordinated disclosure)与「静默修补」(bugs are bugs)—两种策略所依赖的「攻击者侦测速度缓慢」前提、都已被 AI 自动扫描技术突破。Kaufman 部落格原文并在 Hacker News 取得超过 200 分热度、是本周开发者社群讨论度最高的资安观察文章之一。 两种漏洞文化:协调揭露 vs 「静默修补」 Kaufman 整理的两种文化框架: 协调揭露(coordinated disclosure)—发现者私下通知维护者、给予典型 90 天修补窗口、再公开揭露。背后假设:攻击者要花时间独立发现同一漏洞 「Bugs are Bugs」静默修补—Linux 等开源项目常见做法、修补时不特别标示为安全修复、靠提交流量「淹没」资安修补、避免引起攻击者注意 两种文化过去能并存、是因为攻击者没有「快速、自动、低成本」的工具扫描所有提交记录或同时
鏈新聞abmedia56 分钟前
B.AI API 调用达到 90.6%,付费用户在 5 月 8 日达到 95.1%
据 B.AI 称,5 月 8 日,该平台报告称,API 路由调用占全部交互的 90.6%,而付费用户占用户群体的 95.1%。Claude 系列模型以 35.6% 的 API 调用领跑,在复杂推理和长上下文任务中占据主导地位,而 DeepSeek-V4-Flash 和 GPT-5.5 在高并发、低延迟场景中展现出强劲增长。
GateNews1小时前
Anthropic 工程師:HTML 才是 Claude Code 最佳輸出格式、不是 Markdown
Anthropic Claude Code 团队工程师 Thariq Shihipar 5 月 8 日发表“Using Claude Code: The Unreasonable Effectiveness of HTML”,主张用 HTML 取代 Markdown 作为与 Claude Code 互动的输出格式。Simon Willison 整理要点:HTML 提供 SVG 图表、交互组件、页内锚点与 CSS 样式,让 Claude 的回答从“线性文字”变成“多维度文件”,可显著提升阅读与理解效率。该话题在 X 平台上热度极高—Shihipar 的两则相关推文合计超过 15,000 个赞。
鏈新聞abmedia1小时前