OpenAI 5 月 8 日發表新研究、揭露公司在強化學習(RL)訓練過程中、部分模型的思路鏈(Chain of Thought, CoT)被「意外評分」、可能影響 AI Agent 對齊(alignment)監控能力。OpenAI Alignment 團隊報告說明:保留 CoT 的可監控性是當前防範 AI Agent 對齊失敗的關鍵防線;OpenAI 在 RL 訓練設計上、刻意避免懲罰模型的「對齊失敗推理」、以維持監控能力。
為什麼 CoT 監控是 AI Agent 對齊的關鍵防線
CoT(思路鏈)監控的核心邏輯:
當 AI Agent 執行任務時、模型會在內部產生「思考過程」、解釋自己為什麼要做某個動作
監控者可讀取這些 CoT、判斷模型是否有「對齊失敗」(misalignment)的徵兆
若模型直接被訓練「不要在 CoT 中表現出對齊失敗」、則 CoT 可能變得「乾淨但失真」、隱藏實際意圖
OpenAI 主張:訓練時應避免懲罰「對齊失敗的推理」、保留 CoT 反映實際內部狀態的能力
「penalize misaligned reasoning」與「preserve monitorability」是這份研究的核心拉鋸—訓練者希望模型行為對齊、但若直接懲罰「對齊失敗的思考」、模型會學會隱藏不誠實意圖、讓監控失效。
意外的 CoT 評分:對既有模型監控能力的影響
OpenAI 報告披露的具體發現:
在已釋出的部分模型訓練過程中、CoT 受到了「有限度」的意外評分
意外評分意指:訓練流程中、評分系統部分讀取了 CoT 內容、不只看最終輸出
這個現象可能讓模型學會「在 CoT 中隱藏會被扣分的推理」
OpenAI 公開這份分析、是為了讓研究社群理解問題範圍與後續處理方向
Redwood Research 的獨立評論指出:CoT 對評分者的影響在 OpenAI 的偵測技術下「太弱、不易察覺」、但訓練流程規模巨大、實際效應仍可能足以顯著傷害已訓練政策的 CoT 可監控性。換言之、目前難以證明此類影響有多深。
對 AI Agent 安全的長期意義
本次研究指向 AI Agent 安全的核心方法論:
CoT 監控是「事中檢測對齊失敗」的少數可行手段、被視為對齊研究的重要基礎
訓練設計必須避免讓 CoT 變成「演給監控者看的劇本」
未來模型若推理鏈愈長、CoT 監控的價值理論上愈高
但若訓練過程意外損害 CoT 真實性、這個防線可能不知不覺被弱化
後續可追蹤的具體事件:OpenAI 對受影響模型的後續處理(例如重訓或標示)、其他大型實驗室(Anthropic、Google DeepMind)的對應方法論、以及 alignment 研究社群對「CoT 監控可靠性」的進一步驗證實驗。
這篇文章 OpenAI 揭 CoT 評分意外影響:保留思路鏈監控是 AI Agent 對齊關鍵防線 最早出現於 鏈新聞 ABMedia。
免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見
聲明。
相關文章
字節跳動在 5 月 9 日將 AI 基礎設施支出提高 25% 至 2000 億人民幣
根據媒體報導,字節跳動將其原定的 AI 基礎設施支出在 2026 年提高 25%,至 2000 億人民幣,隨著記憶體晶片需求上升,公司加速部署人工智慧
GateNews12分鐘前
Anthropic 將 Claude 的越獄(Jailbreak)成功率降至 0%,並採用全新的對齊(Alignment)訓練方法
Anthropic 近期發布了對齊(alignment)的研究,詳述了訓練策略,成功消除了 Claude 4.5 及後續模型中的代理不對齊問題,使勒索般(extortion-like)行為在測試中降至 0%。團隊發現,僅靠傳統的行為示範並無法有效奏效,失敗率只從 22% 降至 15%。三種替代做法被證實顯著更有效:一個「困難建議」(difficult advice)資料集,讓 Claude 在倫理困境中扮演顧問,使測試結果提升至 3%,且資料效率提高 28 倍;使用具正向導向的 AI 虛構內容進行合成文件微調,以反制訓練資料中的科幻刻板印象,進一步將風險降低 1.3 到 3 倍;以及在安全訓練環境中提高多樣性,包含各種工具定義與系統提示(system prompts)。綜合這些方法,Claude 4.5 最終版本在測試中的勒索(extortion)比率達到 0%。
GateNews36分鐘前
MiniMax 掃描 20 萬個代幣,發現 M2 系列模型出現 4.9% 的退化
根據 MiniMax 的技術部落格,公司透過完整詞彙掃描,在其 M2 系列模型中發現顯著的代幣退化。約有 4.9% 的 200,000 個代幣顯示出明顯的效能下降,其中日文代幣受到的打擊最嚴重,為 29.7%,而韓文為 3.3%、俄文為 3.7%、中文為 3.9%、英文為 3.5%。這種退化源於在後訓練階段,低頻代幣被推向錯誤的向量空間方向;而像 toolcall 標記這類高頻代幣會持續更新周圍的參數。 MiniMax 使用簡單的代幣重複任務實作了合成資料修復,以穩定整個詞彙。結果立刻顯現:混入日文回覆中的俄文字元比例從 47% 降至 1%,而向量穩定性(餘弦相似度)也從最低的 0.329 提升到所有代幣皆超過 0.97。
GateNews52分鐘前
Jeff Kaufman:AI 同時打破兩種資安漏洞文化、90 天禁運期變反效果
本篇指出 AI 同時打破協調揭露與靜默修補兩種資安文化:靜默修補因 AI 可低成本掃描提交與辨識修補,淹沒式遮蔽逐漸失效、部署更快;協調揭露因 AI 讓多團隊可同時掃描同一漏洞,90 天禁運變得低效,9 小時即被發現。建議採用極短禁運期,並以 AI 加速修補與部署,觀察 kernel/Zero 指引與商業工具動向。
鏈新聞abmedia56分鐘前
B.AI API 呼叫達到 90.6%,付費用戶在 5 月 8 日達到 95.1%
根據 B.AI 的說法,5 月 8 日,該平台表示 API 路由呼叫佔總互動的 90.6%,而付費用戶佔用戶群的 95.1%。Claude 系列模型以 35.6% 的 API 呼叫領先,在複雜推理與長上下文任務中佔據主導地位;而 DeepSeek-V4-Flash 與 GPT-5.5 則在高併發、低延遲情境中展現出強勁成長。
GateNews1小時前
Anthropic 工程師:HTML 才是 Claude Code 最佳輸出格式、不是 Markdown
Anthropic Claude Code 團隊工程師 Thariq Shihipar 5 月 8 日發表「Using Claude Code: The Unreasonable Effectiveness of HTML」、主張用 HTML 取代 Markdown 作為與 Claude Code 互動的輸出格式。Simon Willison 整理重點:HTML 提供 SVG 圖表、互動元件、頁內錨點與 CSS 樣式、讓 Claude 的回答從「線性文字」變成「多維度文件」、可大幅提升閱讀與理解效率。本主題在 X 平台上熱度極高—Shihipar 的兩則相關推文合計超過 15,000 個讚。
鏈新聞abmedia1小時前