OpenAI 5 月 8 日發表新研究、揭露公司在強化學習（RL）訓練過程中、部分模型的思路鏈（Chain of Thought, CoT）被「意外評分」、可能影響 AI Agent 對齊（alignment）監控能力。OpenAI Alignment 團隊報告說明：保留 CoT 的可監控性是當前防範 AI Agent 對齊失敗的關鍵防線；OpenAI 在 RL 訓練設計上、刻意避免懲罰模型的「對齊失敗推理」、以維持監控能力。

為什麼 CoT 監控是 AI Agent 對齊的關鍵防線

CoT（思路鏈）監控的核心邏輯：

當 AI Agent 執行任務時、模型會在內部產生「思考過程」、解釋自己為什麼要做某個動作

監控者可讀取這些 CoT、判斷模型是否有「對齊失敗」（misalignment）的徵兆

若模型直接被訓練「不要在 CoT 中表現出對齊失敗」、則 CoT 可能變得「乾淨但失真」、隱藏實際意圖

OpenAI 主張：訓練時應避免懲罰「對齊失敗的推理」、保留 CoT 反映實際內部狀態的能力

「penalize misaligned reasoning」與「preserve monitorability」是這份研究的核心拉鋸—訓練者希望模型行為對齊、但若直接懲罰「對齊失敗的思考」、模型會學會隱藏不誠實意圖、讓監控失效。

意外的 CoT 評分：對既有模型監控能力的影響

OpenAI 報告披露的具體發現：

在已釋出的部分模型訓練過程中、CoT 受到了「有限度」的意外評分

意外評分意指：訓練流程中、評分系統部分讀取了 CoT 內容、不只看最終輸出

這個現象可能讓模型學會「在 CoT 中隱藏會被扣分的推理」

OpenAI 公開這份分析、是為了讓研究社群理解問題範圍與後續處理方向

Redwood Research 的獨立評論指出：CoT 對評分者的影響在 OpenAI 的偵測技術下「太弱、不易察覺」、但訓練流程規模巨大、實際效應仍可能足以顯著傷害已訓練政策的 CoT 可監控性。換言之、目前難以證明此類影響有多深。

對 AI Agent 安全的長期意義

本次研究指向 AI Agent 安全的核心方法論：

CoT 監控是「事中檢測對齊失敗」的少數可行手段、被視為對齊研究的重要基礎

訓練設計必須避免讓 CoT 變成「演給監控者看的劇本」

未來模型若推理鏈愈長、CoT 監控的價值理論上愈高

但若訓練過程意外損害 CoT 真實性、這個防線可能不知不覺被弱化

後續可追蹤的具體事件：OpenAI 對受影響模型的後續處理（例如重訓或標示）、其他大型實驗室（Anthropic、Google DeepMind）的對應方法論、以及 alignment 研究社群對「CoT 監控可靠性」的進一步驗證實驗。

這篇文章 OpenAI 揭 CoT 評分意外影響：保留思路鏈監控是 AI Agent 對齊關鍵防線最早出現於鏈新聞 ABMedia。

免責聲明：本頁面資訊可能來自第三方，不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考，不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證，對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為，價格波動劇烈，您可能損失全部投資本金。請充分了解相關風險，並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明。

字節跳動在 5 月 9 日將 AI 基礎設施支出提高 25% 至 2000 億人民幣

AI 行業動態

根據媒體報導，字節跳動將其原定的 AI 基礎設施支出在 2026 年提高 25%，至 2000 億人民幣，隨著記憶體晶片需求上升，公司加速部署人工智慧

GateNews12分鐘前

Anthropic 將 Claude 的越獄（Jailbreak）成功率降至 0%，並採用全新的對齊（Alignment）訓練方法

AI 行業動態

Anthropic 近期發布了對齊（alignment）的研究，詳述了訓練策略，成功消除了 Claude 4.5 及後續模型中的代理不對齊問題，使勒索般（extortion-like）行為在測試中降至 0%。團隊發現，僅靠傳統的行為示範並無法有效奏效，失敗率只從 22% 降至 15%。三種替代做法被證實顯著更有效：一個「困難建議」（difficult advice）資料集，讓 Claude 在倫理困境中扮演顧問，使測試結果提升至 3%，且資料效率提高 28 倍；使用具正向導向的 AI 虛構內容進行合成文件微調，以反制訓練資料中的科幻刻板印象，進一步將風險降低 1.3 到 3 倍；以及在安全訓練環境中提高多樣性，包含各種工具定義與系統提示（system prompts）。綜合這些方法，Claude 4.5 最終版本在測試中的勒索（extortion）比率達到 0%。

GateNews36分鐘前

MiniMax 掃描 20 萬個代幣，發現 M2 系列模型出現 4.9% 的退化

AI 行業動態

根據 MiniMax 的技術部落格，公司透過完整詞彙掃描，在其 M2 系列模型中發現顯著的代幣退化。約有 4.9% 的 200,000 個代幣顯示出明顯的效能下降，其中日文代幣受到的打擊最嚴重，為 29.7%，而韓文為 3.3%、俄文為 3.7%、中文為 3.9%、英文為 3.5%。這種退化源於在後訓練階段，低頻代幣被推向錯誤的向量空間方向；而像 toolcall 標記這類高頻代幣會持續更新周圍的參數。 MiniMax 使用簡單的代幣重複任務實作了合成資料修復，以穩定整個詞彙。結果立刻顯現：混入日文回覆中的俄文字元比例從 47% 降至 1%，而向量穩定性（餘弦相似度）也從最低的 0.329 提升到所有代幣皆超過 0.97。

GateNews52分鐘前

Jeff Kaufman：AI 同時打破兩種資安漏洞文化、90 天禁運期變反效果

AI 行業動態

本篇指出 AI 同時打破協調揭露與靜默修補兩種資安文化：靜默修補因 AI 可低成本掃描提交與辨識修補，淹沒式遮蔽逐漸失效、部署更快；協調揭露因 AI 讓多團隊可同時掃描同一漏洞，90 天禁運變得低效，9 小時即被發現。建議採用極短禁運期，並以 AI 加速修補與部署，觀察 kernel/Zero 指引與商業工具動向。

鏈新聞abmedia56分鐘前

B.AI API 呼叫達到 90.6%，付費用戶在 5 月 8 日達到 95.1%

AI 行業動態

根據 B.AI 的說法，5 月 8 日，該平台表示 API 路由呼叫佔總互動的 90.6%，而付費用戶佔用戶群的 95.1%。Claude 系列模型以 35.6% 的 API 呼叫領先，在複雜推理與長上下文任務中佔據主導地位；而 DeepSeek-V4-Flash 與 GPT-5.5 則在高併發、低延遲情境中展現出強勁成長。

GateNews1小時前

Anthropic 工程師：HTML 才是 Claude Code 最佳輸出格式、不是 Markdown

AI 行業動態

Anthropic Claude Code 團隊工程師 Thariq Shihipar 5 月 8 日發表「Using Claude Code: The Unreasonable Effectiveness of HTML」、主張用 HTML 取代 Markdown 作為與 Claude Code 互動的輸出格式。Simon Willison 整理重點：HTML 提供 SVG 圖表、互動元件、頁內錨點與 CSS 樣式、讓 Claude 的回答從「線性文字」變成「多維度文件」、可大幅提升閱讀與理解效率。本主題在 X 平台上熱度極高—Shihipar 的兩則相關推文合計超過 15,000 個讚。

鏈新聞abmedia1小時前

留言

0/400

暫無留言