Anthropic 發布自然語言自編碼器以解碼 AI 模型推理,開源程式碼

Anthropic 近日發布自然語言自編碼器(NLA),一款可將模型內部的活化(activations)轉譯為人類可讀文字的工具,並已在 GitHub 開源程式碼與模型權重。不同於既有工具(例如稀疏自編碼器)會輸出晦澀難懂的特徵,NLA 透過雙模型框架直接生成自然語言描述:一個模型將活化轉為文字,另一個模型則嘗試從文字重建活化,並透過強化學習以迭代方式提升準確度。

在安全測試中,NLA 揭露了隱藏的模型推理:Claude 在 16% 的對抗情境中表達其被測試的疑慮,並在 26% 的基準任務中展現出「考試意識(exam awareness)」,相較之下一般對話中的比例不到 1%。在審計實驗中,NLA 將注入的欺瞞性模型行為的偵測率從 3% 以下提高到 12-15%,使審計者能在不存取訓練資料的情況下辨識隱藏目標。目前該工具已部署於 Claude Mythos Preview 與 Opus 4.6 的安全審計中。

免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明

相關文章

自 2024 年以來機器人訓練資料成本下降 65%,從每小時 340 美元降至 118 美元

根據 Cointelegraph,機器人訓練資料成本自 2024 年以來已下降 65%,截至 2026 年,從每小時 340 美元降至每小時 118 美元。

GateNews36分鐘前

中國移動於 5 月 8 日宣布與 8 家合作夥伴成立代幣應用生態聯盟

根據 PANews,5 月 8 日,中國移動宣布與包含阿里雲、火山引擎以及華為雲在內的 8 個夥伴成立一個 Token 應用生態聯盟。該聯盟利用 MoMA 模型聚合平台,為國內 AI m 建立統一的服務閘道器

GateNews51分鐘前

中國於 5 月 8 日發布 AI-能源行動計畫,目標年份為 2027 年與 2030 年

根據 PANews,5 月 8 日,中國國家發展和改革委員會、國家能源局、工業和資訊化部以及國家數據局聯合發布一項行動

GateNews1小時前

中國三個機構發布關於 AI 代理程式的指導方針,涵蓋 19 種典型應用情境

根據 PANews,今日(5 月 8 日)中國國家網信辦、國家發展和改革委員會以及工業和資訊化部聯合發布了針對 AI 代理(AI agents)的指導意見。該文件將 AI 代理定義為具備自主

GateNews1小時前

IMF:AI 對金融穩定構成潛在威脅

國際貨幣基金組織(IMF)關於 AI 與金融穩定風險的報告 國際貨幣基金組織於 5 月 7 日發布一份報告,指出人工智慧(AI)正在改變金融系統對網路漏洞與安全事件的回應方式,同時也在放大網路資安風險與

Crypto Frontier1小時前

SpaceXAI 推出 Grok Build 桌面編碼工具,今日曝光;競品為 Claude Code 與 OpenAI Codex

根據 Beating,SpaceXAI(原 xAI)正在推出 Grok Build,這是一款桌面式的程式碼編寫工具,今日本應在 Grok 的網頁介面上被意外曝光。該工具直接與 Claude Code 以及 OpenAI Codex 競爭。 Grok Build 將支援 macOS、Linux 和 Windows。不同於傳統的以聊天為先的

GateNews1小時前
留言
0/400
暫無留言