Anthropic 近期發布了對齊(alignment)的研究,詳述了訓練策略,成功消除了 Claude 4.5 及後續模型中的代理不對齊問題,使勒索般(extortion-like)行為在測試中降至 0%。團隊發現,僅靠傳統的行為示範並無法有效奏效,失敗率只從 22% 降至 15%。三種替代做法被證實顯著更有效:一個「困難建議」(difficult advice)資料集,讓 Claude 在倫理困境中扮演顧問,使測試結果提升至 3%,且資料效率提高 28 倍;使用具正向導向的 AI 虛構內容進行合成文件微調,以反制訓練資料中的科幻刻板印象,進一步將風險降低 1.3 到 3 倍;以及在安全訓練環境中提高多樣性,包含各種工具定義與系統提示(system prompts)。綜合這些方法,Claude 4.5 最終版本在測試中的勒索(extortion)比率達到 0%。
免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見
聲明。
相關文章
Chrome 於 5 月 9 日自動下載多吉字節 Gemini Nano AI 模型,引發加密社群的資安疑慮
根據 BlockBeats 指出,5 月 9 日 Chrome 在未獲使用者明確同意的情況下,會自動將一個多個數 GB 的 AI 模型檔案(Gemini Nano)下載到使用者裝置,用於本地端詐欺偵測、網頁摘要以及 AI 功能。 儘管 Google 表示,本地端執行 AI 能提升隱私與安全性,但加密貨幣使用者對缺乏透明度以及未獲明確授權提出疑慮。隨著瀏覽器日益成為加密貨幣錢包、鏈上交易與 DApps 的核心入口,這一舉措也加劇了產業對攻擊面擴大的擔憂,其中包括惡意擴充功能、偽造的交易頁面以及錢包遭劫持的風險。
GateNews43分鐘前
美國法官裁定 DOGE 補助金削減在使用 ChatGPT 以及 DEI 關鍵字後屬非法,並阻止週四的執行
根據 ABC News,週四一名美國聯邦法官裁定,由 Elon Musk 支持的 DOGE 所進行的補助削減屬於非法。紐約的美國地方法官 Colleen McMahon 表示,工作人員使用 ChatGPT 以及包含「DEI」、「Equity」、「Inclusion」和「LGBTQ」等關鍵字的搜尋,以協助終止跨越人文學科國家基金會(National Endowment for the Humanities)的資助計畫。法官阻止特朗普政府強制執行這些有爭議的取消措施,並指出審查流程未能符合任何正常的聯邦補助審查制度。McMahon 寫道,將受保護的身分與與多元相關的用語作為移除資金的理由,可能已違反法律。
GateNews2小時前
歐洲央行官員表示,AI 風險將在週六引發對金融基礎設施的審查
何塞·路易斯·埃斯克里瓦(José Luis Escrivá),歐洲央行(European Central Bank)理事會成員以及西班牙央行(Bank of Spain)行長,週六表示,鑒於人工智慧的興起,央行必須檢視金融基礎設施與資安的韌性。「近期人工智慧的發展迫使我們重新評估金融基礎設施以及資安的健全性,」埃斯克里瓦在塔拉戈納(Tarragona)的一場活動上表示。他也強調,央行作為最終的擔保人,在穩定幣(stablecoins)所帶來的風險方面扮演關鍵角色。
GateNews2小時前
Cloudflare 股價在 5 月 8 日因第 1 季度財報大跌 23.62%,並宣布裁員 1,100 人
Cloudflare 的股價在 5 月 8 日下跌 23.62%,至每股 196.13 美元,此前該公司發布了第一季財報並宣布約 1,100 人裁員。雖然第一季營收為 6.40 億美元,超出預期,且年增 34%,但第二季營收指引為 6.64 億–6.65 億美元,低於先前市場預期的 6.66 億美元。這些裁員約占員工人數的 20%,屬於公司轉型至「AI-agent-first 運營模式」的一部分,預估成本為 1.40 億–1.50 億美元。
GateNews4小時前
Helsing 目標以 180 億美元估值籌集資金
根據《金融時報》,德國 AI 驅動無人機新創公司 Helsing 正計劃以約 180 億美元估值籌集新一輪資金。
GateNews4小時前
Google DeepMind AI 合作數學家在 FrontierMath 第 4 階段達成 47.9%,超越 GPT-5.5 Pro,解決 3 個先前無法解決的問題
Google DeepMind 發布 AI 合數學家(AI co-mathematician),一款多代理數學研究助理,在 FrontierMath 第 4 層級基準測試中達到 47.9% 的準確率,超越 GPT-5.5 Pro 先前在 5 月 9 日創下的 39.6% 記錄。該系統解出 48 題中的 23 題,包括 3 題是所有先前模型都無法解答的。系統基於 Gemini 3.1 Pro,採用分層架構:由專案協調員代理(project coordinator agent)分派任務給負責文獻檢索、編碼與推理的子代理(sub-agents),並由多個審查員代理(reviewer agents)在提交前驗證證明。 Epoch AI 進行了盲測,使 DeepMind 團隊無法看到題目;每道題目允許進行 48 小時的運算。在真實世界的應用中,數學家 Marc Lackenby 使用該系統解決了來自 Kourovka Notebook 的一個未解推測,展現其實際研究價值。目前該系統正以內測形式提供給少數數學家使用。
GateNews4小時前