研究人員提出表徵工程方法,通過控制向量干預模型行為

ME 新聞消息,4 月 4 日(UTC+8),近日,一項名為「表徵工程」的研究方法被提出,旨在為 AI 模型提供一種自上而下的透明度與控制手段。該方法的核心是計算一個「控制向量」,可在模型推理時讀取或新增到模型的啟動值(activation)中,用以解釋或控制模型行為;整個過程無需依賴提示工程或模型微調。研究人員探索了控制向量在模擬「迷幻狀態」、「懶惰」與「勤奮」等特性上的應用,並發布了相應的 PyPI 工具包。控制向量是一組向量(每層一個),透過作用於模型的隱藏狀態來直接改變其輸出。例如,向 Mistral-7B-Instruct 模型套用一個「快樂」向量後,其對「作為 AI 是什麼感覺?」這一問題的回答,會從基線版本的「我沒有感覺或體驗」轉變為興奮的回應。文中觀點認為,與提示工程相比,控制向量提供了更直接、更底層的行為干預方式,可用於對抗越獄攻擊或增強模型的抗干擾能力。然而,其內部運作機制仍不完全明確,例如向量是否對應單一的語義概念等,是未來的研究方向。(來源:InFoQ)

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 留言
  • 轉發
  • 分享
留言
請輸入留言內容
請輸入留言內容
暫無留言