NVIDIA 與 MIT 發布 Lightning OPD 架構,提升模型蒸餾效率 4 倍,同時消除 GPU 記憶體問題

據報導,NVIDIA 與 MIT 研究人員發布了 Lightning OPD(Offline On-Policy Distillation),這是一種用於大型語言模型的新型後訓練框架,可消除在訓練期間維持教師模型持續運行的需求。透過離線預先計算教師模型的對數機率,該框架可使訓練效率提升 4 倍,同時釋放所有 GPU 資源用於學生模型訓練。

在 8 張 NVIDIA H100 GPU 的測試中,Lightning OPD 成功蒸餾了 Qwen3-30B-A3B-Base(具 300 億參數的 MoE 模型),並在 AIME 2024 基準測試上達到 71.0;相較之下,標準 OPD 在相同硬體上因記憶體不足而失敗。對於較小的 Qwen3-8B 模型,該框架僅需 30 個 GPU 小時計算時間即可達到 69.9 分。

免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明
回覆
0/400
暫無回覆