這個弗蘭肯斯坦 AI 結合了 Claude Opus、GLM 和 Qwen—並且超越了頂尖模型

###簡要說明

  • AI工程師Kyle Hessling將Jackrong的Claude Opus 4.6和GLM-5.1蒸餾微調的兩個模型合併成一個“ Frankenmerge”。
  • 合併後需要進行“修復微調”來修正由於兩個獨立訓練模型之間的層邊界導致的亂碼代碼輸出。
  • 該模型在某些任務上過度推理,但這是可以解決的問題。

你以為Qwopus很酷,因為它合併了Qwen和Opus?好吧,AI工程師Kyle Hessling擁有豐富知識和空閒時間,剛剛將這個配方應用到,並將GLM——其中一個最優秀的推理模型——加入其中。結果是一個擁有180億參數的“ Frankenmerge”,可以在廉價的GPU上運行,並且性能超越阿里巴巴最新的35B模型。 對於不了解的人來說,參數是神經網絡在訓練過程中內嵌的數值,就像神經網絡可以調整的旋鈕——參數越多,模型能處理的知識和複雜度越高,也越需要更多記憶體來運行。 Hessling是一位AI基礎設施工程師,他將Jackrong的Qwen3.5微調模型堆疊在一起:第0到第31層來自Qwopus 3.5-9B-v3.5,該模型將Claude 4.6 Opus的推理風格蒸餾到Qwen作為基礎模型;第32到第63層來自Qwen 3.5-9B-GLM5.1-Distill-v1,該模型在z.AI的GLM-5.1教師模型的推理數據上進行訓練,建立在相同的Qwen基礎之上。

假設:在推理的前半部分給模型Opus風格的結構化規劃,在後半部分加入GLM的問題分解支架——總共64層,合併成一個模型。  這種技術稱為直通式 Frankenmerge——不混合,不平均權重,只是純粹的層堆疊。Hessling不得不從零寫自己的合併腳本,因為現有工具不支持Qwen 3.5的混合線性/全注意力架構。最終模型通過了44個能力測試中的40個,超越了阿里巴巴的Qwen 3.6-35B-A3B MoE——該模型需要22 GB的VRAM——而在Q4_K_M量化下僅用9.2 GB運行。 理論上,NVIDIA RTX 3060可以應付得來。

Hessling解釋說,製作這個模型並不容易。原始合併經常會產生亂碼。但即使如此,他發布的測試模型在愛好者中也算是引起了一定的熱潮。 Hessling的最終修正是一個“修復微調”——基本上是QLoRA的一段代碼,像附錄一樣嵌入到模型中,並對最終輸出進行嚴格條件設定,針對所有注意力和投影。 我們試用了它,儘管在我們的土豆電腦上本地運行Qwen、Claude Opus和GLM 5.1的想法令人垂涎,但實際上我們發現模型在推理方面如此出色,以至於會過度思考。 在一台運行MLX量化版本的M1 MacBook上測試時,當被提示生成我們的常規測試遊戲時,推理鏈條長得超出了令牌限制,給出了長長的一段推理,但沒有產生有效結果,這在零樣本交互中是一個阻礙。這對於任何想在消費者硬件上本地運行此模型進行嚴肅應用的人來說都是一個日常障礙。 我們稍微放寬了要求,但仍然很具挑戰性。一個“寫一個蛇遊戲”的提示,推理時間超過40分鐘,很多都在推理過程中。

你可以在我們的Github倉庫中看到結果。 這是Qwopus系列中的一個已知矛盾:Jackrong的v2微調是為了解決Qwen 3.5傾向於重複內部循環和“更經濟思考”的問題而建立的。堆疊64層的兩個推理蒸餾模型似乎在某些提示上放大了這種行為。

這是一個可解決的問題,開源社群很可能會解決它。這裡重要的是更廣泛的模式:一個化名開發者發布專門的微調模型並附有完整訓練指南,另一個愛好者用自定義腳本堆疊它們,進行1000次修復步驟,最終得到一個性能超越某個全球最大AI實驗室發布的35億參數模型的模型。整個模型都可以存放在一個小文件中。 這正是開源值得關注的原因——不僅僅是大實驗室發布權重,而是層層解決方案、在雷達下進行的專業化。開發者越多,從週末項目到前沿部署的差距就越小。 自此之後,Jackrong也已經將Hessling的倉庫做了鏡像,該模型在上線的前兩週內已經累計超過三千次下載。

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 留言
  • 轉發
  • 分享
留言
請輸入留言內容
請輸入留言內容
暫無留言