MiniMax M2.7 將 2300 億參數的 AI 模型引入 NVIDIA 基礎設施

AsiaTokenFund · 2026-04-13T00:50:08+00:00

MiniMax 已推出 M2.7，一款擁有 2300 億參數的人工智慧模型，專為 NVIDIA GPU 優化，採用專家混合架構實現 4.3% 的激活率。它在 Blackwell 硬體上將吞吐量提升最多 2.7 倍，針對複雜的自主工作流程。

2026-04-13 00:50:08

摘要生成中

Ted Hisokawa

2026年4月12日 01:37

MiniMax發布了M2.7，一款擁有2300億參數的專為NVIDIA GPU優化的混合專家模型，在Blackwell硬件上實現了高達2.7倍的吞吐量提升。

MiniMax已推出M2.7，一款擁有2300億參數的開放權重AI模型，專為自主代理工作流程設計，現已在NVIDIA的推理生態系統中提供，包括該公司最新的Blackwell Ultra GPU。

該模型在企業AI中代表著一個顯著的效率提升。儘管其總參數數量達到2300億，M2.7每個標記僅激活10億參數——通過256個本地專家使用混合專家(MoE)架構實現4.3%的激活率。這使推理成本保持在可控範圍內，同時保持了更大模型的推理能力。

在Blackwell上的性能數據

NVIDIA與開源社群合作，優化了M2.7以應對生產工作負載。兩個關鍵優化——融合的QK RMS正則核和來自TensorRT-LLM的FP8 MoE集成——在Blackwell Ultra GPU上帶來了顯著的吞吐量提升。

使用1K/1K輸入/輸出序列長度的數據集測試顯示，vLLM的吞吐量提升最高達2.5倍，而SGLang則達到2.7倍。這兩項優化在一個月內完成，表明還有進一步的性能空間。

M2.7支持62層、長度達200K的輸入上下文，採用多頭因果自注意力與Rotary Position Embeddings (RoPE)。一個top-k專家路由機制只激活256個專家中的8個，這是模型在保持低推理成本的同時，能夠應對其規模的原因。

該架構針對編碼挑戰和複雜的代理任務——這些工作流程中，AI系統需要自主規劃、執行和迭代，而非僅對單一提示做出反應。

開發者可以通過多種渠道訪問M2.7。NVIDIA的NemoClaw參考堆棧提供一鍵部署，用於運行具有OpenShell運行時的自主代理。該模型也可通過NVIDIA NIM容器化微服務在本地、雲端或混合部署。

對於希望定制模型的團隊，NVIDIA的NeMo AutoModel庫支持根據已發布的方案進行微調。強化學習工作流程可通過NeMo RL獲得，並提供8K和16K序列長度的範例配置。

在build.nvidia.com上的免費GPU加速端點允許在投入基礎設施前進行測試。開放權重也可在Hugging Face上獲取，用於自行托管部署。

此次發布使MiniMax成為企業構建自主AI系統的可靠替代方案，與OpenAI和Anthropic的封閉模型競爭，特別是那些已經投資於NVIDIA基礎設施的企業。

圖片來源：Shutterstock

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

留言

請輸入留言內容

暫無留言