阿里云發布通義Qwen3-Next基礎模型架構并開源80B-A3B系列:改進混合注意力機制、高稀疏度MoE結構
9 月 12 日消息,阿里云通義團隊今日宣布推出其下一代基礎模型架構 Qwen3-Next,并開源了基于該架構的 Qwen3-Next-80B-A3B 系列模型(Instruct 與 Thinking)。
通義團隊表示,Context Length Scaling 和 Total Parameter Scaling 是未來大模型發展的兩大趨勢,為了進一步提升模型在長上下文和大規模總參數下的訓練和推理效率,他們設計了全新的 Qwen3-Next 的模型結構。
該結構相比 Qwen3 的 MoE 模型結構,進行了以下核心改進:混合注意力機制、高稀疏度 MoE 結構、一系列訓練穩定友好的優化,以及提升推理效率的多 token 預測機制。
基于 Qwen3-Next 的模型結構,通義團隊訓練了 Qwen3-Next-80B-A3B-Base 模型,該模型擁有 800 億參數(僅激活 30 億參數)、3B 激活的超稀疏 MoE 架構(512 專家,路由 10 個 + 1 共享),結合 Hybrid Attention(Gated DeltaNet + Gated Attention)與多 Token 預測(MTP)。
IT之家從官方獲悉,該 Base 模型實現了與 Qwen3-32B dense 模型相近甚至略好的性能,而它的訓練成本僅為 Qwen3-32B 的十分之一不到,在 32k 以上的上下文下的推理吞吐則是 Qwen3-32B 的十倍以上,實現了極致的訓練和推理性價比。
該模型原生支持 262K 上下文,官方稱可外推至約 101 萬 tokens。據介紹,Instruct 版在若干評測中接近 Qwen3-235B,Thinking 版在部分推理任務上超過 Gemini-2.5-Flash-Thinking。
據介紹,其突破點在于同時實現了大規模參數容量、低激活開銷、長上下文處理與并行推理加速,在同類架構中具有一定代表性。
模型權重已在 Hugging Face 以 Apache-2.0 許可發布,并可通過 Transformers、SGLang、vLLM 等框架部署;第三方平臺 OpenRouter 亦已上線。