國(guó)產(chǎn)大模型開(kāi)源競(jìng)爭(zhēng)進(jìn)入新階段,華為首次開(kāi)源盤(pán)古大模型核心能力。
6 月 30 日,華為宣布開(kāi)源盤(pán)古 70 億參數(shù)稠密模型和盤(pán)古 Pro MoE 720 億參數(shù)混合專(zhuān)家模型,同時(shí)開(kāi)放基于昇騰的模型推理技術(shù)。這是華為首次將盤(pán)古大模型的核心能力對(duì)外開(kāi)源。
此次開(kāi)源正值國(guó)產(chǎn)大模型開(kāi)源浪潮興起之際。繼 DeepSeek-R1 成功后,MiniMax、阿里巴巴、月之暗面等頭部廠商陸續(xù)升級(jí)開(kāi)源模型,推動(dòng)大模型價(jià)格下探 60%-80%,加速應(yīng)用普及。
模型引入 " 快思考 " 和 " 慢思考 " 雙系統(tǒng)
華為此次開(kāi)源包括三個(gè)主要組件:盤(pán)古 Pro MoE 72B 模型權(quán)重和基礎(chǔ)推理代碼已正式上線開(kāi)源平臺(tái),基于昇騰的超大規(guī)模 MoE 模型推理代碼同步發(fā)布,盤(pán)古 7B 相關(guān)模型權(quán)重與推理代碼將于近期上線。
據(jù)開(kāi)源開(kāi)發(fā)者平臺(tái) GitGo 信息,盤(pán)古 Pro MoE 基于 MoGE 架構(gòu)構(gòu)建,總參數(shù)量 720 億,激活參數(shù)量 160 億。該模型專(zhuān)門(mén)針對(duì)昇騰硬件優(yōu)化,在昇騰 300I Duo 推理服務(wù)器上提供極具性價(jià)比的模型推理方案。
方案在專(zhuān)家選擇階段采用分組機(jī)制,具體來(lái)說(shuō),先將專(zhuān)家劃分為若干等規(guī)模的分組,再?gòu)拿總€(gè)分組中選取相同數(shù)量的專(zhuān)家進(jìn)行激活。在典型的分布式部署中,每個(gè)專(zhuān)家分組對(duì)應(yīng)獨(dú)立的計(jì)算設(shè)備,從而 MoGE 天然地實(shí)現(xiàn)了跨設(shè)備的計(jì)算負(fù)載均衡。這一設(shè)計(jì)顯著提升了訓(xùn)練和推理場(chǎng)景下的系統(tǒng)吞吐量。
在后訓(xùn)練階段,其通過(guò)監(jiān)督微調(diào)(SFT)和強(qiáng)化學(xué)習(xí)(RL)進(jìn)一步增強(qiáng)推理能力,還采用了檢查點(diǎn)合并等技術(shù)優(yōu)化模型。
最終,盤(pán)古 Pro MoE 在昇騰 800I A2 上實(shí)現(xiàn)了單卡 1148 tokens/s 的推理吞吐性能,并可進(jìn)一步通過(guò)投機(jī)加速等技術(shù)提升至 1528 tokens/s,顯著優(yōu)于同等規(guī)模的 320 億和 720 億個(gè)參數(shù)的稠密模型;在昇騰 300I Duo 推理服務(wù)器上,華為也實(shí)現(xiàn)了極具性價(jià)比的模型推理方案。
千億內(nèi)總參數(shù)模型中處于領(lǐng)先
華為表示,昇騰 NPU 能夠支持盤(pán)古 Pro MoE 的大規(guī)模并行訓(xùn)練。多項(xiàng)公開(kāi)基準(zhǔn)測(cè)試結(jié)果表明,盤(pán)古 Pro MoE 在千億內(nèi)總參數(shù)模型中處于領(lǐng)先地位。
在英文基準(zhǔn)領(lǐng)域,盤(pán)古 Pro MoE 在 MMLU-PRO 上以顯著優(yōu)勢(shì)超越當(dāng)前主流的稠密模型(包括 Qwen3-32B、GLM-Z1-32B 和 Gemma3-27B)及 MoE 架構(gòu)的 Llama4-Scout 模型,創(chuàng)下新的性能標(biāo)桿。
在閱讀理解領(lǐng)域,盤(pán)古 ProMoE 于 DROP 基準(zhǔn)測(cè)試中獲得 91.2 的優(yōu)異成績(jī),與當(dāng)前最優(yōu)的 Qwen3-32B 模型(91.3)基本持平,充分驗(yàn)證其具備與前沿模型相當(dāng)?shù)挠⑽奈谋纠斫馀c推理能力。
具體而言,在知識(shí)密集型評(píng)測(cè) C-Eval(EM)中,盤(pán)古 Pro MoE 以 91.1 的卓越成績(jī)超越 Qwen3-32B(89.2)等現(xiàn)有百億參數(shù)量級(jí)最優(yōu)模型。針對(duì)中文常識(shí)推理任務(wù),盤(pán)古 Pro MoE 在 CLUEWSC(EM)基準(zhǔn)上取得 94.7 的高分,較 Qwen3-32B(94.6)實(shí)現(xiàn)微幅提升,并明顯領(lǐng)先于 Gemma3-27B(91.3)等其他對(duì)比模型。
代碼生成方面, 在 MBPP+(Pass@1)的指標(biāo)達(dá)到 80.2,與 Qwen3-32B(82.0)處于同一性能區(qū)間。數(shù)學(xué)推理任務(wù)中,MATH-500 測(cè)試以 96.8 分超越 Qwen3-32B(96.6),CNMO2024 基準(zhǔn) Pass@1 指標(biāo) 70.8 亦較后者(70.4)提升 0.4 分。特別在 SuperGPQA 復(fù)雜問(wèn)題解答基準(zhǔn)中,54.8 的 Pass@1 得分顯著優(yōu)于 GLM-Z1-32B(52.6)和 Qwen3-32B(49.8)等稠密模型。
值得注意的是,在僅激活 160 億參數(shù)的配置下,盤(pán)古 Pro MoE 的推理能力即可媲美 320 億(32B)量級(jí)的先進(jìn)模型。這種高效率源于創(chuàng)新的 MoGE 架構(gòu)設(shè)計(jì),該架構(gòu)在保證邏輯推理精度的同時(shí),保障了高效的推理速度。
根據(jù) SuperCLUE 中文大模型基準(zhǔn)測(cè)評(píng) 5 月的數(shù)據(jù),盤(pán)古 72B 在開(kāi)源排行榜中位列第五,總分為 58.75 分,超越 Qwen3-14B、Qwen3-8B,僅次于 DeepSeek-R1 滿血版、DeepSeek-V3 滿血版以及 Qwen3-32B 和 235B。
華為開(kāi)源盤(pán)古大模型正值國(guó)產(chǎn) AI 開(kāi)源浪潮興起。2025 年開(kāi)年,DeepSeek-R1 的成功在全球掀起開(kāi)源風(fēng)潮,隨后國(guó)產(chǎn)大模型開(kāi)源消息接連不斷,涵蓋自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)、多模態(tài)等多個(gè)領(lǐng)域。
2025 年 6 月,MiniMax、阿里巴巴、月之暗面等國(guó)內(nèi)頭部大模型廠商陸續(xù)升級(jí)多款開(kāi)源大模型。研究報(bào)告顯示,這些廠商在有限算力支持下,通過(guò)算法升級(jí)促進(jìn)模型性能持續(xù)提升。
大模型價(jià)格同步快速下探。MiniMax-M1、豆包大模型 1.6 定價(jià)比 DeepSeek-R1 降低約 60%-80%,更高性價(jià)比將加快應(yīng)用普及速度。華為此次開(kāi)源舉措有望進(jìn)一步推動(dòng)人工智能技術(shù)在千行百業(yè)的應(yīng)用與價(jià)值創(chuàng)造。