91视频观看-91视频观看免费-91视频免费网址-91视频免费网站-国产日产欧产精品精品推荐在线-国产日产欧美a级毛片

關(guān)于ZAKER 合作

華為首個(gè)開(kāi)源大模型來(lái)了!Pro MoE 720 億參數(shù),4000 顆昇騰訓(xùn)練

國(guó)產(chǎn)大模型開(kāi)源競(jìng)爭(zhēng)進(jìn)入新階段,華為首次開(kāi)源盤(pán)古大模型核心能力。

6 月 30 日,華為宣布開(kāi)源盤(pán)古 70 億參數(shù)稠密模型和盤(pán)古 Pro MoE 720 億參數(shù)混合專(zhuān)家模型,同時(shí)開(kāi)放基于昇騰的模型推理技術(shù)。這是華為首次將盤(pán)古大模型的核心能力對(duì)外開(kāi)源。

華為表示,720 億參數(shù)的盤(pán)古 Pro MoE 模型在昇騰 800I A2 上實(shí)現(xiàn)單卡 1148 tokens/s 的推理吞吐性能,通過(guò)投機(jī)加速技術(shù)可進(jìn)一步提升至 1528 tokens/s,顯著優(yōu)于同等規(guī)模的稠密模型。

此次開(kāi)源正值國(guó)產(chǎn)大模型開(kāi)源浪潮興起之際。繼 DeepSeek-R1 成功后,MiniMax、阿里巴巴、月之暗面等頭部廠商陸續(xù)升級(jí)開(kāi)源模型,推動(dòng)大模型價(jià)格下探 60%-80%,加速應(yīng)用普及。

模型引入 " 快思考 " 和 " 慢思考 " 雙系統(tǒng)

華為此次開(kāi)源包括三個(gè)主要組件:盤(pán)古 Pro MoE 72B 模型權(quán)重和基礎(chǔ)推理代碼已正式上線開(kāi)源平臺(tái),基于昇騰的超大規(guī)模 MoE 模型推理代碼同步發(fā)布,盤(pán)古 7B 相關(guān)模型權(quán)重與推理代碼將于近期上線。

據(jù)開(kāi)源開(kāi)發(fā)者平臺(tái) GitGo 信息,盤(pán)古 Pro MoE 基于 MoGE 架構(gòu)構(gòu)建,總參數(shù)量 720 億,激活參數(shù)量 160 億。該模型專(zhuān)門(mén)針對(duì)昇騰硬件優(yōu)化,在昇騰 300I Duo 推理服務(wù)器上提供極具性價(jià)比的模型推理方案。

根據(jù)華為官方介紹,盤(pán)古 Embedded 7B 模型引入 " 快思考 " 和 " 慢思考 " 雙系統(tǒng),簡(jiǎn)單問(wèn)題用快速模式響應(yīng),復(fù)雜問(wèn)題用深度模式推理,可自動(dòng)切換。

方案在專(zhuān)家選擇階段采用分組機(jī)制,具體來(lái)說(shuō),先將專(zhuān)家劃分為若干等規(guī)模的分組,再?gòu)拿總€(gè)分組中選取相同數(shù)量的專(zhuān)家進(jìn)行激活。在典型的分布式部署中,每個(gè)專(zhuān)家分組對(duì)應(yīng)獨(dú)立的計(jì)算設(shè)備,從而 MoGE 天然地實(shí)現(xiàn)了跨設(shè)備的計(jì)算負(fù)載均衡。這一設(shè)計(jì)顯著提升了訓(xùn)練和推理場(chǎng)景下的系統(tǒng)吞吐量。

在預(yù)訓(xùn)練階段,華為使用了 4000 個(gè)昇騰 NPU,在包含 13 萬(wàn)億 tokens 的高質(zhì)量語(yǔ)料庫(kù)上進(jìn)行預(yù)訓(xùn)練,分為通用、推理和退火三個(gè)階段,逐步提升模型能力。

在后訓(xùn)練階段,其通過(guò)監(jiān)督微調(diào)(SFT)和強(qiáng)化學(xué)習(xí)(RL)進(jìn)一步增強(qiáng)推理能力,還采用了檢查點(diǎn)合并等技術(shù)優(yōu)化模型。

最終,盤(pán)古 Pro MoE 在昇騰 800I A2 上實(shí)現(xiàn)了單卡 1148 tokens/s 的推理吞吐性能,并可進(jìn)一步通過(guò)投機(jī)加速等技術(shù)提升至 1528 tokens/s,顯著優(yōu)于同等規(guī)模的 320 億和 720 億個(gè)參數(shù)的稠密模型;在昇騰 300I Duo 推理服務(wù)器上,華為也實(shí)現(xiàn)了極具性價(jià)比的模型推理方案。

千億內(nèi)總參數(shù)模型中處于領(lǐng)先

華為表示,昇騰 NPU 能夠支持盤(pán)古 Pro MoE 的大規(guī)模并行訓(xùn)練。多項(xiàng)公開(kāi)基準(zhǔn)測(cè)試結(jié)果表明,盤(pán)古 Pro MoE 在千億內(nèi)總參數(shù)模型中處于領(lǐng)先地位。

在英文基準(zhǔn)領(lǐng)域,盤(pán)古 Pro MoE 在 MMLU-PRO 上以顯著優(yōu)勢(shì)超越當(dāng)前主流的稠密模型(包括 Qwen3-32B、GLM-Z1-32B 和 Gemma3-27B)及 MoE 架構(gòu)的 Llama4-Scout 模型,創(chuàng)下新的性能標(biāo)桿。

在閱讀理解領(lǐng)域,盤(pán)古 ProMoE 于 DROP 基準(zhǔn)測(cè)試中獲得 91.2 的優(yōu)異成績(jī),與當(dāng)前最優(yōu)的 Qwen3-32B 模型(91.3)基本持平,充分驗(yàn)證其具備與前沿模型相當(dāng)?shù)挠⑽奈谋纠斫馀c推理能力。

在中文領(lǐng)域評(píng)估中,盤(pán)古 Pro MoE 展現(xiàn)出專(zhuān)業(yè)化的語(yǔ)言理解優(yōu)勢(shì)。

具體而言,在知識(shí)密集型評(píng)測(cè) C-Eval(EM)中,盤(pán)古 Pro MoE 以 91.1 的卓越成績(jī)超越 Qwen3-32B(89.2)等現(xiàn)有百億參數(shù)量級(jí)最優(yōu)模型。針對(duì)中文常識(shí)推理任務(wù),盤(pán)古 Pro MoE 在 CLUEWSC(EM)基準(zhǔn)上取得 94.7 的高分,較 Qwen3-32B(94.6)實(shí)現(xiàn)微幅提升,并明顯領(lǐng)先于 Gemma3-27B(91.3)等其他對(duì)比模型。

推理基準(zhǔn)盤(pán)古 Pro MoE 在保持高效推理的同時(shí),展現(xiàn)出優(yōu)異的邏輯推理能力。

代碼生成方面, 在 MBPP+(Pass@1)的指標(biāo)達(dá)到 80.2,與 Qwen3-32B(82.0)處于同一性能區(qū)間。數(shù)學(xué)推理任務(wù)中,MATH-500 測(cè)試以 96.8 分超越 Qwen3-32B(96.6),CNMO2024 基準(zhǔn) Pass@1 指標(biāo) 70.8 亦較后者(70.4)提升 0.4 分。特別在 SuperGPQA 復(fù)雜問(wèn)題解答基準(zhǔn)中,54.8 的 Pass@1 得分顯著優(yōu)于 GLM-Z1-32B(52.6)和 Qwen3-32B(49.8)等稠密模型。

值得注意的是,在僅激活 160 億參數(shù)的配置下,盤(pán)古 Pro MoE 的推理能力即可媲美 320 億(32B)量級(jí)的先進(jìn)模型。這種高效率源于創(chuàng)新的 MoGE 架構(gòu)設(shè)計(jì),該架構(gòu)在保證邏輯推理精度的同時(shí),保障了高效的推理速度。

" 工業(yè)奇跡 "

根據(jù) SuperCLUE 中文大模型基準(zhǔn)測(cè)評(píng) 5 月的數(shù)據(jù),盤(pán)古 72B 在開(kāi)源排行榜中位列第五,總分為 58.75 分,超越 Qwen3-14B、Qwen3-8B,僅次于 DeepSeek-R1 滿血版、DeepSeek-V3 滿血版以及 Qwen3-32B 和 235B。

有媒體評(píng)論稱(chēng),華為通過(guò)從芯片(昇騰 NPU)、到框架(MindSpore),再到模型(盤(pán)古)形成了完整的垂直整合體系。昇騰和盤(pán)古生態(tài)系統(tǒng)是一項(xiàng)里程碑式的技術(shù)成就。它證明在英偉達(dá)主導(dǎo)的單一產(chǎn)業(yè)格局之外,存在一種可行的高性能替代方案。

國(guó)產(chǎn)大模型開(kāi)源競(jìng)爭(zhēng)加劇

華為開(kāi)源盤(pán)古大模型正值國(guó)產(chǎn) AI 開(kāi)源浪潮興起。2025 年開(kāi)年,DeepSeek-R1 的成功在全球掀起開(kāi)源風(fēng)潮,隨后國(guó)產(chǎn)大模型開(kāi)源消息接連不斷,涵蓋自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)、多模態(tài)等多個(gè)領(lǐng)域。

2025 年 6 月,MiniMax、阿里巴巴、月之暗面等國(guó)內(nèi)頭部大模型廠商陸續(xù)升級(jí)多款開(kāi)源大模型。研究報(bào)告顯示,這些廠商在有限算力支持下,通過(guò)算法升級(jí)促進(jìn)模型性能持續(xù)提升。

大模型價(jià)格同步快速下探。MiniMax-M1、豆包大模型 1.6 定價(jià)比 DeepSeek-R1 降低約 60%-80%,更高性價(jià)比將加快應(yīng)用普及速度。華為此次開(kāi)源舉措有望進(jìn)一步推動(dòng)人工智能技術(shù)在千行百業(yè)的應(yīng)用與價(jià)值創(chuàng)造。

相關(guān)標(biāo)簽

最新評(píng)論

沒(méi)有更多評(píng)論了
全天候科技

全天候科技

提供專(zhuān)業(yè)快速完整的科技商業(yè)資訊

訂閱

覺(jué)得文章不錯(cuò),微信掃描分享好友

掃碼分享

熱門(mén)推薦

查看更多內(nèi)容
主站蜘蛛池模板: 免费特黄一级欧美大片在线看 | 精品国产品香蕉在线观看 | 一区二区视频在线 | 久久国产精品久久 | 色偷偷亚洲精品一区 | 在线看亚洲 | 婷婷91 | 亚州中文| 精品亚洲成a人在线观看 | 男女视频免费网站 | 中国一级做a爱片免费 | 久久er国产精品免费观看1 | 99精品国产综合久久久久 | 一本一道久久综合狠狠老 | 国产一区不卡 | 国产精品欧美一区二区三区 | 国产精品资源在线 | 精品一区二区三区视频在线观看免 | 国产日本欧美高清免费区 | 成年人网站免费看 | 欧美日本视频一区 | 成人在线观看网址 | 亚洲精品久久久久久久久久久网站 | 香港三级88久久经典 | 精品国产欧美精品v | 99精品热女视频专线 | 男人性天堂 | 一区二区三区日韩精品 | 一 级 黄 色 大片 | 国产亚洲综合在线 | 在线精品国产成人综合第一页 | 国产成人精品曰本亚洲77美色 | 中文字幕久久久 | 国内精品七七久久影院 | 国产手机在线视频 | 国产91精品一区 | 在线播放精品一区二区啪视频 | 波多野结衣视频在线观看地址免费 | 国产中文在线视频 | 九色视频在线观看免费 | 欧美一区综合 |