今年 7 月初,AI 芯片巨頭英偉達市值首次突破 4 萬億美元(約合人民幣 28 萬億元)大關,成為全球市值最高的人工智能、半導體和科技領域的企業。同時,英偉達 CEO 黃仁勛身價也增至 1440 億美元,超越 " 股神 " 巴菲特,成為全球資本市場的焦點。
這一現象背后,不僅僅是個別企業的成功故事,更是 AI 時代全球科技、資本市場格局變化,還預示著 AI 算力和基礎設施對于 AI 產業發展的重要性。
而對于國內市場來說,這一輪 AI 算力熱是一次重要的機遇。一方面,國內面臨 AI 算力封鎖挑戰;另一方面,DeepSeek 等中國 AI 大模型發展迅猛,對于 AI 推理算力需求增加,但國產 AI 芯片產能不足、具有較大缺口。
據統計,預計到 2030 年左右,中國 AI 芯片市場規??赡艹^ 1.3 萬億元,屆時中國 AI 產業及相關行業可能將價值 1.4 萬億美元(約合人民幣 10 萬億元)。
那么,如今 " 后摩爾時代 " 下,中國 AI 芯片行業如何學習 DeepSeek 這種以效率為導向、低成本發展模式,開辟一條獨特的發展路徑,用新技術突圍算力封鎖,從而提升國產 AI 算力技術和生態?
7 月初舉行的中國集成電路設計創新大會(ICDIA)上,清華大學教授、集成電路學院副院長、清微智能聯合創始人兼首席科學家尹首一發表題為《AI 時代芯片設計的 STCO 挑戰》,提出了一個非常新穎的 STCO(System-Technology Co-optimization)" 系統技術協同優化 " 的方法,通過對系統、目標需求建模,希望整合芯片設計、制造工藝、封裝技術等多個環節,從而實現 AI 芯片性能、功耗、面積、成本(PPAC)的最優平衡。
芯片系統技術協同優化解決算力 " 十字路口 "
AI 技術進入大眾視野到今天已經十三年,大體分為三個階段:
第一階段:2012 年 -2017 年之間,關注一個具體、 受限的 AI 任務,如圖像識別;
第二階段:2018 年以后,AI 大模型領域的 " 過渡期 " 形成了非常關鍵的技術,比如 Transformer 架構,但當時的 AI 模型參數規模并沒有特別大;
第三階段:2020 年至今,我們進入大模型的時代,AI 模型和規模急劇擴張,大規模參數的模型結構更復雜,適用于多任務學習,具備更好的性能和泛化能力。
如今,AI 大模型發展的背后,芯片算力必不可缺,今天 AI 需求的算力是供給的 100 倍左右。而三要素——計算架構、制造工藝、芯片面積相乘,就構建出強大的芯片算力。
然而,當前國內 " 制造工藝 " 受限,芯片性能增長已進入 " 瓶頸期 "。而且,集成電路產業進入 " 后摩爾 " 時代,從原來單一芯片設計到如今 " 軟件 + 系統設計 ",致使芯片算力技術發展進入到 " 十字路口 "。
事實上,隨著芯片制程和功耗要求越來越高,技術需求越來越復雜,所謂 " 價格不變時集成電路上可容納的晶體管數目每隔 18-24 個月增加一倍、性能也將提升一倍 " 這一定律已不太可能會實現,制造工藝面臨物理極限,工藝紅利帶來的算力提升已難以為繼,市場呼喚新的技術突破。同時,先進工藝封鎖、先進 HBM(高帶寬存儲)封鎖也成為 AI 芯片算力發展的新挑戰。
1、架構探索:
垂直堆疊:堆疊方式、芯粒設計和互連方式具有多種選擇,存在更大的探索空間,需要自動化的架構探索和評估工具。
規模擴展:傳統前后端設計順次進行的方式會導致迭代時間過長,需要在設計前期提供工藝約束預評估的協同優化工具。
2、組件設計:3.5D 大芯片中存在更多的設計選擇, 協同影響系統設計指標。在 3.5D 大面積集成下,供電分布網絡(PDN)、深溝槽電容(DTC)規模龐大,存在協同優化難的問題,同時三維集成架構中,TSV(硅通孔技術)承載著信號、供電等重要作用,與機械應力等問題息息相關,需要仔細權衡 TSV 設計與芯片性能、良率的關系。因此,芯片設計過程中需要組件定制化設計和優化的工具。
3、快速仿真:在 3.5D 高密度集成下,現有設計流程無法提前考慮大規模翹曲,導致迭代周期長成本高,且現有工具難以支撐 3.5D 大規模封裝力學仿真問題,因此,未來芯片研發需要高抽象層次的預評估方法,以及針對 3.5D 規模的快速多物理場力學仿真 EDA 工具。
4、工藝優化:現有互連工藝存在長互連通信差、光罩拼接精度低、多金屬層難實現等問題,限制架構互連拓撲創新,所以芯片設計過程中需要工藝與設計協同優化。
尹首一表示,AI 時代,我們設計一款 3.5D 大芯片面臨的四部分芯片設計挑戰,可以總結為三個層次的痛點,從而迫切需要我們在芯片設計方法學、設計工具上有所突破:
1、我們今天暫時對一些問題缺乏設計及評估工具,在這種情況下只能靠經驗驅動,依賴于人工經驗,從而帶來性能的急劇下降;
2、設計芯片中確實有一部分的基礎工具,但是存在仿真慢、迭代長等問題,尚無法滿足設計周期需求;
3、今天對 STCO 設計空間探索尚不全面,造成今天一部分設計芯片沒有找到最佳的性能和設計決策點。
尹首一強調,上述痛點既是未來在 AI 時代設計算力大芯片亟需突破的問題,也給一些領域帶來了新的機會,希望芯片技術發展過程中,可以在設計、工具、工藝三方面充分協同起來,能夠完美解決一些挑戰,并且滿足設計中的需求,為未來 AI 芯片算力供給提供最堅實的基礎和保障。
未來 AI 算力非 GPU 架構加速崛起
隨著 AI 和大數據技術的廣泛應用,中國芯片算力規模已呈現快速增長態勢。
據弗若斯特沙利文統計,2024 年,中國 AI 計算加速芯片市場規模 1425.37 億元,到 2029 年激增至 13367.92 億元,期間年均復合增長率 53.7%。同時,2024 年中國算力總整體規模達 617.00EFLOPs,預計到 2029 年達 3442.89EFLOPs,年均復合增長率 40%,其中,智能算力 2025 年 -2029 年期間年均復合增長率高達 45.3%。
值得一提的是,一種與英偉達 GPU 共享式集中計算模式不同,基于分布式數據流計算的新型計算架構——可重構 RPU(Reconfigurable Processing Unit),近年來隨著 AI 大模型發展異軍突起。
它與 CPU 的馮 · 諾依曼指令驅動時域計算模式不同,是一種數據驅動的時空域執行模式,可根據不同的應用需求重構硬件資源,構建專用的計算通道,天然適配 AI 算法模型并行化、流式化、密集化特點,使得 AI 芯片具備靈活性和專用集成電路高效性的優勢。2015 年,國際半導體技術路線圖(ITRS)將可重構芯片列為 " 未來最具前景芯片架構技術 ",可重構芯片也被學術界和產業界視為 CPU、FPGA 和 GPU 之外的第四類通用計算芯片。
放眼全球,該類型架構芯片呈現蓬勃發展態勢。例如,美國斯坦福大學孵化的公司 SambaNova,通過自研的可重構芯片產品成為 AI 芯片行業估值最高的獨角獸公司,其產品能夠支持 5 萬億參數模型訓練,8 芯片配置性能為英偉達 H100 的 3.1 倍;美國芯片初創公司 Groq 開發的張量流式處理器架構 LPU(Language Processing Unit),推理速度相較于英偉達 GPU 提高 10 倍,成本卻降低至英偉達的十分之一;特斯拉在專為 AI 訓練自研的 Dojo 超算系統中也采用了分布式數據流計算方式,單個 Dojo 擁有 9Petaflops 算力、每秒 36TB 帶寬,目前是特斯拉實現通用人工智能(AGI)的核心基礎設施。
分布式數據流計算不僅在技術層面持續實現突破,在產品商業化方面也取得了階段性成果。近期,OpenAI 租用谷歌 AI 芯片(TPU)訓練 ChatGPT,首次采用了 "GPU 訓練 +TPU 推理 " 的混合架構模式。今年 4 月,谷歌最強 AI 芯片第七代 TPU(張量處理單元)—— Ironwood 正式亮相,這款 TPU 芯片性能狂飆 3600 倍,直接叫板英偉達 Blackwell B200。
據 Capvision 顯示,谷歌 TPU 集群中,70%-80% 的算力用于內部業務場景,剩余不到 30% 以租賃方式對外使用。而其中,全球超過 60% 的生成式 AI 初創公司、近 90% 生成式 AI 獨角獸都在使用谷歌云 TPU AI 基礎設施服務。
國內專注可重構 RPU 芯片的代表企業包括清微智能。
作為 " 脫胎 " 于清華可重構實驗室的 AI 芯片公司,清微智能基于國產原創可重構芯片(RPU)架構研發并量產了高算力芯片 TX8 系列,面向智算中心等云計算場景,其最新 TX81 單個 RPU 模組算力可達到 512TFLOPS(FP16),龐大的 REX1032 訓推一體服務器單機算力可達 4 PFLOPS,單機可支持 DeepSeek R1/V3 滿血版推理,支持萬億以上參數大模型部署,可實現千卡直接互聯,無需交換機成本。目前,清微智能已在國內多個省份落地千卡智算中心,同時在多個行業實現服務器部署。
總結來看,國內 AI 算力缺口很大、市場需求持續增長。長期來看,未來 AI 芯片核心架構的內在屬性需要與 AI 模型特點相適配,同時要結合架構探索、組件設計、快速仿真、工藝優化等先進集成技術設計手段進行 STCO,不斷迭代,換道超車,才能有望突破當前英偉達 GPU 產品天花板,實現 AI 芯片性能、功耗、面積、成本(PPAC)的最優平衡。
正如黃仁勛所講,AI 需要一種基礎設施,就像互聯網、電力一樣。如今,無論是 AI 工廠,還是 Agentic AI,或是物理 AI,所有這些場景都催生出強大計算能力需求,未來,數據中心將是新的計算單元。(本文首發于鈦媒體 App,作者|林志佳,編輯|蓋虹達)