如果一個(gè)技術(shù)用 3 年時(shí)間,從默默無(wú)聞到改變世界,我們稱其為第 N 次工業(yè)革命;
如果這個(gè)技術(shù)從論文到落地的過(guò)程中,頭部玩家如走馬燈更迭,百億流量砸下去只聽(tīng)一聲響就陷入沉寂,我們稱其為資本絞肉機(jī);
如果這個(gè)技術(shù)集齊了以上所有特質(zhì),還能以常規(guī)技術(shù)乘十的速度進(jìn)化,讓互聯(lián)網(wǎng)時(shí)代的生態(tài)護(hù)城河、資金壁壘、規(guī)模效應(yīng)全部失效,創(chuàng)業(yè)公司也能站在世界舞臺(tái)中心,那么,它是大模型。
而這一趨勢(shì),自今年年初 DeepSeek" 掀桌 " 以來(lái),變得尤為明顯。時(shí)至今日,在大模型行業(yè),能留在桌子上的企業(yè)唯一的生存法則就是——?jiǎng)?chuàng)新至上。
那么,如何理解大模型行業(yè)的創(chuàng)新至上?為什么傳統(tǒng)互聯(lián)網(wǎng)的玩法在大模型時(shí)代會(huì)徹底失效?為什么大模型的淘汰,能以季度為單位發(fā)生?
剛剛結(jié)束的 MiniMax Week,或許正是我們審視這些問(wèn)題的最佳切入點(diǎn)。
以此為切口,你會(huì)看見(jiàn)一個(gè)創(chuàng)新行業(yè)的創(chuàng)業(yè)公司如何掙脫巨頭的射程;可以看到大模型從技術(shù)創(chuàng)新到改變世界之間的橋梁如何搭建;以及,一群 " 偏執(zhí) " 的人,如何在這個(gè)一切被按下加速鍵的行業(yè)中破浪前行。
一開(kāi)始,MiniMax Week 的關(guān)注度,還局限在大模型行業(yè)內(nèi)的討論:這次 MiniMax 會(huì)拿到多少 SOTA(State of the Art)成績(jī)。
直到全球社交網(wǎng)站上,橘貓、奶牛、三花,各式各樣的貓咪跳水視頻開(kāi)始像病毒一樣蔓延;緊隨其后,羊駝、熊貓、長(zhǎng)頸鹿,也在視頻中以空中 3 周半回旋、后空翻等姿勢(shì)從十米高臺(tái)一躍而下。甚至,在視頻中,你還會(huì)看到不同體重的動(dòng)物起跳時(shí),會(huì)對(duì)應(yīng)不同的跳板的震動(dòng)幅度與水花大小差異。
就像年初的 DeepSeek R1 發(fā)布一樣,MiniMax 迎來(lái)了自己的 "Aha 時(shí)刻 "。
"Aha Moment" 源自心理學(xué)與產(chǎn)品設(shè)計(jì)領(lǐng)域,指的是用戶在使用一個(gè)產(chǎn)品或工具時(shí),突然意識(shí)到其價(jià)值和潛力的那個(gè)瞬間。它往往伴隨著一種頓悟、驚喜或認(rèn)知飛躍的感覺(jué)。
在其背后,往往是技術(shù)發(fā)展從量變到質(zhì)變的關(guān)鍵突破;緊隨其后,則往往是產(chǎn)品滲透率大突破,以及行業(yè)大規(guī)模爆發(fā)轉(zhuǎn)折節(jié)點(diǎn)的到來(lái)。
而貓咪跳水,之所以被稱為視頻 AI 的 Aha Moment,除了其在社媒上引發(fā)的轟動(dòng)之外,更在于長(zhǎng)久以來(lái),跳水、體操、多人交互這樣的復(fù)雜動(dòng)作,長(zhǎng)期以來(lái)一直被視為視頻 AI 的 " 圖靈測(cè)試 "。
因?yàn)檫@些動(dòng)作不僅要求 AI 精確控制每一幀畫(huà)面,同時(shí),所有連續(xù)幀組成的運(yùn)動(dòng)時(shí)空軌跡如姿勢(shì)變化、跳躍旋轉(zhuǎn)角度、速度等細(xì)節(jié)必須符合現(xiàn)實(shí)的重力、慣性等物理規(guī)律;甚至,不同動(dòng)物起跳對(duì)應(yīng)的跳板振幅與不同入水姿勢(shì)帶來(lái)的水花角度等復(fù)雜環(huán)境交互,也必須精準(zhǔn)還原現(xiàn)實(shí)。
而這一切的背后,正是因?yàn)?MiniMax 最新發(fā)布的視頻模型—— Hailuo 02。
縱向?qū)Ρ龋琀ailuo 02 模型參數(shù)相較 Hailuo 01 增長(zhǎng) 3 倍,視頻分辨率提升至原生 1080P,能實(shí)現(xiàn)單次生成 10 秒的高清內(nèi)容,涵蓋精細(xì)肢體動(dòng)作、流體動(dòng)力學(xué)模擬、鏡面效果與真實(shí)物理交互,甚至可還原雜技演出級(jí)別的復(fù)雜動(dòng)態(tài),并給出專業(yè)級(jí)的原生運(yùn)鏡。
橫向?qū)Ρ龋琀ailuo 02 在 Artificial Analysis Video Arena 的 Image-to-Video 榜單中,位列全球第二。與此同時(shí),Hailuo 02 在性能超過(guò) Google Veo3 的情況下,其 API 成本卻只有 Google Veo3 的 1/9。
那么,為什么 Hailuo 02 能在保持高逼真度的同時(shí),還能保持低成本?
一方面是 scaling law 的助推:Hailuo 02 模型的總參數(shù)量相較于 Hailuo 01 擴(kuò)大了 3 倍,數(shù)據(jù)量擴(kuò)大了 4 倍,使得模型能夠理解更加復(fù)雜的指令和物理場(chǎng)景。
與此同時(shí),Hailuo 02 還采用了創(chuàng)新的 NCR(Noise-aware Compute Redistribution)架構(gòu)。這一架構(gòu)通過(guò)噪聲感知機(jī)制,將計(jì)算資源按照需求分配給不同的區(qū)域。高噪聲區(qū)域的信息密度較低,進(jìn)行壓縮處理;低噪聲區(qū)域則分配更多的計(jì)算資源,重點(diǎn)捕捉關(guān)鍵細(xì)節(jié),進(jìn)而有效減少 HBM 內(nèi)存讀寫(xiě)量逾 70%,讓訓(xùn)練與推理效率提升 2.5 倍。
當(dāng)然,這種將精力放在對(duì)的事情上、不斷創(chuàng)新的邏輯,不只是 NCR 的底層技術(shù)思路,同時(shí)也是對(duì) MiniMax 企業(yè)氣質(zhì),以及如今地位如何煉成的最好概括。
去年的同一時(shí)間,讓無(wú)數(shù)大模型創(chuàng)業(yè)者們最頭疼的問(wèn)題之一,一定包括:
巨頭的每一次轉(zhuǎn)身,都是中小企業(yè)的生死考驗(yàn)。那么你如何逃脫巨頭的資本萬(wàn)有引力?
不僅合作伙伴關(guān)心,但凡公開(kāi)場(chǎng)合,媒體、投資人也一定會(huì)反復(fù)追問(wèn)。
形勢(shì)看起來(lái)的確嚴(yán)峻:國(guó)內(nèi)外幾乎所有互聯(lián)網(wǎng)巨頭、科技巨頭全數(shù)下場(chǎng)大模型,百模大戰(zhàn)之激烈,一度讓人以為要復(fù)刻當(dāng)年共享單車、外賣的老路。
質(zhì)疑的原因似乎也講得通:大模型參數(shù)已經(jīng)走到萬(wàn)億關(guān)口,無(wú)論訓(xùn)練還是推理都需要足夠的資本壁壘;大模型進(jìn)化需要依賴海量數(shù)據(jù),而巨頭恰好有足夠的數(shù)據(jù)資源;大模型研發(fā)需要高密度的人才,大廠的優(yōu)渥資源,看似也足以支撐其挖來(lái)任何想要的人才。
但現(xiàn)實(shí)卻是:僅僅一年時(shí)間過(guò)去,百模大戰(zhàn)便進(jìn)入偃旗息鼓階段;各種榜單的 SOTA 也被 Open AI、Anthropic、MiniMax、DeepSeek 這樣的創(chuàng)業(yè)公司占據(jù)了大半。
邏輯很簡(jiǎn)單,大量的資本投入,只是模型訓(xùn)練的條件之一。但做大模型如投資,一個(gè)技術(shù)路線越是共識(shí)程度高,就越說(shuō)明這已經(jīng)是個(gè)滯后變量,企業(yè)必須不斷挖掘新的有效的 Alpha,才能帶來(lái)超額的回報(bào)。而在這一方面,更加靈活的創(chuàng)業(yè)公司,相比傳統(tǒng)巨頭,往往有著更加敏銳的嗅覺(jué)與更高效的決策鏈條。
具體到 MiniMax,市場(chǎng)層面,僅去年前 8 個(gè)月,其海外產(chǎn)品 Talkie 的全球下載量就快速突破千萬(wàn)次,超過(guò) Character AI,成為美國(guó)市場(chǎng)下載量第 4 的人工智能應(yīng)用。英國(guó)《金融時(shí)報(bào)》報(bào)道稱,MiniMax2024 年的營(yíng)收,在 7000 萬(wàn)美元左右。
技術(shù)層面,剛剛在專業(yè)大模型基準(zhǔn)測(cè)試 Artificial Analysis 榜單中拿下全球前二成績(jī)的 MiniMax M1 模型同樣是很好的例證。這是一個(gè)擁有 4560 億參數(shù)的大模型,除了在業(yè)內(nèi)主流的 17 個(gè)評(píng)測(cè)集位列前茅之外,M1 還是全球上下文最長(zhǎng)的推理模型,原生支持 100 萬(wàn) token 輸入長(zhǎng)度,是 DeepSeek R1 的 8 倍;并且支持 8 萬(wàn)個(gè)輸出 token,打破了 Gemini 2.5 Pro 的 6.4 萬(wàn)個(gè)限制,成為世界最長(zhǎng)輸出的模型。
與此同時(shí),在工具使用場(chǎng)景(TAU-bench)中,MiniMax-M1-40k 更是領(lǐng)跑所有開(kāi)源權(quán)重模型,甚至超過(guò)閉源模型 Gemini-2.5 Pro。數(shù)據(jù)顯示,即使在 30 多輪長(zhǎng)鏈路思考與工具調(diào)用任務(wù)中,MiniMax-M1-40k 依然有極高的穩(wěn)定性。
答案一是 M1 在架構(gòu)上的創(chuàng)新。
與業(yè)內(nèi)常規(guī)做法一樣,M1 也是在預(yù)訓(xùn)練的基座模型(MiniMax-Text-01)上進(jìn)行強(qiáng)化學(xué)習(xí)后構(gòu)建而成,同樣采用了混合專家結(jié)構(gòu)(MoE)。但鮮少有人知道,早在 2023 年前后,MoE 尚未成為行業(yè)共識(shí)的時(shí)候,MiniMax 就已經(jīng)推出了國(guó)內(nèi)首個(gè) MoE 大模型。
也是在同一時(shí)期,在同行還普遍采用傳統(tǒng) Transformer 的自注意力計(jì)算機(jī)制時(shí),MiniMax 就已經(jīng)開(kāi)啟了對(duì)混合注意力機(jī)制的探索,并在其后將這一技術(shù)用于 M1 模型。所謂混合注意力機(jī)制,就是 1/8 使用自注意力機(jī)制,另外 7/8 使用了自創(chuàng)的 Lightning Attention(線性注意力),通過(guò)先做 " 分塊計(jì)算 "(tiling),塊內(nèi)用傳統(tǒng)注意力計(jì)算,塊間采用線性注意力進(jìn)行信息傳遞,最終完成全局語(yǔ)義捕捉的方式,避免了累積求和操作(cumsum)拖慢速度。這也是更長(zhǎng)上下文窗口的底層技術(shù)支撐。
除了架構(gòu)的創(chuàng)新,在訓(xùn)練方法上,MiniMax M1 還采用 CISPO(Clipped IS-weight Policy Optimization)替代傳統(tǒng)的 PPO(近端策略優(yōu)化)/GRPO(deepseek 開(kāi)發(fā)的近端策略優(yōu)化),極大壓縮成本,提升訓(xùn)練效率。
傳統(tǒng)的 PPO/GRPO 算法在處理混合架構(gòu)時(shí)會(huì)直接忽略 However、Wait、Aha 之類的重要性很高但是頻率較低的 token,或者只給他們很低的權(quán)重。導(dǎo)致模型的復(fù)雜推理出現(xiàn)邏輯混亂等問(wèn)題。而 MiniMax 的 CISPO 算法,會(huì)根據(jù) token 的重要性對(duì)其進(jìn)行采樣、裁剪,賦予權(quán)重,讓長(zhǎng)響應(yīng)除了長(zhǎng)度之外,更有質(zhì)量。
推理側(cè),生成 10 萬(wàn) token 時(shí),M1 的推理算力也只需要 DeepSeek R1 的 25%,而且 M1 模型在數(shù)學(xué)和編程等任務(wù)上比 DeepSeek-R1 模型還要高效。
也就是說(shuō),對(duì) MiniMax 而言,大模型的確是個(gè)燒錢(qián)的事業(yè),但只要一腳邁過(guò)門(mén)檻,產(chǎn)業(yè)真正比拼的還是誰(shuí)更能通過(guò)技術(shù)創(chuàng)新省錢(qián),讓技術(shù)更加普惠,且?guī)?lái)更高的上限。
事實(shí)上,如果將目光拉長(zhǎng)到最近十年,會(huì)發(fā)現(xiàn),這已經(jīng)是第二次 AI 浪潮,上一波以 AlexNet+Alpha Go 點(diǎn)燃的 AI 大爆發(fā)中,AI 的落地始終沒(méi)有逃出視覺(jué)識(shí)別、NLP 的范疇,最終陷入短暫低谷。
但大模型不同,其通用能力帶來(lái)了更高的商業(yè)化天花板,也讓技術(shù)的生命周期,被無(wú)限拉長(zhǎng)。
最近兩年,行業(yè)的 Aha 時(shí)刻,大致可以分為兩種類型。一種是底層大模型的能力技術(shù)創(chuàng)新:比如一開(kāi)始的 ChatGPT,比如年初的 DeepSeek。
而在大模型創(chuàng)新基礎(chǔ)之上,是另一種橫向的 Agent 應(yīng)用創(chuàng)新,其典型代表比如 cursor、lovart、manus。
因?yàn)?Agent 的優(yōu)勢(shì)之一,就是可以通過(guò)多步操作集成達(dá)成更直觀可用的結(jié)果。而一個(gè)驚艷的成果展示,往往就是一個(gè)技術(shù)從實(shí)驗(yàn)室到產(chǎn)業(yè)加速的重要轉(zhuǎn)折點(diǎn),這次出圈的 Hailuo Video Agent 也如此。
比起一般的視頻生成,Hailuo Agent 操作更簡(jiǎn)單,同時(shí)效果更可控,可以一鍵生成全片。不只是小貓?zhí)蝰勌踔翉?fù)雜體操動(dòng)作,Hailuo Video Agent 都能搞定。目前階段 Hailuo Video Agent 已經(jīng)支持超百種視頻模板,涵蓋藝術(shù)片、廣告片、MV、社媒爆款等多種體裁。這也意味著 AI 徹底打通了創(chuàng)意構(gòu)思、分鏡設(shè)計(jì)、圖片素材生成、剪輯完整視頻的生產(chǎn)鏈路。
根據(jù) AI 產(chǎn)品榜數(shù)據(jù),自上線以來(lái),海螺 AI 連續(xù) 6 個(gè)月在全球榜單中位居視頻生成 AI 產(chǎn)品的第一,力壓 Sora、Runway 等國(guó)內(nèi)外 AI 視頻產(chǎn)品。
當(dāng)然,Agent 的另一個(gè)優(yōu)勢(shì)是通過(guò)集成多種工具、能力,帶著目的(用戶發(fā)出的需求)自主規(guī)劃路徑并執(zhí)行,從而自主幫人類解決復(fù)雜專業(yè)問(wèn)題,更通用的 MiniMax Agent 就是代表。
相比視頻生成效果驚艷的 Hailuo Video Agent,MiniMax Agent 的定位更像是一個(gè)具備長(zhǎng)期任務(wù)規(guī)劃與執(zhí)行閉環(huán)任務(wù)能力的 AI 專家,可以幫助 AI 完成從 "Chatbot" 向 " 專業(yè)生產(chǎn)力引擎 " 的質(zhì)變升級(jí)。具體來(lái)說(shuō),MiniMax Agent 是個(gè)能完成長(zhǎng)程(Long Horizon)復(fù)雜任務(wù)的通用智能體。能多步規(guī)劃出專家級(jí)解決方案、靈活拆解任務(wù)需求、執(zhí)行多個(gè)子任務(wù)從而交付最終結(jié)果。
據(jù)官方數(shù)據(jù),MiniMax Agent 在 MiniMax 內(nèi)部已經(jīng)使用了近 60 天,并成為超過(guò) 50% 的員工日常 PPT 制作、網(wǎng)頁(yè)搭建、代碼輔助使用的產(chǎn)品。
相比普通功能單一的 Agent,MiniMax Agent 能在編程上生成包含復(fù)雜跳轉(zhuǎn)邏輯、通過(guò)全面測(cè)試且沒(méi)有 bug 的網(wǎng)頁(yè);在多模態(tài)方面除了支持長(zhǎng)文本文件,也支持視頻、音頻、圖片等理解能力,同時(shí)支持生成圖文音并茂的作品;還能通過(guò) MCP 擴(kuò)展、來(lái)完成做動(dòng)畫(huà)、廣告片、PPT 等任務(wù) ……
可以說(shuō),MiniMax 的通用 Agent,是 MiniMax 大模型基礎(chǔ)智能,與跨模態(tài)能力結(jié)合起來(lái)的最強(qiáng)工程化能力落地。而 MiniMax 幾乎也是唯一一家能夠提供完整全模態(tài)能力的廠商。
當(dāng)然,可能也有人會(huì)質(zhì)疑,大模型公司做 Agent 的意義是什么?
擁有基座模型研發(fā)能力的大模型公司在開(kāi)發(fā)通用 Agent 上有著天然的優(yōu)勢(shì):憑借對(duì)底層架構(gòu)的深入把控,其 Agent 能在性能優(yōu)化、成本控制、生態(tài)構(gòu)建形成閉環(huán)優(yōu)勢(shì),從而主導(dǎo)開(kāi)發(fā)出更強(qiáng)大、適應(yīng)性更強(qiáng)的通用 Agent。
一句話概括就是:大模型的創(chuàng)新,打開(kāi)了 Agent 的能力天花板;Agent 的快速增長(zhǎng),讓大模型的演進(jìn)方向更加清晰明確。兩者就像下坡路上的滾雪球,互相借力,就能事半功倍,將生態(tài)越做越大。
如果說(shuō)大模型行業(yè)是一個(gè)時(shí)間、資本、創(chuàng)新、知識(shí)密度一切被極度壓縮的全新物種,那么身處其中,MiniMax 仍然可以算得上是一家 " 特立獨(dú)行 " 的存在。
MiniMax 早在 2022 年初就成立了——比 2022 年底 ChatGPT 引爆全球還要早上一年。這也導(dǎo)致當(dāng)年 ChatGPT 突然爆火之后,所有人都在四處打聽(tīng)這個(gè) MiniMax 到底是何方神圣。
在技術(shù)路徑上,MiniMax 也同樣敢為人先。
2023 年,彼時(shí)國(guó)內(nèi)市場(chǎng)還是 Dense(稠密)模型的天下,MiniMax 卻將 80% 以上的算力和資源全部投入 MoE(混合專家)模型的開(kāi)發(fā)中,于 2024 年初推出了國(guó)內(nèi)第一個(gè) MoE 大模型,成為共識(shí)引領(lǐng)者。
今年 1 月,MiniMax 又開(kāi)源了籌謀已久的 Lightning Attention 閃電注意力技術(shù),對(duì)著 Transformer 架構(gòu)進(jìn)行了一頓大刀闊斧的 " 爆改 ",挖掘大模型突破天花板的新 Alpha 因子。
到了 6 月,MiniMax 拿出的 M1 已經(jīng)憑借 100 萬(wàn)上下文窗口、算力成本暴降 70%,以及架構(gòu)、算法的一系列創(chuàng)新,閃電拿下開(kāi)源模型全球第二寶座(數(shù)據(jù)來(lái)源 Artificial Analysis Intelligence Index 榜單,排名截至目前)。
而與 M1 同期發(fā)布的 MiniMax 通用 Agent,也已經(jīng)能夠解決當(dāng)下無(wú)數(shù) Agent 應(yīng)用備受困擾的跨模態(tài)、長(zhǎng)距離(多決策)、任務(wù)拆解、工具調(diào)用難題,完成了從工具到全能助理的進(jìn)化。
這似乎是一家永遠(yuǎn)不知疲倦,永遠(yuǎn)在顛覆自我,永遠(yuǎn)在探索更高上限、更高智能水平的 AI 公司。
而這種近乎偏執(zhí)的創(chuàng)新驅(qū)動(dòng),本質(zhì)上是對(duì) AI 大模型競(jìng)賽終局的預(yù)判,偉大商業(yè)模式往往是直白甚至淺顯的—— all in 技術(shù)創(chuàng)新,然后堅(jiān)定不移地執(zhí)行。