6 月 6 日,被譽為 "AI 學術春晚 " 的第七屆智源大會在北京召開。
作為中國最早布局大模型研發的科研機構,今天,北京智源人工智能研究院(以下簡稱 " 智源研究院 ")發布 " 悟界 " 系列大模型,包括原生多模態世界模型 Emu3、跨本體具身大小腦協作框架 RoboOS 2.0 與全新智源具身大腦 RoboBrain 2.0、全球首個腦科學多模態通用基礎模型見微 Brain μ 以及全原子微觀生命模型 OpenComplex2。
這是繼 " 悟道 " 系列大模型之后,智源研究院首次推出代號為 " 悟界 " 的具身模型系列。
會前溝通時,王仲遠對筆者表示,當前,AI 大模型技術還遠沒有到發展的盡頭。而目前 AI 缺乏世界和空間的感知,多模態數據還沒有被有效利用,因此,從 " 悟道 " 到 " 悟界 " 是水到渠成的一件事,AI 正加速從數字世界進入物理世界,這一切構成的世界模型,是實現物理 AGI 的重要發展路徑。
其中," 悟道 " 的 " 道 " 代表智源對大語言模型系統化方法和路徑的探索," 悟界 " 的 " 界 " 代表虛實世界邊界的不斷突破。" 悟界 " 系列大模型承載的是智源對 AI 從數字世界邁向物理世界的技術趨勢的判斷。
王仲遠對筆者指出," 具身智能 " 不代表人形機器人的智能,所以全新智源具身大腦 " 悟界 " 可以適配輪式單臂、輪式雙臂、人形雙足、四足等機器人類別。據悉,目前智源已經與 20 多家具身智能頭部企業已建立非常深度生態的合作關系。
" 與很多具身智能創業者、科研學術界老師交流后,我的一個堅定觀點是:具身智能的‘小組賽’還沒結束(在進行中),遠沒有到‘淘汰賽’。所以,行業需要越來越多的參與方一起共建具身智能產業,這本身是一件好事,因為這會給大家帶來不同視角、不同理念。"王仲遠稱。
王仲遠強調,現在人形機器人的硬件不成熟,模型也不成熟。而未來,機器人首先會在特定場景里落地,尤其是一些相對封閉的場景,比如在工廠完成相對固定、重復、枯燥甚至危險的任務,這會是具身智能第一波真正的紅利。
據悉,智源研究院是于 2018 年 11 月在北京海淀成立的一家非營利性新型研發機構,致力于成為 AI 創新引領者,營造全球最佳的學術和技術創新生態,挑戰最基礎的問題和最關鍵的難題,成為全球 AI 學術思想、基礎理論、頂尖人才、企業創新和發展政策的源頭。
其中,智源社區鏈接 19 萬 +AI 技術人員,和青源會近 2000 位海內外青年 AI 科學家,加速 AI 原始創新,并累計支持 120+ 智源學者開展 AI 前沿探索,累計孵化加速了 10 余家具有核心技術能力的 AI 創新企業,估值超過百億有 1 家,超過十億有 5 家。
而去年,智源大會發布一系列技術產品,使得大模型從語言模型向多模態大模型延伸,并向世界模型方向進行演進,加速從數字 AI 世界進入到物理 AI 世界。王仲遠稱," 實踐證明,我們對于技術演進路徑預判的正確性。"
據透露,目前智源開源模型全球總下載量超 6.4 億次,比去年同期的 4755 萬次提升 12.5 倍;AI 系統軟件棧 FlagOS 對 11 家國內外廠商 18 款 AI 芯片已統一支持;開源超 160 個數據集,下載量近 113 萬次;開源項目代碼下載量超 140 萬次。
" 大模型技術還遠沒有到發展的盡頭,過往所說的‘百模大戰’更多的是大語言模型的競爭,而大語言模型受限于互聯網數據的使用,基礎模型性能雖然還在提升,但是提升速度不如以前。" 王仲遠指出,就目前來看,大語言模型性能提升瓶頸的解法大體有以下三種:
一是通過強化學習,在后訓練和推理上提升,例如,O1、O3、O4、DeepSeek R1,這是過去一年大模型產業界最大的一塊進展。
二是數據合成,目前學術界仍在突破。互聯網數據都是人類創造的。如果 AI 合成的數據、生成的數據質量能夠達到人類創造的數據質量,那意味著 AI 有可能實現自我學習和進步。
三是多模態數據,在全世界范圍內,多模態數據是文字數據的百倍千倍乃至萬倍甚至更多,這些數據遠沒有被很有效利用。
如今,智源通過多種研發方式,利用原生多模態世界模型,讓 AI 感知和理解物理世界,進而推進和物理世界的交互。進入物理世界之后,在宏觀層面,大模型與硬件結合,通過具身智能的發展解決實際生產生活問題;微觀層面,基于生成式 AI 的蛋白質、腦機接口等應用,能夠進一步揭示微觀世界的本質,試圖揭示生命機理本質規律,構建 AI 與物理世界交互基座。
具體來說,原生多模態世界模型 Emu3 讓大模型具備理解和推理世界的能力,腦科學多模態通用基礎模型見微 Brain μ 基于 Emu3 架構,引入腦信號這一新的模態數據,實現了單一模型完成多種神經科學任務的大一統。多模態與腦科學模型未來可成為人機交互具身場景下的基礎模型。
王仲遠稱,現在多模態技術路線還沒有收斂,文生圖、文生視頻走的是 Transformer+Diffusion 的技術路線,比較確定,能力不斷提升,在某些特定場景已落地。能否非常普世和廣泛落地,需要一段時間。
而 RoboOS 2.0 與 RoboBrain 2.0 在初代版本基礎上,原有性能大幅提升,并新增多機協作規劃與物理常識驅動的空間推理能力;OpenComplex2 可在原子分辨率層面捕捉分子相互作用及平衡構象,探索微觀構象波動與宏觀生物功能的跨尺度關聯。
" 具身智能目前仍處于技術探索的早期階段,類似于大模型在 GPT-3 之前的摸索期。" 王仲遠認為,當下具身智能面臨多重挑戰,一方面,核心技術路徑尚未明確,如仿真數據利用和 " 大小腦 " 融合架構等仍在探索中,技術復雜度遠超智能駕駛。另一方面,數據采集困難是具身智能發展的重要瓶頸。真機數據獲取受限于現有模型能力,形成 " 循環悖論 ",加之真實世界多模態數據雖然豐富,卻難以高效利用。
而軟硬件協同復雜,特別是跨本體 " 大小腦 " 融合尚未成熟,導致產業落地周期長,缺乏明確的規模化應用。王仲遠認為,未來 5-10 年,大小腦融合的模型可能會成熟,但不是今天。
" 我們認為具身智能或機器人 2.0 時代,最重要的就是突破專有任務,達到一定的泛化性,具備跨領域的能力,這跟 AI 第三次浪潮中深度學習的發展路徑相似。現在很多所謂的 VLA 模型,不具備泛化性,這需要時間的沉淀。" 王仲遠表示。
同時,開源模型方面,目前智源擁有通用向量模型 BGE 系列 BGE-v1、BGE-M3、BGE-code-v1、BGE-VL-v1.5 和 BGE-VL-screenshot 等模型,目前,BGE 模型已廣泛應用于人工智能產業,被百度、騰訊、華為、阿里巴巴、微軟、亞馬遜等知名企業商業化集成;而智源近期還開源輕量長視頻理解模型 Video-XL-2,效果更佳、長度更長、速度更快;以及開源全能視覺生成模型 OmniGen。
此外,大會期間,智源研究院與北京大學第一醫院簽署戰略合作協議,并且還宣布智源研究院與持有 620 億港元的香港投資管理有限公司建立戰略合作框架,共建世界級跨區域合作的 AI 生態圈。智源與港投的合作將加速人才、技術、資本的飛輪效應,構建人才循環體系,匯聚全球 AI 青年人才、支持 AI 創新創業、加速 AI 產業全球化。
(本文首發于鈦媒體 App,作者|林志佳,編輯|蓋虹達 )