讓 AI 看懂 95 萬物種,并自己悟出生態(tài)關(guān)系與個(gè)體差異 !
俄亥俄州立大學(xué)研究團(tuán)隊(duì)在 2 億生物圖像數(shù)據(jù)上訓(xùn)練了 BioCLIP 2 模型。大規(guī)模的訓(xùn)練讓 BioCLIP 2 取得了目前最優(yōu)的物種識(shí)別性能。
而更令人驚喜的是,即使在訓(xùn)練過程中沒有相應(yīng)監(jiān)督信號(hào),BioCLIP 2 還在棲息地識(shí)別、植物疾病識(shí)別等 5 個(gè)非物種任務(wù)中給出了遠(yuǎn)超 DINOv2 的準(zhǔn)確率。
BioCLIP 2 在大規(guī)模訓(xùn)練中獲取了物種之外的涌現(xiàn)的生物學(xué)理解:
物種間生態(tài)對(duì)齊:不同達(dá)爾文雀在特征空間中的排列和他們喙的大小一致;
物種內(nèi)差異分離:雌雄 / 幼成體的特征落在與物種區(qū)別正交的子空間,且隨訓(xùn)練規(guī)模增大而更容易區(qū)分。
把 " 生命之樹 " 搬進(jìn)顯存
大語(yǔ)言 / 視覺模型的 " 涌現(xiàn) " 告訴我們:規(guī)模 + 結(jié)構(gòu)化監(jiān)督 = 意料之外的能力。
然而,生物多樣性研究領(lǐng)域一直沒有見到一個(gè)具有涌現(xiàn)屬性的視覺語(yǔ)義基座。BIOCLIP 把 CLIP 的多模態(tài)對(duì)齊搬到物種上,利用〔界 - 門 - 綱 - 目 - 科 - 屬 - 種〕+ 學(xué)名 + 常用名的多粒度文本提供層級(jí)監(jiān)督。在此基礎(chǔ)之上,研究團(tuán)隊(duì)提出一個(gè)問題:
如果把層級(jí)對(duì)比學(xué)習(xí)從 1 千萬張圖像直接推到 2 億,會(huì)不會(huì)學(xué)出超越 " 物種標(biāo)簽 "的生物學(xué)知識(shí)?
BIOCLIP 2 正是這一實(shí)驗(yàn)的答案。
為了實(shí)現(xiàn)這一目標(biāo),研究團(tuán)隊(duì)從 GBIF、EOL、BIOSCAN-5M、FathomNet 等 4 大平臺(tái)收集了 2.14 億生物圖像,提出了 TreeOfLife-200M 數(shù)據(jù)集。該數(shù)據(jù)集包含 95.2 萬個(gè)不同的分類標(biāo)簽,涵蓋標(biāo)本、野外相機(jī)陷阱等豐富的圖像類別。這是迄今規(guī)模最大、最豐富的生命圖像庫(kù)。
性能一覽
物種識(shí)別:零樣本物種識(shí)別平均準(zhǔn)確率 55.6% →比第二好的 SigLIP 模型提升了 16.1。少樣本物種識(shí)別遠(yuǎn)優(yōu)于常用的視覺模型 DINOv2。
兩大涌現(xiàn)屬性
1. 物種間生態(tài)對(duì)齊
具有相似生活習(xí)性和生態(tài)學(xué)意義的物種在特征空間中聚集在一起,如淡水 vs 咸水魚隨著訓(xùn)練規(guī)模擴(kuò)大分界逐漸清晰。
解釋:層級(jí)標(biāo)簽把生態(tài)近鄰拉向相似的文本原型,從而實(shí)現(xiàn)視覺特征和功能特征的對(duì)齊。
同一物種雌雄、幼成體之間的差異沒有被對(duì)比學(xué)習(xí)消除,而是沿著物種間差異正交的方向分布,且正交程度隨著訓(xùn)練規(guī)模增大同步增大。
解釋:當(dāng)對(duì)比學(xué)習(xí)將不同的物種分開后,物種內(nèi)的差異可以在正交子空間內(nèi)分布而不會(huì)影響物種分類的損失優(yōu)化(論文中定理 5.1)。
項(xiàng)目主頁(yè):https://imageomics.github.io/bioclip-2/
Demo 網(wǎng)址:https://huggingface.co/spaces/imageomics/bioclip-2-demo
論文網(wǎng)址:https://arxiv.org/abs/2505.23883
一鍵三連「點(diǎn)贊」「轉(zhuǎn)發(fā)」「小心心」
歡迎在評(píng)論區(qū)留下你的想法!
— 完 —
點(diǎn)亮星標(biāo)
科技前沿進(jìn)展每日見