91视频观看-91视频观看免费-91视频免费网址-91视频免费网站-国产日产欧产精品精品推荐在线-国产日产欧美a级毛片

關(guān)于ZAKER 合作
鈦媒體 1小時前

類比的長河,為何流到大模型就被截流?

文 | 追問 nextquestion

當(dāng)下想要找到些 " 普通人類擅長,而大模型不擅長 " 的任務(wù),似乎越來越難了。" 類比 " 可能就是這樣的任務(wù),這不只是人工智能的 " 阿克琉斯之踵 ",更顯露出不同大模型間以及大模型與人類之間的本質(zhì)差異。

在《表象與本質(zhì)》一書中,認(rèn)知科學(xué)家侯世達(dá)(Douglas Hofstadter)指出:

類比不僅僅是語言或邏輯的工具,更是思維的基本單位。

我們?nèi)粘UZ言中充滿了類比和隱喻,就如同 " 充滿 " 一詞本身。類比能夠激活創(chuàng)造力。例如,愛因斯坦將引力場類比為一個重物被放入蹦床后造成的表面彎曲,這啟發(fā)他提出了廣義相對論。類比還能解釋難以理解的現(xiàn)象。就像為人所熟知的類比 " 意識就像冰山 ",通過將意識與冰山聯(lián)系起來,人們可以直觀地推斷出意識在水面下的深度和復(fù)雜性。

那么,大語言模型是否也具有類比能力?

在機(jī)器學(xué)習(xí)中,類比體現(xiàn)為 "0 嘗試推理 ",即不給大模型可供學(xué)習(xí)的示例,而是讓大模型自行根據(jù)題目進(jìn)行推理。為了驗證大模型能否進(jìn)行類比推理,Webb 等人(2023)設(shè)計并使用了三種類比推理任務(wù)——字符串類比、數(shù)字矩陣和故事類比,以此測試 GPT3 面對不同類型任務(wù)的推理能力。通過這套測試,研究人員認(rèn)為他們證明了 GPT-3 具有類比推理能力 [ 1 ] 。

但是,更進(jìn)一步的問題是,這些大模型會不會只是在回憶訓(xùn)練數(shù)據(jù),而并非真正的類比呢?當(dāng)面對更變化多樣的問題時,大模型能否具有穩(wěn)定的類比能力?

01 大模型能讀懂題目 " 馬甲 " 下的本質(zhì)嗎?

為了檢測模型是否依賴表面特征或捷徑,而非真正的抽象推理,圣塔菲研究院的 Lewis & Mitchell,基于 Webb 等人設(shè)計的基本轉(zhuǎn)換和泛化類型,設(shè)計了更進(jìn)一步的變體測試 [ 2 ] 。

他們給題目套一些 " 馬甲 ",在不改變本質(zhì)的同時,讓題目看起來不同;然后用新的測試對 GPT-3(text-davinci-003)以及近期更新的大模型 GPT-3.5(gpt-3.5-turbo-0613)、GPT-4(gpt-4-0613)進(jìn)行類比能力測試,包括字符串、數(shù)字矩陣和故事類比實驗。這類研究中,最常用到的是侯世達(dá)于 1985 年提出的" 字符串類比 "*。

* 字符串類比:a b c d → a b c e; i j k l → ?

其中,第一部分是 " 源轉(zhuǎn)換 ",第二部分是 " 目標(biāo) ",任務(wù)是以類似于源轉(zhuǎn)換的方式轉(zhuǎn)換目標(biāo)字符串。

2023 年,Webb 等人提出了六種轉(zhuǎn)換類型(如序列擴(kuò)展、后繼、前驅(qū)等)和多種泛化類型(如字母到數(shù)字、分組、更長目標(biāo)等)的組合。他們?yōu)槊糠N問題類型生成了大量問題,并將這些問題給到 GPT-3(text-davinci-003)以及 57 名 UCLA 本科生進(jìn)行測試。結(jié)果發(fā)現(xiàn),人類參與者的準(zhǔn)確率表現(xiàn)出很大的差異,但總體而言,GPT-3 在大多數(shù)問題類型上的表現(xiàn)甚至優(yōu)于平均人類表現(xiàn) [ 1 ] 。

但是,這項研究中所使用的字母表均為標(biāo)準(zhǔn)英文字母表及其固有順序,測試中大模型表現(xiàn)出來的 " 類比能力 " 是否可能依賴表面特征走了 " 捷徑 "?為此,Lewis & Mitchell 保留了基本轉(zhuǎn)換和泛化類型,又進(jìn)一步創(chuàng)建了兩類變體 [ 2 ] :

- 虛構(gòu)字母表:隨機(jī)打亂 2-20 個字母的順序,創(chuàng)建 28 種不同的打亂字母表

- 符號字母表:用非字母符號完全替代字母,創(chuàng)建 9 種不同的符號字母表

研究人員對真實的拉丁字母表,隨機(jī)選取 1-3 對進(jìn)行替換,然后分別給人類和 GPT-3、GPT-3.5、GPT-4 進(jìn)行了測試。

圖 1. Lewis & Mitchell 給受試人類和大模型的類比問題示例 . 圖源: [ 2 ]

結(jié)果顯示,當(dāng)字母表的替換次數(shù)增加后,不論是 GPT3、GPT3.5 或到 GPT4,其回答準(zhǔn)確性都有下降,且都顯著低于在線招募的人類受試者 [ 2 ] 。

圖 2:不同字母表替換次數(shù)下,GPT 模型和人類被試者的準(zhǔn)確性對比 . 圖源: [ 2 ]

Mitchell 團(tuán)隊還做過一項嘗試,他們讓 42 名兒童(7-9 歲)、62 名成人以及 4 種大模型(Anthropic 的 Claude-3.5、Google 的 Gemma-2 27B、Open AI 的 GPT-4o 和 Meta 的 Llama-3.1 405B),接受拉丁字母表、希臘字母表和符號列表三種條件的字符串類比任務(wù) [ 3 ] 。

圖 3:不同類型的字母推理問題 . 圖源: [ 3 ]

結(jié)果顯示,大模型面對類比問題時,準(zhǔn)確性就會顯著下降,表現(xiàn)甚至不如兒童。就拿 GPT-4o 和 Claude-3.5 來說,在拉丁語字母表上,其平均準(zhǔn)確性要高于兒童并接近成人;但當(dāng)題目換成希臘字母,準(zhǔn)確性就會顯著下降;而到了符號時,其準(zhǔn)確性甚至不如孩童。而其他開源模型如 Llama-3.1 405B 和 Gemma-2 27B,其準(zhǔn)確性下降更為明顯 [ 3 ] 。

圖 4:不同大模型和人類在三類字符串類比中的表現(xiàn)對比 . 圖源: [ 3 ]

上述結(jié)果說明,當(dāng)實驗引入 " 異構(gòu) " 字母表時,人類甚至兒童仍然能夠解決問題,而大模型則會出錯。一個能夠真正理解和類比的系統(tǒng),應(yīng)該在變化的情況下也能保持高性能——這正是 GPT 系列大模型不具備的能力。

讀者也許會好奇,其他推理大模型能否回答這樣的問題。筆者簡單嘗試了一下,在 DeepSeek 官方的全尺寸 R1 及 V3 模型,以及阿里通義千問的 QwQ 32B 推理模型中,對于多次替換后的虛構(gòu)字母表,模型能夠正確回答,并給出符合人類思考過程的推理過程的。

但當(dāng) DeepSeek 模型變?yōu)檎麴s Qwen 或 lamma 的 32B、14B、8B 或 1.5B 尺寸時,筆者有限的幾次觀察發(fā)現(xiàn),模型都呈現(xiàn)出過度思考的特征,即會在思考過程中嘗試眾多過于復(fù)雜的模式,展示數(shù)萬 token 的繁雜思考過程,最終仍然給出了錯誤的回答。筆者還遇到在思考過程中,已經(jīng)發(fā)現(xiàn)正確答案,但又在接下來的思考過程中,大模型將其否決的案例。

筆者認(rèn)為,基于強(qiáng)化學(xué)習(xí)的大模型能否進(jìn)行類比,還需要進(jìn)一步的定量研究,以考察不同尺寸模型的準(zhǔn)確度。例如,對于模型將問題過度復(fù)雜化的傾向,可以根據(jù)思考過程,對模型的錯誤進(jìn)行進(jìn)一步的分類,以此或可創(chuàng)建出一個評估一般思維能力的考核指標(biāo)。

此外,還可以組合字符串類比的 6 個變種,設(shè)計更多的題目,例如在字母表中包含數(shù)字、英文字母、漢字及符號,這樣的改變或許對人類不會影響準(zhǔn)確性,但可能會導(dǎo)致大模型的準(zhǔn)確度下降。同時,還需要考察推理模型對于這類問題的思考時所用的 token 數(shù)量,從而減少計算成本。

02 大模型能理解推理規(guī)則嗎?

除了字母表推理,還可以使用數(shù)字矩陣類問題(分析數(shù)字模式以確定缺失的數(shù)字)。數(shù)字矩陣測試的設(shè)計思路源于經(jīng)典的瑞文漸進(jìn)矩陣測試(Raven's Progressive Matrices),這是一種廣泛用于測量抽象推理能力的非語言智力測試。相比之前字母表類比中改變問題的表現(xiàn)形式,數(shù)字矩陣問題通過組合規(guī)則,考察了大模型所謂的推理能力是真正的抽象理解還是模式匹配。

這類問題中,涉及的基礎(chǔ)規(guī)則有 4 種,題目由這些基礎(chǔ)規(guī)則組合而成:

研究者對原始數(shù)字矩陣測試進(jìn)行了兩個關(guān)鍵變化:空白位置變化(將空白位置變?yōu)榫仃嚨钠渌恢?, 如 [ 1,3 ] 或 [ 2,2 ] )和規(guī)則復(fù)雜度變化(設(shè)計了不同復(fù)雜度級別的矩陣問題,從簡單到復(fù)雜) [ 2 ] 。

圖 5:涉及到多個規(guī)則的數(shù)字矩陣推理問題以及將數(shù)字換為符號的數(shù)字矩陣推理問題 . 圖源: [ 2 ]

結(jié)果顯示,僅改變空白位置這一表面特征,就導(dǎo)致 GPT 模型表現(xiàn)大幅下滑。盡管 GPT-4 在標(biāo)準(zhǔn)測試中接近人類表現(xiàn)(83% vs 87%);但在變體測試中,GPT-4 的表現(xiàn)下降幅度(26%)遠(yuǎn)大于人類(4%) [ 2 ] 。這意味著,即使是最先進(jìn)的模型也表現(xiàn)出對格式變化的高度敏感性,同樣表明了大模型的推理能力不那么魯棒。

圖 6:數(shù)字矩陣推理問題的準(zhǔn)確度 . 圖源: [ 2 ]

在數(shù)字矩陣問題中,當(dāng)缺失數(shù)字的位置改變時,GPT 模型的表現(xiàn)顯著下降。這表明了大模型不僅不理解題目考察的是什么,更沒有理解進(jìn)行類比所依賴的規(guī)則。其在單一規(guī)則或原始字母表上的優(yōu)異表現(xiàn),依賴于題目與示例之間在的表面相似性,而非更深層次的因果推理。

與之類似的,還包括下面的矩陣變換問題。一項研究通過簡化版 ARC(抽象與推理語料庫)任務(wù)對比了不同年齡人類(兒童與成人)和大型語言模型的視覺類比推理表現(xiàn),結(jié)果同樣發(fā)現(xiàn)人類在復(fù)雜任務(wù)中顯著優(yōu)于大模型,而大模型常依賴復(fù)制或矩陣組合策略,缺乏抽象概念理解能力 [ 4 ] 。

圖 6: 給人類和大模型的視覺類比推理問題示例,以及不同推理規(guī)則對應(yīng)題目的大模型與人類的準(zhǔn)確度對比 . 圖源: [ 4 ]

03 在基于常識的文科推理上,大模型表現(xiàn)如何?

上述兩類類比問題都可以算是 " 理科題目 ",對于 " 文科生 " 的大模型,或許確實有些難了。相比之下,故事類比則主要考察大模型基于常識的類比能力。

這類題目通常給出 1 個幾句話組成的短故事,然后要求參與者判斷故事 1 和故事 A 或 B 哪一個更為相似,即識別短故事之間的相似性,并從多個選項中選擇最符合類比關(guān)系的答案。

圖 7:相似故事的類比判斷,題目的故事是一個吃不到葡萄說葡萄酸的騾子版本,故 A 將主角換成了一個女孩,而在故事 B 中,主角沒有獲得相似的東西,是由于不喜歡而非拿不到 . 圖源: [ 2 ]

在 Lewis & Mitchell 的研究中,他們嘗試了兩種變體:一是隨機(jī)打亂答案選項的順序,二是保持核心關(guān)系不變,但重寫故事的表述方式 [ 2 ] 。

在故事類比中,GPT-4 傾向于更頻繁地選擇第一個給出的答案作為正確答案,而人類則不受答案順序的影響。此外,對于大模型,將故事用不同的話重述,也會降低在故事類比問題上的準(zhǔn)確性 [ 2 ] 。

圖 8:文字類比問題上大模型的表現(xiàn)差異 . 圖源: [ 2 ]

故事類比更接近自然語言處理的實際應(yīng)用場景,但研究結(jié)果卻表明即使在語言模型的 " 主場 " 上,它們的類比推理能力仍然缺乏真正的靈活性和魯棒性,過度依賴于表面特征與特定的答案格式,而非深層理解抽象關(guān)系。

為此,筆者也設(shè)想了一種判別方式,例如對比大模型和人類回答這類問題的準(zhǔn)確性。可以生成很多組類比問題,并招募讀過相關(guān)小說的普通人,以獲取大眾認(rèn)知中的一般性回答,然后對比不同大模型和人類回答的差異性。

通過設(shè)置不同的細(xì)分問題,可以考察大模型與人類在類比能力方面的相似度及價值觀對齊情況。

- 跨文體類比能力:在風(fēng)格差異較大的作品間,如中文的金庸武俠或《紅樓夢》與英文的《哈利波特》,大模型的類比準(zhǔn)確性能否達(dá)到人類水平?

- 角色理解差異:大模型在處理男性和女性角色類比時,是否存在準(zhǔn)確性差異?

- 群體偏好特征:大模型的類比偏好是否更接近特定人群(如不同性別、年齡段的人群)?

- 邏輯遞推性:大模型的類比是否具有傳遞性特征(即當(dāng) A>B 且 B>C 時,是否必然推導(dǎo)出 A>C)?

圖 9:大模型能夠在跨越文學(xué)作品進(jìn)行類比嗎?本文作者與 DeepSeek 對話截圖,其中前一道基本不會存在爭議的人物類比,以及后一道可能存在回答差異的人物類比題目。

除了上述假想的對復(fù)雜人物性格的類比,還有研究測試了大模型在無預(yù)設(shè)條件下將抽象概念(如 pull、flee)與空間符號(上下左右)進(jìn)行類比推理的能力,結(jié)果顯示,大模型和人類的相似性不算高 [ 5 ] 。不過考慮到這項研究強(qiáng)行要求將抽象概念(給定單詞)和方位對應(yīng)缺少現(xiàn)實意義,這里就不詳細(xì)論述。

圖 10:大模型對抽象概念和人類類比的準(zhǔn)確性評估 . 圖源: [ 5 ]

04 提升大模型類比能力,還任重道遠(yuǎn)

基于以上研究發(fā)現(xiàn),我們大致可以得到一個結(jié)論:聲稱大語言模型已具備一般推理能力或許為時過早。

盡管早期研究中大模型在特定任務(wù)上表現(xiàn)良好,但當(dāng)測試難度提升時,它們的表現(xiàn)就不穩(wěn)定了。一個模型在一組特定任務(wù)上表現(xiàn)良好,并不意味著它具有魯棒性。之前有研究表明,在面對數(shù)學(xué)應(yīng)用題時,只是更換題目中的人名,大模型的解答準(zhǔn)確度都會明顯下降,而增加無關(guān)的背景論述時,模型的性能下降則更加明顯 [ 6 ] 。

這一發(fā)現(xiàn)對于在教育、法律和醫(yī)療等關(guān)鍵決策領(lǐng)域應(yīng)用人工智能敲響了警鐘,人工智能可以是一個強(qiáng)大的工具,但它還不能取代人類的思考和推理。例如,在教育領(lǐng)域,大模型生成的比喻確實能為教學(xué)提供幫助;然而,如果缺乏專業(yè)人士的審核與修正,這些類比可能存在潛在風(fēng)險。

因此,研究人員需要開發(fā)和實施穩(wěn)健性測試,以適應(yīng)問題或情況中細(xì)微變化的能力。新的穩(wěn)健性測試應(yīng)包括一組公認(rèn)的標(biāo)準(zhǔn)化任務(wù),用以評估 AI 系統(tǒng)以及人類如何適應(yīng)新情況。在實踐中,大模型常會遇到之前分析數(shù)據(jù)中未曾遇到的新情況和挑戰(zhàn),而穩(wěn)健性測試將為用戶提供衡量大型語言模型可信度的方式。

與此同時,24 年的機(jī)器學(xué)習(xí)頂會 ICLR 的一項研究展示了另一個發(fā)展方向:通過類比推理框架,讓大模型自動生成新的規(guī)則來應(yīng)對未知場景 [ 7 ] 。這種基于提示詞工程的方法在多個測試基準(zhǔn)上都取得了顯著性能提升,表明提升大模型的類比能力不僅是評估其穩(wěn)健性的重要維度,更是增強(qiáng)模型泛化能力的關(guān)鍵路徑。這兩種方法相輔相成,共同推動著大模型向更可靠、更智能的方向發(fā)展。

展望未來,大模型類比思維的研究,或可從中國傳統(tǒng)中汲取靈感。中國古典文學(xué)中的對聯(lián)與律詩,本質(zhì)上就是一種精妙的類比系統(tǒng),其中蘊(yùn)含著嚴(yán)謹(jǐn)?shù)膶?yīng)規(guī)則和豐富的語義關(guān)聯(lián)。通過這些結(jié)構(gòu)化的語言數(shù)據(jù)集對大模型進(jìn)行微調(diào),可能為增強(qiáng)其類比推理能力開辟新途徑。

就像中文指令微調(diào)數(shù)據(jù)集 COIG-CQIA,為了提升模型在編程及數(shù)學(xué)問題上的表現(xiàn),也曾使用了中文互聯(lián)網(wǎng)社區(qū)數(shù)據(jù) " 弱智吧 " 的標(biāo)題作為訓(xùn)練指令。這些來自不同領(lǐng)域的實踐表明,結(jié)構(gòu)化的類比思維模式,無論是傳統(tǒng)文學(xué)還是現(xiàn)代網(wǎng)絡(luò)社群數(shù)據(jù)集,都可能成為提升人工智能認(rèn)知能力的重要工具。

畢竟,類比思維的本質(zhì)是通用的

參考文獻(xiàn)

[ 1 ] Taylor Webb, Keith J. Holyoak, and Hongjing Lu. Emergent analogical reasoning in large language models. Nature Human Behaviour, 7 ( 9 ) :1526 – 1541, 2023.

[ 2 ] Lewis, Martha & Mitchell, Melanie. ( 2024 ) . Evaluating the Robustness of Analogical Reasoning in Large Language Models. 10.48550/arXiv.2411.14215.

[ 3 ] Stevenson CE, Pafford A, van der Maas HLJ, Mitchell M. ( 2024 ) . Can large language models generalize analogy solving like children can? arXiv.2411.02348v1.

[ 4 ] Opie ka GJ, Rosenbusch H, Vijverberg VP, Stevenson CE. Do large language models solve ARC visual analogies like people do? [ Internet ] . arXiv.org. 2024 May 13 [ cited 2025 Apr 2 ] . Available from: https://arxiv.org/pdf/2403.09734v2

[ 5 ] Wicke, P., Hirlimann, L., & Cunha, J. M. ( 2024 ) . Using Analogical Reasoning to Prompt LLMs for their Intuitions of Abstract Spatial Schemas. Retrieved from https://analogy-angle.github.io/assets/Wicke.pdf

[ 6 ] Mirzadeh S I, Alizadeh K, Shahrokhi H, Tuzel O, Bengio S, Farajtabar M. GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models. *arXiv preprint arXiv:2410.05229*. 2024.

[ 7 ] Yasunaga M, Chen X, Li Y, Pasupat P, Leskovec J, Liang P, Chi EH, Zhou D. Large language models as analogical reasoners. In *International Conference on Learning Representations ( ICLR ) * 2024.

相關(guān)閱讀

最新評論

沒有更多評論了

覺得文章不錯,微信掃描分享好友

掃碼分享

熱門推薦

查看更多內(nèi)容
主站蜘蛛池模板: 欧美69精品国产成人 | 成人网在线视频 | 欧美一级毛片免费高清的 | 毛片在线视频观看 | 久久香蕉国产线看观看式 | 亚洲资源在线播放 | 91成人精品 | 全免费a级毛片免费看视频免 | 成 人 a v黄 色 | 亚洲精品久久一区毛片 | 美女三级网站 | 久夜色精品国产一区二区三区 | 欧美日韩国产亚洲一区二区 | 在线亚洲v日韩v | 欧美三级做爰视频 | 久久精品国产一区 | 狼伊千合综网中文 | 美女张开腿让男人桶的动态图 | 欧美成人影院 在线播放 | 亚洲 欧美 视频 | 亚洲日韩aⅴ在线视频 | 女人精aaaa片一级毛片女女 | 免费看成人毛片 | 国产精品反差婊在线观看 | 亚洲视频网址 | 久草手机在线播放 | 欧美在线一级精品 | 中文字幕在线一区二区在线 | 精品久久中文网址 | 国产人成午夜免费噼啪视频 | 精品欧美一区二区三区在线观看 | 久久国产中文字幕 | 日韩成人免费一级毛片 | 国产成人女人在线视频观看 | 久久综合亚洲一区二区三区 | 全高清特级毛片 | 特级a做爰全过程片 | 自拍三级视频 | 日本三级成人午夜视频网 | 国产午夜免费福利红片 | 国产成人精品在线 |