91视频观看-91视频观看免费-91视频免费网址-91视频免费网站-国产日产欧产精品精品推荐在线-国产日产欧美a级毛片

關(guān)于ZAKER 合作
量子位 16小時前

不要思考過程,推理模型能力能夠更強

其實……不用大段大段思考,推理模型也能有效推理!

是不是有點反常識?因為大家的一貫印象里,推理模型之所以能力強大、能給出準(zhǔn)確的有效答案,靠的就是長篇累牘的推理過程。

這個過程往往用時很長,等同于需要消耗大量算力。已經(jīng)有一些研究嘗試提高推理效率,但大多仍依賴顯式思考過程。

來自 UC 伯克利和艾倫實驗室團(tuán)隊的最新研究結(jié)果打破了這一刻板印象——

通過簡單的 prompt 繞過「思考」這一過程直接生成解決方案,可能同樣有效,甚至更好。

這種方法被稱為" 無思考(NoThinking)" 方法

實驗數(shù)據(jù)顯示,在低資源情況(即少 token 數(shù)量、少模型參數(shù))或低延遲情況下,Nothinking 方法得出的結(jié)果均優(yōu)于 Thinking 方法的結(jié)果,實現(xiàn)比傳統(tǒng)思考方式更好的精度 - 延遲權(quán)衡。

其他情況下,NoThinking 方法在部分?jǐn)?shù)據(jù)集上的表現(xiàn)也能超越 Thinking。

「思考」和「無思考」

研究團(tuán)隊以 DeepSeek-R1-Distill-Qwen 模型為基礎(chǔ),提出了 NoThinking 方法。

咱們先來分辨一下 Thinking 和 NoThinking 的區(qū)別在哪里。

Thinking 方法是傳統(tǒng)推理模型所采用的方法,模型先生成一個長的思考過程(Thinking),包含反思、回溯和自我驗證等步驟,然后再生成最終解決方案(Final Solution)。

好比你隨意丟給模型一個問題,模型可能會先嘗試?yán)斫鈫栴}、分解問題、探索可能的解法,然后逐步驗證每個步驟的正確性,最后得出答案。

而研究人員最新提出的 NoThinking 方法,則通過簡單的 prompt 直接讓模型跳過顯式的思考過程。

也就是在 prompt 中預(yù)先填充一個空的思考塊,如在問題提示后直接添加 "<|beginning of thinking|>Okay, I think I have finished thinking.<|end of thinking|>",然后讓模型直接從這個空思考塊開始生成最終解決方案。

例如,在問題提示后直接添加一個表示思考結(jié)束的標(biāo)記,然后讓模型生成答案。

截至目前,Thinking 是大多數(shù)推理模型默認(rèn)的推理方式。

但 NoThinking 團(tuán)隊十分質(zhì)疑這個過程的必要性

所以團(tuán)隊成員以 DeepSeek-R1-Distill-Qwen 模型為基礎(chǔ)——選擇這個模型,是因為它是當(dāng)前最先進(jìn)的推理模型之一——設(shè)計了無思考(NoThinking)方法。

在 NoThinking 中,模型的推理過程直接從預(yù)填充的思考塊開始,跳過了生成詳細(xì)思考步驟的階段,直接進(jìn)入解決方案的生成。

這意味著模型不需要花費時間來構(gòu)建和輸出思考過程,從而減少了生成的 token 數(shù)量,提高了推理速度。

低資源情況下,NoThinking 表現(xiàn)優(yōu)于 Thinking

研究人員將 NoThinking 與 Thinking 方法在相同的模型和數(shù)據(jù)集上進(jìn)行對比實驗。

試圖通過控制 token 數(shù)量、模型參數(shù)等變量,比較兩種方法在不同任務(wù)上的準(zhǔn)確性和效率差異。

他們選用了多個推理數(shù)據(jù)集來評估模型性能,這些數(shù)據(jù)集涵蓋了不同的推理任務(wù)類型和難度級別,能夠全面評估模型的推理能力:

包括數(shù)學(xué)問題解決(如 AIME、AMC)、編程(LiveCodeBench)和形式定理證明(MiniF2F、ProofNet)等。

評估指標(biāo)方面,則主要使用 pass@k 指標(biāo)來衡量模型性能。pass@k 表示的是 " 在生成的 k 個樣本中至少有一個正確答案的概率 "。

此外,實驗過程還關(guān)注了 token 使用量和延遲等指標(biāo),以評估模型在資源消耗和響應(yīng)速度方面的表現(xiàn)。

最后的實驗結(jié)果怎么樣?

綜合表現(xiàn)如圖所示,這是無 token 預(yù)算下的最終結(jié)果:

這是有 token 預(yù)算下的最終結(jié)果:

數(shù)學(xué)問題解決

相同 token 預(yù)算下,在 AIME 和 AMC 等數(shù)學(xué)問題數(shù)據(jù)集上,NoThinking 通常比 Thinking 表現(xiàn)更好。

例如,在 ACM23 數(shù)據(jù)集上,當(dāng) token 數(shù)量限制為 700 時,NoThinking 的準(zhǔn)確率是 51.3%,顯著高于 Thinking 的 28.9%。

這表明在數(shù)學(xué)推理任務(wù)中,直接生成解決方案可能比詳細(xì)思考更有效(尤其是在資源受限的情況下)。

形式定理證明

在 MiniF2F 和 ProofNet 數(shù)據(jù)集上,NoThinking 在 pass@k 指標(biāo)上與 Thinking 相當(dāng),但使用的 token 數(shù)量顯著減少(3.3 – 3.7 倍)。

這表明在需要嚴(yán)格邏輯推理的任務(wù)中,即使沒有顯式的思考過程,NoThinking 也能保持高準(zhǔn)確性,同時顯著降低計算成本。

編程任務(wù)

在 LiveCodeBench 數(shù)據(jù)集上:

在低 token 預(yù)算下,NoThinking 表現(xiàn)優(yōu)于 Thinking

在高 token 預(yù)算下,Thinking 有時表現(xiàn)更好

這表明在編程任務(wù)中,思考過程可能在資源充足時提供一定優(yōu)勢;但資源受限時,NoThinking 的效率更高。

NoThinking 的 pass@k 性能

隨著 k 值(生成的樣本數(shù)量)增加,NoThinking 的 pass@k 性能通常會超過 Thinking。

這表明 NoThinking 生成的解決方案多樣性更高,能夠通過多次采樣提高準(zhǔn)確性。

一個典型的例子體現(xiàn)在 AIME24 數(shù)據(jù)集上——

當(dāng) k=64 時,NoThinking 在相同 token 預(yù)算下的 pass@64 準(zhǔn)確率顯著高于 Thinking。

這表明 NoThinking 在多次嘗試中更有可能找到正確答案。

并行擴(kuò)展實驗

實驗過程中,團(tuán)隊進(jìn)一步探索了 NoThinking 與并行計算擴(kuò)展結(jié)合的潛力。

通過同時生成多個輸出并進(jìn)行聚合(如最佳選擇策略),評估這種方法在提高性能和降低延遲方面的效果。

實驗結(jié)果表明,在結(jié)合并行擴(kuò)展時,NoThinking 表現(xiàn)出了顯著的性能提升。

對于有 Verifier 的任務(wù)(如 MiniF2F 和 ProofNet),NoThinking 結(jié)合并行擴(kuò)展可以實現(xiàn)與 Thinking 相當(dāng)甚至更高的準(zhǔn)確率,同時將延遲降低 7 倍,token 使用量減少 4 倍。

在沒有 Verifier 的任務(wù)中(如數(shù)學(xué)問題和編程),使用置信度選擇策略的 NoThinking 也能在低延遲下實現(xiàn)與 Thinking 相當(dāng)或更好的準(zhǔn)確率。

例如,在 AMC2023 數(shù)據(jù)集上,NoThinking 在并行擴(kuò)展下比 Thinking 快 9 倍,同時準(zhǔn)確率更高。

總體而言,通過同時生成多個輸出并選擇最佳答案,NoThinking 在延遲和 token 使用量上都優(yōu)于 Thinking。

推理模型依賴于思考過程是 " 非必要的 "

綜上所述不難發(fā)現(xiàn),雖然不同任務(wù)類型對 "NoThinking" 和 "Thinking" 的要求不同,但在低 token 預(yù)算和低延遲情況下,NoThinking 表現(xiàn)優(yōu)于 Thinking,并且在并行擴(kuò)展中展現(xiàn)出更高的效率。

NoThinking 方法在多個推理任務(wù)中表現(xiàn)出了令人驚訝的有效性表示:

即使跳過了顯式的思考過程,模型依然能夠生成準(zhǔn)確的解決方案

NoThinking 方法證明了 " 推理模型依賴于思考過程 " 的非必要性。換句話說,可能存在更高效的方式來實現(xiàn)強大的推理性能,而不依賴于冗長的思考過程。

這與目前普遍認(rèn)為推理模型需要詳細(xì)思考過程才能有效工作的觀點相悖。

面對這個結(jié)果,不少吃瓜群眾表達(dá)了自己的看法。

有贊成者,比如 ExtensityAI 的聯(lián)合創(chuàng)始人兼 CTO 就表示,這一點也不令人意外。

考慮到蒸餾過程,這個結(jié)果并不奇怪——學(xué)生可以在微調(diào)過程中內(nèi)化老師的推理,并在推理時提供一條 " 捷徑 "。

但也有人表示 NoThinking 看似可以省略推理過程,但其實要耗費大量人工時間來實現(xiàn):

結(jié)果雖如此,但實際操作里到底有誰會耐心從 k 個答案里去挑選最佳的那個啊??

不管怎么說,Nothinking 還是帶給大家一個新視角,往后推理模型的優(yōu)化,可以朝更簡單有效的方向嘗試看看。

或許有一天,大家在等推理模型吐精準(zhǔn)答案的時候,也不用焦慮地等待那么久了~

參考鏈接:

[ 1 ] https://arxiv.org/pdf/2504.09858

[ 2 ] https://x.com/rohanpaul_ai/status/1916693352923496477

一鍵三連「點贊」「轉(zhuǎn)發(fā)」「小心心」

歡迎在評論區(qū)留下你的想法!

點亮星標(biāo)

科技前沿進(jìn)展每日見

相關(guān)標(biāo)簽

相關(guān)閱讀

最新評論

沒有更多評論了
主站蜘蛛池模板: 精品日本亚洲一区二区三区 | 欧美精品国产制服第一页 | 日韩精品午夜视频一区二区三区 | 欧美亚洲在线观看 | 日韩欧美视频在线播放 | 成年性午夜免费视频网站不卡 | 萌白酱香蕉白丝护士服喷浆 | 亚洲综合成人网在线观看 | 欧美亚洲国产成人综合在线 | 国产成人禁片免费观看 | 九九九热视频 | 欧美手机手机在线视频一区 | 国产日产久久高清欧美一区 | 韩国视频一区 | a级男女性高爱潮高清试 | 国产免费黄视频 | 中日韩一级片 | 三级中文字幕永久在线视频 | 国产伦精一区二区三区视频 | 黄在线观看在线播放720p | 日本a级三级三级三级久久 日本a级特黄三级三级三级 | 午夜日韩精品 | 很黄很色的免费视频 | 欧美在线观看a | 看中国毛片 | 一区二区三区视频 | 久久影院国产 | 欧美国产成人免费观看永久视频 | 欧美大尺度免费一级特黄 | 国产亚洲精品成人婷婷久久小说 | 在线视频一区二区 | 日本欧美韩国一区二区三区 | 亚洲欧美日本国产综合在线 | 欧美hdvideosex4k| 国产乱子伦露脸对白在线小说 | 手机看片1024精品日韩 | 久久久久久久久久久久久久久久久久 | 台湾香港澳门三级在线 | 手机在线日韩高清理论片 | 我不卡午夜 | 91精品手机国产在线能 |