国产成人激情,成人亚洲,最新三级网站

其實……不用大段大段思考，推理模型也能有效推理！

是不是有點反常識？因為大家的一貫印象里，推理模型之所以能力強大、能給出準(zhǔn)確的有效答案，靠的就是長篇累牘的推理過程。

這個過程往往用時很長，等同于需要消耗大量算力。已經(jīng)有一些研究嘗試提高推理效率，但大多仍依賴顯式思考過程。

來自 UC 伯克利和艾倫實驗室團(tuán)隊的最新研究結(jié)果打破了這一刻板印象——

通過簡單的 prompt 繞過「思考」這一過程直接生成解決方案，可能同樣有效，甚至更好。

這種方法被稱為" 無思考（NoThinking）" 方法。

實驗數(shù)據(jù)顯示，在低資源情況（即少 token 數(shù)量、少模型參數(shù)）或低延遲情況下，Nothinking 方法得出的結(jié)果均優(yōu)于 Thinking 方法的結(jié)果，實現(xiàn)比傳統(tǒng)思考方式更好的精度 - 延遲權(quán)衡。

其他情況下，NoThinking 方法在部分?jǐn)?shù)據(jù)集上的表現(xiàn)也能超越 Thinking。

「思考」和「無思考」

研究團(tuán)隊以 DeepSeek-R1-Distill-Qwen 模型為基礎(chǔ)，提出了 NoThinking 方法。

咱們先來分辨一下 Thinking 和 NoThinking 的區(qū)別在哪里。

Thinking 方法是傳統(tǒng)推理模型所采用的方法，模型先生成一個長的思考過程（Thinking），包含反思、回溯和自我驗證等步驟，然后再生成最終解決方案（Final Solution）。

好比你隨意丟給模型一個問題，模型可能會先嘗試?yán)斫鈫栴}、分解問題、探索可能的解法，然后逐步驗證每個步驟的正確性，最后得出答案。

而研究人員最新提出的 NoThinking 方法，則通過簡單的 prompt 直接讓模型跳過顯式的思考過程。

也就是在 prompt 中預(yù)先填充一個空的思考塊，如在問題提示后直接添加 "<|beginning of thinking|>Okay, I think I have finished thinking.<|end of thinking|>"，然后讓模型直接從這個空思考塊開始生成最終解決方案。

例如，在問題提示后直接添加一個表示思考結(jié)束的標(biāo)記，然后讓模型生成答案。

截至目前，Thinking 是大多數(shù)推理模型默認(rèn)的推理方式。

但 NoThinking 團(tuán)隊十分質(zhì)疑這個過程的必要性

所以團(tuán)隊成員以 DeepSeek-R1-Distill-Qwen 模型為基礎(chǔ)——選擇這個模型，是因為它是當(dāng)前最先進(jìn)的推理模型之一——設(shè)計了無思考（NoThinking）方法。

在 NoThinking 中，模型的推理過程直接從預(yù)填充的思考塊開始，跳過了生成詳細(xì)思考步驟的階段，直接進(jìn)入解決方案的生成。

這意味著模型不需要花費時間來構(gòu)建和輸出思考過程，從而減少了生成的 token 數(shù)量，提高了推理速度。

低資源情況下，NoThinking 表現(xiàn)優(yōu)于 Thinking

研究人員將 NoThinking 與 Thinking 方法在相同的模型和數(shù)據(jù)集上進(jìn)行對比實驗。

試圖通過控制 token 數(shù)量、模型參數(shù)等變量，比較兩種方法在不同任務(wù)上的準(zhǔn)確性和效率差異。

他們選用了多個推理數(shù)據(jù)集來評估模型性能，這些數(shù)據(jù)集涵蓋了不同的推理任務(wù)類型和難度級別，能夠全面評估模型的推理能力：

包括數(shù)學(xué)問題解決（如 AIME、AMC）、編程（LiveCodeBench）和形式定理證明（MiniF2F、ProofNet）等。

評估指標(biāo)方面，則主要使用 pass@k 指標(biāo)來衡量模型性能。pass@k 表示的是 " 在生成的 k 個樣本中至少有一個正確答案的概率 "。

此外，實驗過程還關(guān)注了 token 使用量和延遲等指標(biāo)，以評估模型在資源消耗和響應(yīng)速度方面的表現(xiàn)。

最后的實驗結(jié)果怎么樣？

綜合表現(xiàn)如圖所示，這是無 token 預(yù)算下的最終結(jié)果：

這是有 token 預(yù)算下的最終結(jié)果：

數(shù)學(xué)問題解決

相同 token 預(yù)算下，在 AIME 和 AMC 等數(shù)學(xué)問題數(shù)據(jù)集上，NoThinking 通常比 Thinking 表現(xiàn)更好。

例如，在 ACM23 數(shù)據(jù)集上，當(dāng) token 數(shù)量限制為 700 時，NoThinking 的準(zhǔn)確率是 51.3%，顯著高于 Thinking 的 28.9%。

這表明在數(shù)學(xué)推理任務(wù)中，直接生成解決方案可能比詳細(xì)思考更有效（尤其是在資源受限的情況下）。

形式定理證明

在 MiniF2F 和 ProofNet 數(shù)據(jù)集上，NoThinking 在 pass@k 指標(biāo)上與 Thinking 相當(dāng)，但使用的 token 數(shù)量顯著減少（3.3 – 3.7 倍）。

這表明在需要嚴(yán)格邏輯推理的任務(wù)中，即使沒有顯式的思考過程，NoThinking 也能保持高準(zhǔn)確性，同時顯著降低計算成本。

編程任務(wù)

在 LiveCodeBench 數(shù)據(jù)集上：

在低 token 預(yù)算下，NoThinking 表現(xiàn)優(yōu)于 Thinking

在高 token 預(yù)算下，Thinking 有時表現(xiàn)更好

這表明在編程任務(wù)中，思考過程可能在資源充足時提供一定優(yōu)勢；但資源受限時，NoThinking 的效率更高。

NoThinking 的 pass@k 性能

隨著 k 值（生成的樣本數(shù)量）增加，NoThinking 的 pass@k 性能通常會超過 Thinking。

這表明 NoThinking 生成的解決方案多樣性更高，能夠通過多次采樣提高準(zhǔn)確性。

一個典型的例子體現(xiàn)在 AIME24 數(shù)據(jù)集上——

當(dāng) k=64 時，NoThinking 在相同 token 預(yù)算下的 pass@64 準(zhǔn)確率顯著高于 Thinking。

這表明 NoThinking 在多次嘗試中更有可能找到正確答案。

并行擴(kuò)展實驗

實驗過程中，團(tuán)隊進(jìn)一步探索了 NoThinking 與并行計算擴(kuò)展結(jié)合的潛力。

通過同時生成多個輸出并進(jìn)行聚合（如最佳選擇策略），評估這種方法在提高性能和降低延遲方面的效果。

實驗結(jié)果表明，在結(jié)合并行擴(kuò)展時，NoThinking 表現(xiàn)出了顯著的性能提升。

對于有 Verifier 的任務(wù)（如 MiniF2F 和 ProofNet），NoThinking 結(jié)合并行擴(kuò)展可以實現(xiàn)與 Thinking 相當(dāng)甚至更高的準(zhǔn)確率，同時將延遲降低 7 倍，token 使用量減少 4 倍。

在沒有 Verifier 的任務(wù)中（如數(shù)學(xué)問題和編程），使用置信度選擇策略的 NoThinking 也能在低延遲下實現(xiàn)與 Thinking 相當(dāng)或更好的準(zhǔn)確率。

例如，在 AMC2023 數(shù)據(jù)集上，NoThinking 在并行擴(kuò)展下比 Thinking 快 9 倍，同時準(zhǔn)確率更高。

總體而言，通過同時生成多個輸出并選擇最佳答案，NoThinking 在延遲和 token 使用量上都優(yōu)于 Thinking。

推理模型依賴于思考過程是 " 非必要的 "

綜上所述不難發(fā)現(xiàn)，雖然不同任務(wù)類型對 "NoThinking" 和 "Thinking" 的要求不同，但在低 token 預(yù)算和低延遲情況下，NoThinking 表現(xiàn)優(yōu)于 Thinking，并且在并行擴(kuò)展中展現(xiàn)出更高的效率。

NoThinking 方法在多個推理任務(wù)中表現(xiàn)出了令人驚訝的有效性表示：

即使跳過了顯式的思考過程，模型依然能夠生成準(zhǔn)確的解決方案。

NoThinking 方法證明了 " 推理模型依賴于思考過程 " 的非必要性。換句話說，可能存在更高效的方式來實現(xiàn)強大的推理性能，而不依賴于冗長的思考過程。

這與目前普遍認(rèn)為推理模型需要詳細(xì)思考過程才能有效工作的觀點相悖。

面對這個結(jié)果，不少吃瓜群眾表達(dá)了自己的看法。

有贊成者，比如 ExtensityAI 的聯(lián)合創(chuàng)始人兼 CTO 就表示，這一點也不令人意外。

考慮到蒸餾過程，這個結(jié)果并不奇怪——學(xué)生可以在微調(diào)過程中內(nèi)化老師的推理，并在推理時提供一條 " 捷徑 "。

但也有人表示 NoThinking 看似可以省略推理過程，但其實要耗費大量人工時間來實現(xiàn)：

結(jié)果雖如此，但實際操作里到底有誰會耐心從 k 個答案里去挑選最佳的那個啊？？

不管怎么說，Nothinking 還是帶給大家一個新視角，往后推理模型的優(yōu)化，可以朝更簡單有效的方向嘗試看看。

或許有一天，大家在等推理模型吐精準(zhǔn)答案的時候，也不用焦慮地等待那么久了～

參考鏈接：

[ 1 ] https://arxiv.org/pdf/2504.09858

[ 2 ] https://x.com/rohanpaul_ai/status/1916693352923496477

一鍵三連「點贊」「轉(zhuǎn)發(fā)」「小心心」

歡迎在評論區(qū)留下你的想法！

— 完 —

點亮星標(biāo)

科技前沿進(jìn)展每日見

91视频观看-91视频观看免费-91视频免费网址-91视频免费网站-国产日产欧产精品精品推荐在线-国产日产欧美a级毛片

宙世代元宇宙

元宇宙黨建解決方案

元宇宙文旅解決方案

元宇宙展廳解決方案

元宇宙行業(yè)峰會解決方案

元宇宙營銷解決方案

元宇宙會展解決方案

元宇宙演藝節(jié)目解決方案

元宇宙博物館解決方案

元宇宙圖書館解決方案

元宇宙校園解決方案

元宇宙企業(yè)展廳解決方案

元宇宙藝術(shù)展解決方案

元宇宙電商解決方案

融媒體解決方案

ZAKER智慧云

媒體解決方案

黨建解決方案

公檢法解決方案

智慧交通解決方案

高校解決方案

AI視頻剪輯

AI視頻剪輯

AI智能客服

AI工具箱

AI寫稿助手

AI口語陪練

我的訂閱

不要思考過程，推理模型能力能夠更強

宙世代

一起剪

相關(guān)閱讀

當(dāng)了這么久“汪峰”，阿里的Qwen3終于喜提熱搜了。

華為擎云L420x商務(wù)本重要規(guī)格確認(rèn)：麒麟9000C、部分核心部件全自研

ChatGPT可購物 OpenAI入局電商

大模型時代，百度智能云迎來最大機(jī)會

火速適配國產(chǎn)算力！阿里Qwen3全家桶上線超算互聯(lián)網(wǎng)：支持企業(yè)級部署

AI戰(zhàn)略顯成效! 美年健康一季度AI營收增幅超70%

安卓閉源預(yù)期下，鴻蒙真是最大贏家?

聚變能源商業(yè)化競速，中國贏面有多大？

爆料稱，iPhone 17 Pro 屏幕「抗眩光」技術(shù)被蘋果放棄

特朗普關(guān)稅嚇退亞馬遜賣家，部分商家無奈退出會員購物節(jié)

Windows留不住自家人：微軟產(chǎn)品經(jīng)理使用一小時火速換回macOS

聯(lián)想小新5G隨身WiFi首發(fā)549元：支持Wi-Fi 6、6000mAh電池

董明珠與雷軍的鋰電新戰(zhàn)爭

2026年將正式進(jìn)入通用化產(chǎn)品序列，人形機(jī)器人王者歸來，10股漲超8%

阿里Qwen3發(fā)布后 馬斯克立刻官宣：下周推出Grok 3.5

最新評論

量子位

熱門推薦

阿里Qwen3發(fā)布后馬斯克立刻官宣：下周推出Grok 3.5