国产成人久久精品区一区二区,www.小明看看,亚洲国产二区

文 | 山上，作者｜薛星星，編輯｜張文

和三月份發(fā)布文生圖更新一樣，OpenAI 又一次試圖提前結(jié)束 AI Agent 的創(chuàng)業(yè)競(jìng)賽。

北京時(shí)間 7 月 18 日凌晨，OpenAI 發(fā)布 ChatGPT Agent。它可以根據(jù)用戶的指令，自動(dòng)規(guī)劃執(zhí)行步驟，調(diào)用多種工具，并完成從抓取數(shù)據(jù)到生成表格、規(guī)劃行程到預(yù)訂酒店等多環(huán)節(jié)任務(wù)。

OpenAI 推文截圖

這也是目前多數(shù) AI Agent 創(chuàng)業(yè)項(xiàng)目正在嘗試的方向。4 個(gè)月前你在 Manus 那場(chǎng)號(hào)稱首個(gè)通用 AI Agent 宣傳片中看到了什么，ChatGPT Agent 就完成了什么。

OpenAI 創(chuàng)始人山姆 · 阿爾特曼（Sam Altman）說，這是他第一次 " 真正感受到 AGI（通用人工智能）"。OpenAI 的研究人員則表示，ChatGPT Agent 是目前為止最強(qiáng)的 AI Agent 模型。

——是的，OpenAI 將 ChatGPT Agent 稱為一個(gè)模型，而不是產(chǎn)品。與 Manus 等依賴上下文管理、工具鏈編排的系統(tǒng)不同，OpenAI 訓(xùn)練了一個(gè)專用模型，能夠在單一系統(tǒng)中完成任務(wù)規(guī)劃、跨工具調(diào)用和文檔生成等復(fù)雜流程。該模型目前被歸入 o3 系列，但尚未被單獨(dú)命名。

AI 時(shí)代的創(chuàng)業(yè)者們面臨著比任何歷史時(shí)期都更快速的技術(shù)迭代，一次底層模型更新往往就能毀掉一個(gè)垂直領(lǐng)域的創(chuàng)新產(chǎn)品。

理想汽車創(chuàng)始人李想此前在朋友圈說，to C 層面，OpenAI 在內(nèi)的掌握最強(qiáng)基座模型的企業(yè)，不會(huì)留下什么垂直應(yīng)用的創(chuàng)業(yè)空間。" 軟件的本質(zhì)是功能，需要場(chǎng)景化、垂直化。人工智能的本質(zhì)是能力，能力強(qiáng)就可以吃掉一切，也是用戶最方便的。"

就連一直高喊 AI 應(yīng)用創(chuàng)新的朱嘯虎也在社交媒體上表示，大模型會(huì)吃掉 90% 的 Agent。X 平臺(tái)上也有用戶發(fā)問，如果 OpenAI 后續(xù)開放 ChatGPT Agent 模型的 API，其他創(chuàng)業(yè)者該如何與其競(jìng)爭(zhēng)？

"Listen-that's the sound of a great many startups evaporating into the void."（聽——那是無數(shù)初創(chuàng)公司悄然蒸發(fā)的聲音。 )

OpenAI 發(fā)布會(huì)視頻下的一條高贊評(píng)論寫道。

Manus 們選擇正面硬剛

至少在目前，Manus 們還沒有表現(xiàn)出任何退讓跡象。

OpenAI 發(fā)布會(huì)剛結(jié)束，Manus 就在 X 上轉(zhuǎn)發(fā)推文稱，"Welcome to the game." 同屬于華人 AI Agent 創(chuàng)業(yè)公司的 flowith 也轉(zhuǎn)發(fā)強(qiáng)調(diào)，他們?cè)缭谝荒昵熬屯瞥隽?AI Agent 產(chǎn)品。

作為過去半年最早對(duì)外喊出通用 AI Agent 口號(hào)的創(chuàng)業(yè)公司，Manus 的反應(yīng)要比其他公司強(qiáng)烈得多。發(fā)布會(huì)結(jié)束僅 3 個(gè)小時(shí)，Manus 就一口氣對(duì)外放出了 10 條與 ChatGPT Agent 的對(duì)比測(cè)試，宣稱要和 OpenAI 正面較量。

這些對(duì)比內(nèi)容部分來自 OpenAI 當(dāng)日展示的演示片段，部分則來自用戶在社交平臺(tái)上的真實(shí)使用。涵蓋場(chǎng)景包括數(shù)據(jù)整理、路線規(guī)劃、在線購(gòu)物、財(cái)務(wù)分析、餐廳預(yù)訂等，Manus 發(fā)出的測(cè)試結(jié)果幾乎全面占優(yōu)——不僅響應(yīng)更快，也更強(qiáng)調(diào) " 任務(wù)完成度 "，如表格更整潔、圖示更豐富、PPT 更接近成品。

比如 OpenAI 演示的 " 計(jì)劃一次為期三天的棕櫚泉網(wǎng)球之旅 "，OpenAI 給出的是一張簡(jiǎn)單的行程表，而 Manus 生成的則是一張帶有目的地風(fēng)格設(shè)計(jì)的行程海報(bào)。

Manus 發(fā)布的測(cè)試對(duì)比

又如分析舊金山市過去四年的財(cái)務(wù)報(bào)告，OpenAI 輸出的是 Excel 文件，而 Manus 給出的是包含圖表與要點(diǎn)總結(jié)的完整演示文檔。"Manus 完成的是整個(gè)項(xiàng)目，而不僅僅是提供數(shù)據(jù)。"Manus 評(píng)價(jià)說。

另一家華人公司 Genspark 的反應(yīng)同樣高調(diào)。創(chuàng)始人景鵬（Eric Jing）在 X 上寫道：" 我從未想過有一天——作為一家只有 24 人的小公司，我們竟然可以領(lǐng)先……領(lǐng)先于 OpenAI。" 他表示，用同樣的提示詞，Genspark 的響應(yīng)時(shí)間更短、成本更低，生成結(jié)果的質(zhì)量也 " 高出好幾倍 "。

7 月 19 日，Genspark 也在社交平臺(tái)上分享了 9 個(gè)與 ChatGPT Agent 的對(duì)比實(shí)例，顯示他們輸出的文檔數(shù)據(jù)維度更豐富，排版更加美觀。除了與 Manus 對(duì)比測(cè)試中類似的旅游行程制定、財(cái)務(wù)數(shù)據(jù)分析等案例外，他們還分享了一則視頻生成能力的對(duì)比，指出 ChatGPT Agent 未能完成任務(wù)。

Genspark 分享的視頻生成案例

社交媒體上用戶們的反饋也不如此前 OpenAI 更新文生圖功能那樣強(qiáng)烈。一些批評(píng)聲音指出 ChatGPT Agent 任務(wù)的完成度不高，任務(wù)生成速度也比較緩慢，部分復(fù)雜任務(wù)需要 20 分鐘乃至更長(zhǎng)時(shí)間才能完成。

OpenAI 似乎也意識(shí)到當(dāng)前的 ChatGPT Agent 的速度問題，他們拍攝的幾條宣傳視頻里，員工往往在下達(dá)指令后就合上筆記本，等到稍晚再返回查看結(jié)果。

" 即便耗時(shí) 15 分鐘或半個(gè)小時(shí)，相比你自己手動(dòng)完成也已經(jīng)是顯著的提速了。"OpenAI 的研究員 Isa Fulford 說。她表示，這是一種 " 可以在后臺(tái)發(fā)起任務(wù)，過一會(huì)兒再回來查看結(jié)果 " 的使用方式，而 OpenAI 的搜索團(tuán)隊(duì)則更專注于低延遲場(chǎng)景。

OpenAI 或許更強(qiáng)調(diào)模型能夠持續(xù)推理和思考的時(shí)間，OpenAI 的研究員張熙堃說，ChatGPT Agent 在內(nèi)部測(cè)試中的最長(zhǎng)連續(xù)推理時(shí)間達(dá)到了 2 小時(shí)，" 我們應(yīng)該有一個(gè)排行榜來記錄模型能持續(xù)思考多久。"

針對(duì)外界詬病的生成文檔或 PPT 不夠美觀的問題，OpenAI 的研究員們?cè)?X 上建議，先讓 ChatGPT Agent 把研究工作做完，再讓它輸出 PPT 文件。ChatGPT 生成的是標(biāo)準(zhǔn) pptx 格式，用戶也可以在 PowerPoint 中統(tǒng)一套用想要的設(shè)計(jì)模板。

雖然 OpenAI 強(qiáng)調(diào)他們專門為 ChatGPT Agent 訓(xùn)練了專用模型，但部分批評(píng)聲音亦指責(zé)它更像是將此前已經(jīng)推出的 Operator（瀏覽器交互能力）與 Deep Research（深入研究能力）組合在一起的產(chǎn)物。Operator 可以支持 ChatGPT 通過瀏覽器與網(wǎng)站直接互動(dòng)、閱讀并理解網(wǎng)頁(yè)內(nèi)容，Deep Research 則擅長(zhǎng)分析和總結(jié)信息。

事實(shí)上，ChatGPT Agent 目前團(tuán)隊(duì)成員正是來自于此前的 Operator 與 Deep Research 部門，目前團(tuán)隊(duì)規(guī)模大約在 20-35 人。OpenAI 對(duì)外表示，ChatGPT Agent 是 Operator 和 Deep Research 功能自然延續(xù)，" 我們發(fā)現(xiàn)用戶通過 Operator 嘗試的許多查詢實(shí)際上更適合 Deep Research，因此我們將兩者的優(yōu)勢(shì)結(jié)合在一起。"

OpenAI 表示，這次發(fā)布僅標(biāo)志著他們將智能體功能直接集成到 ChatGPT 中的第一步，他們計(jì)劃定期逐步更新更多功能。

兩種技術(shù)路線

相較于初創(chuàng)公司們過去半年來圍繞輸出質(zhì)量和交付體驗(yàn)不斷工程迭代和提示優(yōu)化，OpenAI 剛剛發(fā)布的 ChatGPT Agent 在任務(wù)的最終呈現(xiàn)上可以稱得上是粗糙。

初創(chuàng)公司們?cè)噲D為用戶呈現(xiàn)一個(gè)完成度更高且上手難度更低的 Agent 產(chǎn)品。以 Manus 為例，過去 2 個(gè)月來這家公司先后為產(chǎn)品加入了包括 PPT 生成、視頻生成、音頻生成等諸多不同能力，官網(wǎng)還列舉出了諸多現(xiàn)成的模板分享以及用戶案例分享。即便這些能力的實(shí)現(xiàn)都依托于外部模型，但至少在上手難度上，初創(chuàng)公司們都做得比 OpenAI 更好一些。

Manus 官網(wǎng)分享的模板

但拋去這些應(yīng)用體驗(yàn)創(chuàng)新，在基礎(chǔ)模型的能力比拼維度上，ChatGPT Agent 通過端到端訓(xùn)練的統(tǒng)一模型顯然更有優(yōu)勢(shì)。OpenAI 為 ChatGPT Agent 做了諸多學(xué)術(shù)測(cè)試，部分測(cè)試結(jié)果甚至領(lǐng)先于 OpenAI o3 或 GPT 4o，達(dá)到行業(yè)最高水平。

比如在《人類的最后考試》（Humanity ’ s Last Exam）評(píng)估中，ChatGPT Agent 取得了取得了 41.6%（pass@1）的新高，大約是 OpenAI o3 的兩倍。DSBench 測(cè)試中，ChatGPT Agent 大幅度領(lǐng)先于 GPT-4o，在數(shù)據(jù)分析任務(wù)中的表現(xiàn)更是明顯優(yōu)于人類水平。

Humanity ’ s Last Exam 測(cè)試結(jié)果

在專門衡量電子表格編輯能力的 SpreadsheetBench 平臺(tái)上，ChatGPT Agent 創(chuàng)下行業(yè)新高，性能較 GPT-4o 領(lǐng)先一倍。OpenAI 稱，在他們的內(nèi)部基準(zhǔn)測(cè)試中，ChatGPT Agent 的能力大致相當(dāng)于 1 至 3 年經(jīng)驗(yàn)的投資銀行分析師水平。

簡(jiǎn)單來說，OpenAI 更強(qiáng)調(diào) ChatGPT Agent 帶來的底層模型能力的提高，而初創(chuàng)公司們受限于技術(shù)及資金則更傾向于應(yīng)用創(chuàng)新。

7 月 19 日凌晨，Manus 聯(lián)合創(chuàng)始人季逸超發(fā)文稱，Manus 仍將繼續(xù)押注于上下文工程（in-context learning）而非端到端智能體。

他說，早在 Mannus 項(xiàng)目初期，他們就在思考是使用開源模型訓(xùn)練一個(gè)端到端的智能體，還是基于前沿模型的上下文學(xué)習(xí)能力構(gòu)建智能體。GPT-3 等模型的出現(xiàn)讓他們意識(shí)到，上下文工程才是正確的方向，因?yàn)檫@些模型的能力遠(yuǎn)高于他們此前的內(nèi)部模型。

" 如果模型進(jìn)步是上漲的潮水，我們希望 Manus 成為那條船，而不是固定在海床上的柱子。" 季逸超說，這可以使他們能夠在幾小時(shí)而非幾周內(nèi)交付改進(jìn)，并始終讓他免費(fèi)產(chǎn)品與底層面模型保持正交。

他在這篇技術(shù)文檔中分享了不少 Manus 在上下文工程上的經(jīng)驗(yàn)，比如需要圍繞 KV 緩存進(jìn)行設(shè)計(jì)、要使用系統(tǒng)文件作為上下文等等。這些工程創(chuàng)新顯著提升了 Manus 的響應(yīng)速度以及成本優(yōu)勢(shì)。

季逸超舉例，使用 KV 緩存可以大幅度提升首個(gè) token 的生成時(shí)間和推理成本，例如使用 Claude Sonnet 時(shí)，緩存的輸入 token 成本比未緩存的成本降低 10 倍。

季逸超分享的技術(shù)文檔

上下文工程的創(chuàng)新的確也可以使智能體擁有更好的性能效果。非盈利人工智能研究機(jī)構(gòu) Epoch AI 測(cè)試了 ChatGPT Agent 在 FrontierMath 數(shù)學(xué)試題集中的表現(xiàn)，稱 ChatGPT Agent 在 Tier 1-3 的數(shù)學(xué)題上只得到了 27% 的正確率，且難度越高得分越低。

但當(dāng)每道題允許 ChatGPT Agent 嘗試 16 次之后，它的得分就從 27% 大幅度提升至 49%。Epoch AI 說，這表明更好的更好的提示詞設(shè)計(jì)（prompting）或任務(wù)結(jié)構(gòu)支持（scaffolding），可能會(huì)顯著提升當(dāng)前模型的性能。

Epoch AI 測(cè)試結(jié)果

換句話說，即便是相同的模型，創(chuàng)業(yè)公司們依然可以通過更好的提示工程與上下文設(shè)計(jì)，來達(dá)到遠(yuǎn)超基準(zhǔn)模型的效果。

" 你如何塑造上下文最終決定了你的智能體的行為方式：它運(yùn)行的速度、恢復(fù)的效果以及擴(kuò)展的范圍。" 季逸超說。

如何與 Agent 的未來共處

ChatGPT Agent 的正式推出，標(biāo)志著 AI Agent 正式進(jìn)入巨頭博弈的時(shí)代。它帶給人類的社會(huì)的影響不會(huì)比大模型爆發(fā)之初的影響小，讓 AI 搶奪人類工作真正成了現(xiàn)實(shí)。

這種改變已經(jīng)在悄然發(fā)生。微軟和亞馬遜等科技巨頭們都在密集裁員，微軟 CEO 薩蒂亞 · 納德拉今年初表示，微軟 20% 到 30% 的代碼都由 AI 生成。一家金融科技公司 Klarna 更是早在去年初就對(duì)外宣布，他們的 AI Agent 僅投入使用一個(gè)月，就處理了公司 2/3 的客服聊天工作，相當(dāng)于 700 名全職人工客服的工作量。

市場(chǎng)研究機(jī)構(gòu) MarketsandMarkets 表示，全球的 AI Agent 市場(chǎng)將從 2024 年的 51 億美元增長(zhǎng)至 2030 年的 471 億美元，年均復(fù)合增長(zhǎng)率（CAGR）達(dá) 44.8%。Deloitte 預(yù)測(cè)，到 2025 年，使用生成式 AI 的公司將有 25% 開始試點(diǎn)智能體，到 2027 年將增長(zhǎng)至 50%。

AI Agent 的快速應(yīng)用也讓行業(yè)人士產(chǎn)生擔(dān)憂。和過去大模型僅僅只是提供信息不同，AI Agent 真正具備了從思考到行動(dòng)的完整能力。比如 ChatGPT Agent 現(xiàn)在已經(jīng)可以訪問網(wǎng)站幫助用戶下單購(gòu)物、自動(dòng)填寫信用卡地址，也可以訪問用戶的日歷、電子郵件、云盤等隱私信息。對(duì)于使用 AI Agent 的人們來說，這意味著他們將自己的私人信息交給了一個(gè) " 黑盒 "，也更容易受到攻擊。

發(fā)布會(huì)上，OpenAI 也專門強(qiáng)調(diào)了 ChatGPT Agent 的風(fēng)險(xiǎn)。他們強(qiáng)調(diào)，ChatGPT Agent 在執(zhí)行所有重要操作前都會(huì)征得用戶同意，" 用戶始終擁有控制權(quán)。" 同時(shí)，OpenAI 還加入了包括主動(dòng)監(jiān)督（Watch Mode）、主動(dòng)風(fēng)險(xiǎn)緩解（Proactive risk mitigation）等安全措施。

OpenAI 發(fā)布的聲明

山姆 · 阿爾特曼在 ChatGPT Agent 推出后專門發(fā)布長(zhǎng)篇推文警告用戶，要求用戶審慎地使用 ChatGPT Agent。

"Agent 代表著 AI 系統(tǒng)能力的新高度，它可以用自己的計(jì)算機(jī)完成一些令人驚嘆且復(fù)雜的任務(wù)。它融合了 Deep Research（深度研究）和 Operator（任務(wù)執(zhí)行者）的理念，但遠(yuǎn)比這些字面描述更強(qiáng)大 —— 它可以長(zhǎng)時(shí)間思考，使用各種工具，再繼續(xù)思考，再采取行動(dòng)，如此往復(fù)。" 山姆 · 阿爾特曼說。

山姆表示，雖然他們還不確定這些影響具體是什么，但也許會(huì)有人試圖惡意 " 欺騙 " 用戶的 AI Agent，使其提供不應(yīng)該提供的隱私信息，并做出無法預(yù)測(cè)的不當(dāng)操作。" 我們建議用戶只授予 Agent 完成任務(wù)所必需的最低限度訪問權(quán)限，以降低隱私和安全風(fēng)險(xiǎn)。" 山姆強(qiáng)調(diào)，他不會(huì)將 ChatGPT Agent 用于高風(fēng)險(xiǎn)的用戶或涉及大量個(gè)人信息的場(chǎng)景。

但對(duì)于已經(jīng)演變成了一家商業(yè)盈利公司的 OpenAI 來說，它并不會(huì)因?yàn)殡[私或者安全風(fēng)險(xiǎn)而減緩 AI Agent 迭代的步伐。

在 ChatGPT Agent 推出之前，《金融時(shí)報(bào)》就報(bào)道稱 OpenAI 正計(jì)劃在 ChatGPT 中開發(fā)支付結(jié)賬系統(tǒng)，通過 ChatGPT 完成訂單的商家需要向 OpenAI 支付傭金。《金融時(shí)報(bào)》稱，OpenAI 已經(jīng)向部分合作伙伴電商平臺(tái) Shopify 等展示了系統(tǒng)的早期版本。

性感毛片-亚洲一区二区三区中文字幕-超碰一区二区-久久久免费-人人草人人-日本天堂在线

宙世代元宇宙

元宇宙黨建解決方案

元宇宙文旅解決方案

元宇宙展廳解決方案

元宇宙行業(yè)峰會(huì)解決方案

元宇宙營(yíng)銷解決方案

元宇宙會(huì)展解決方案

元宇宙演藝節(jié)目解決方案

元宇宙博物館解決方案

元宇宙圖書館解決方案

元宇宙校園解決方案

元宇宙企業(yè)展廳解決方案

元宇宙藝術(shù)展解決方案

元宇宙電商解決方案

融媒體解決方案

ZAKER智慧云

媒體解決方案

黨建解決方案

公檢法解決方案

智慧交通解決方案

高校解決方案

AI視頻剪輯

AI視頻剪輯

AI智能客服

AI工具箱

AI寫稿助手

AI口語(yǔ)陪練

我的訂閱

OpenAI 會(huì)殺死 Manus 們嗎？

宙世代

一起剪

相關(guān)閱讀

華為Pura 80標(biāo)準(zhǔn)版線下預(yù)訂：麒麟9010S主打走量 推動(dòng)鴻蒙5裝機(jī)量

榮耀Magic V Flip2下周預(yù)熱 2025年電池最大小折疊

夢(mèng)回iPhone 7時(shí)代！iPhone 17 Air電池曝光：2800mAh

OPPO K13 Turbo下周發(fā)：性能釋放比友商驍龍8至尊版更激進(jìn)

高通驍龍8 Elite將進(jìn)入2500元檔位：性價(jià)比大增

小米NAS，能攪動(dòng)綠聯(lián)華為極空間統(tǒng)治的輕NAS市場(chǎng)嗎？

外賣大戰(zhàn)的子彈，是時(shí)候停飛了

顯示產(chǎn)業(yè)半年考：車載/工業(yè)驅(qū)動(dòng)增長(zhǎng)，中韓激戰(zhàn)MicroLED

OPPO要“凍住”SoC！K13 Turbo打造散熱套裝：液冷、風(fēng)冷一起上

A股光模塊雙雄被“錯(cuò)殺” 多重?cái)⑹麓蠓崔D(zhuǎn)

榨干自研芯片！曝小米正在評(píng)估玄戒電競(jìng)手機(jī)

高德世界地圖服務(wù)全新上線：覆蓋200+國(guó)家和地區(qū) 海內(nèi)外無縫切換

百度蘿卜快跑牽手Uber出海；MiniMax入港上市；霸王茶姬重返越南；《哪吒2》阿聯(lián)酋上映

三款有點(diǎn)“特別”的小眾設(shè)計(jì)腕表推薦

最新評(píng)論

鈦媒體

熱門推薦

華為Pura 80標(biāo)準(zhǔn)版線下預(yù)訂：麒麟9010S主打走量推動(dòng)鴻蒙5裝機(jī)量