性感毛片-亚洲一区二区三区中文字幕-超碰一区二区-久久久免费-人人草人人-日本天堂在线

關(guān)于ZAKER 合作
鈦媒體 6分鐘前

OpenAI 會(huì)殺死 Manus 們嗎?

文 | 山上,作者薛星星,編輯張文

和三月份發(fā)布文生圖更新一樣,OpenAI 又一次試圖提前結(jié)束 AI Agent 的創(chuàng)業(yè)競(jìng)賽。

北京時(shí)間 7 月 18 日凌晨,OpenAI 發(fā)布 ChatGPT Agent。它可以根據(jù)用戶的指令,自動(dòng)規(guī)劃執(zhí)行步驟,調(diào)用多種工具,并完成從抓取數(shù)據(jù)到生成表格、規(guī)劃行程到預(yù)訂酒店等多環(huán)節(jié)任務(wù)。

OpenAI 推文截圖

這也是目前多數(shù) AI Agent 創(chuàng)業(yè)項(xiàng)目正在嘗試的方向。4 個(gè)月前你在 Manus 那場(chǎng)號(hào)稱首個(gè)通用 AI Agent 宣傳片中看到了什么,ChatGPT Agent 就完成了什么。

OpenAI 創(chuàng)始人山姆 · 阿爾特曼(Sam Altman)說,這是他第一次 " 真正感受到 AGI(通用人工智能)"。OpenAI 的研究人員則表示,ChatGPT Agent 是目前為止最強(qiáng)的 AI Agent 模型。

——是的,OpenAI 將 ChatGPT Agent 稱為一個(gè)模型,而不是產(chǎn)品。與 Manus 等依賴上下文管理、工具鏈編排的系統(tǒng)不同,OpenAI 訓(xùn)練了一個(gè)專用模型,能夠在單一系統(tǒng)中完成任務(wù)規(guī)劃、跨工具調(diào)用和文檔生成等復(fù)雜流程。該模型目前被歸入 o3 系列,但尚未被單獨(dú)命名。

AI 時(shí)代的創(chuàng)業(yè)者們面臨著比任何歷史時(shí)期都更快速的技術(shù)迭代,一次底層模型更新往往就能毀掉一個(gè)垂直領(lǐng)域的創(chuàng)新產(chǎn)品。

理想汽車創(chuàng)始人李想此前在朋友圈說,to C 層面,OpenAI 在內(nèi)的掌握最強(qiáng)基座模型的企業(yè),不會(huì)留下什么垂直應(yīng)用的創(chuàng)業(yè)空間。" 軟件的本質(zhì)是功能,需要場(chǎng)景化、垂直化。人工智能的本質(zhì)是能力,能力強(qiáng)就可以吃掉一切,也是用戶最方便的。"

就連一直高喊 AI 應(yīng)用創(chuàng)新的朱嘯虎也在社交媒體上表示,大模型會(huì)吃掉 90% 的 Agent。X 平臺(tái)上也有用戶發(fā)問,如果 OpenAI 后續(xù)開放 ChatGPT Agent 模型的 API,其他創(chuàng)業(yè)者該如何與其競(jìng)爭(zhēng)?

"Listen-that's the sound of a great many startups evaporating into the void."(聽——那是無數(shù)初創(chuàng)公司悄然蒸發(fā)的聲音。 )

OpenAI 發(fā)布會(huì)視頻下的一條高贊評(píng)論寫道。

Manus 們選擇正面硬剛

至少在目前,Manus 們還沒有表現(xiàn)出任何退讓跡象。

OpenAI 發(fā)布會(huì)剛結(jié)束,Manus 就在 X 上轉(zhuǎn)發(fā)推文稱,"Welcome to the game." 同屬于華人 AI Agent 創(chuàng)業(yè)公司的 flowith 也轉(zhuǎn)發(fā)強(qiáng)調(diào),他們?cè)缭谝荒昵熬屯瞥隽?AI Agent 產(chǎn)品。

作為過去半年最早對(duì)外喊出通用 AI Agent 口號(hào)的創(chuàng)業(yè)公司,Manus 的反應(yīng)要比其他公司強(qiáng)烈得多。發(fā)布會(huì)結(jié)束僅 3 個(gè)小時(shí),Manus 就一口氣對(duì)外放出了 10 條與 ChatGPT Agent 的對(duì)比測(cè)試,宣稱要和 OpenAI 正面較量。

這些對(duì)比內(nèi)容部分來自 OpenAI 當(dāng)日展示的演示片段,部分則來自用戶在社交平臺(tái)上的真實(shí)使用。涵蓋場(chǎng)景包括數(shù)據(jù)整理、路線規(guī)劃、在線購(gòu)物、財(cái)務(wù)分析、餐廳預(yù)訂等,Manus 發(fā)出的測(cè)試結(jié)果幾乎全面占優(yōu)——不僅響應(yīng)更快,也更強(qiáng)調(diào) " 任務(wù)完成度 ",如表格更整潔、圖示更豐富、PPT 更接近成品。

比如 OpenAI 演示的 " 計(jì)劃一次為期三天的棕櫚泉網(wǎng)球之旅 ",OpenAI 給出的是一張簡(jiǎn)單的行程表,而 Manus 生成的則是一張帶有目的地風(fēng)格設(shè)計(jì)的行程海報(bào)。

Manus 發(fā)布的測(cè)試對(duì)比

又如分析舊金山市過去四年的財(cái)務(wù)報(bào)告,OpenAI 輸出的是 Excel 文件,而 Manus 給出的是包含圖表與要點(diǎn)總結(jié)的完整演示文檔。"Manus 完成的是整個(gè)項(xiàng)目,而不僅僅是提供數(shù)據(jù)。"Manus 評(píng)價(jià)說。

另一家華人公司 Genspark 的反應(yīng)同樣高調(diào)。創(chuàng)始人景鵬(Eric Jing)在 X 上寫道:" 我從未想過有一天——作為一家只有 24 人的小公司,我們竟然可以領(lǐng)先……領(lǐng)先于 OpenAI。" 他表示,用同樣的提示詞,Genspark 的響應(yīng)時(shí)間更短、成本更低,生成結(jié)果的質(zhì)量也 " 高出好幾倍 "。

7 月 19 日,Genspark 也在社交平臺(tái)上分享了 9 個(gè)與 ChatGPT Agent 的對(duì)比實(shí)例,顯示他們輸出的文檔數(shù)據(jù)維度更豐富,排版更加美觀。除了與 Manus 對(duì)比測(cè)試中類似的旅游行程制定、財(cái)務(wù)數(shù)據(jù)分析等案例外,他們還分享了一則視頻生成能力的對(duì)比,指出 ChatGPT Agent 未能完成任務(wù)。

Genspark 分享的視頻生成案例

社交媒體上用戶們的反饋也不如此前 OpenAI 更新文生圖功能那樣強(qiáng)烈。一些批評(píng)聲音指出 ChatGPT Agent 任務(wù)的完成度不高,任務(wù)生成速度也比較緩慢,部分復(fù)雜任務(wù)需要 20 分鐘乃至更長(zhǎng)時(shí)間才能完成。

OpenAI 似乎也意識(shí)到當(dāng)前的 ChatGPT Agent 的速度問題,他們拍攝的幾條宣傳視頻里,員工往往在下達(dá)指令后就合上筆記本,等到稍晚再返回查看結(jié)果。

" 即便耗時(shí) 15 分鐘或半個(gè)小時(shí),相比你自己手動(dòng)完成也已經(jīng)是顯著的提速了。"OpenAI 的研究員 Isa Fulford 說。她表示,這是一種 " 可以在后臺(tái)發(fā)起任務(wù),過一會(huì)兒再回來查看結(jié)果 " 的使用方式,而 OpenAI 的搜索團(tuán)隊(duì)則更專注于低延遲場(chǎng)景。

OpenAI 或許更強(qiáng)調(diào)模型能夠持續(xù)推理和思考的時(shí)間,OpenAI 的研究員張熙堃說,ChatGPT Agent 在內(nèi)部測(cè)試中的最長(zhǎng)連續(xù)推理時(shí)間達(dá)到了 2 小時(shí)," 我們應(yīng)該有一個(gè)排行榜來記錄模型能持續(xù)思考多久。"

針對(duì)外界詬病的生成文檔或 PPT 不夠美觀的問題,OpenAI 的研究員們?cè)?X 上建議,先讓 ChatGPT Agent 把研究工作做完,再讓它輸出 PPT 文件。ChatGPT 生成的是標(biāo)準(zhǔn) pptx 格式,用戶也可以在 PowerPoint 中統(tǒng)一套用想要的設(shè)計(jì)模板。

雖然 OpenAI 強(qiáng)調(diào)他們專門為 ChatGPT Agent 訓(xùn)練了專用模型,但部分批評(píng)聲音亦指責(zé)它更像是將此前已經(jīng)推出的 Operator(瀏覽器交互能力)與 Deep Research(深入研究能力)組合在一起的產(chǎn)物。Operator 可以支持 ChatGPT 通過瀏覽器與網(wǎng)站直接互動(dòng)、閱讀并理解網(wǎng)頁(yè)內(nèi)容,Deep Research 則擅長(zhǎng)分析和總結(jié)信息。

事實(shí)上,ChatGPT Agent 目前團(tuán)隊(duì)成員正是來自于此前的 Operator 與 Deep Research 部門,目前團(tuán)隊(duì)規(guī)模大約在 20-35 人。OpenAI 對(duì)外表示,ChatGPT Agent 是 Operator 和 Deep Research 功能自然延續(xù)," 我們發(fā)現(xiàn)用戶通過 Operator 嘗試的許多查詢實(shí)際上更適合 Deep Research,因此我們將兩者的優(yōu)勢(shì)結(jié)合在一起。"

OpenAI 表示,這次發(fā)布僅標(biāo)志著他們將智能體功能直接集成到 ChatGPT 中的第一步,他們計(jì)劃定期逐步更新更多功能。

兩種技術(shù)路線

相較于初創(chuàng)公司們過去半年來圍繞輸出質(zhì)量和交付體驗(yàn)不斷工程迭代和提示優(yōu)化,OpenAI 剛剛發(fā)布的 ChatGPT Agent 在任務(wù)的最終呈現(xiàn)上可以稱得上是粗糙。

初創(chuàng)公司們?cè)噲D為用戶呈現(xiàn)一個(gè)完成度更高且上手難度更低的 Agent 產(chǎn)品。以 Manus 為例,過去 2 個(gè)月來這家公司先后為產(chǎn)品加入了包括 PPT 生成、視頻生成、音頻生成等諸多不同能力,官網(wǎng)還列舉出了諸多現(xiàn)成的模板分享以及用戶案例分享。即便這些能力的實(shí)現(xiàn)都依托于外部模型,但至少在上手難度上,初創(chuàng)公司們都做得比 OpenAI 更好一些。

Manus 官網(wǎng)分享的模板

但拋去這些應(yīng)用體驗(yàn)創(chuàng)新,在基礎(chǔ)模型的能力比拼維度上,ChatGPT Agent 通過端到端訓(xùn)練的統(tǒng)一模型顯然更有優(yōu)勢(shì)。OpenAI 為 ChatGPT Agent 做了諸多學(xué)術(shù)測(cè)試,部分測(cè)試結(jié)果甚至領(lǐng)先于 OpenAI o3 或 GPT 4o,達(dá)到行業(yè)最高水平。

比如在《人類的最后考試》(Humanity ’ s Last Exam)評(píng)估中,ChatGPT Agent 取得了取得了 41.6%(pass@1)的新高,大約是 OpenAI o3 的兩倍。DSBench 測(cè)試中,ChatGPT Agent 大幅度領(lǐng)先于 GPT-4o,在數(shù)據(jù)分析任務(wù)中的表現(xiàn)更是明顯優(yōu)于人類水平。

Humanity ’ s Last Exam 測(cè)試結(jié)果

在專門衡量電子表格編輯能力的 SpreadsheetBench 平臺(tái)上,ChatGPT Agent 創(chuàng)下行業(yè)新高,性能較 GPT-4o 領(lǐng)先一倍。OpenAI 稱,在他們的內(nèi)部基準(zhǔn)測(cè)試中,ChatGPT Agent 的能力大致相當(dāng)于 1 至 3 年經(jīng)驗(yàn)的投資銀行分析師水平。

簡(jiǎn)單來說,OpenAI 更強(qiáng)調(diào) ChatGPT Agent 帶來的底層模型能力的提高,而初創(chuàng)公司們受限于技術(shù)及資金則更傾向于應(yīng)用創(chuàng)新。

7 月 19 日凌晨,Manus 聯(lián)合創(chuàng)始人季逸超發(fā)文稱,Manus 仍將繼續(xù)押注于上下文工程(in-context learning)而非端到端智能體。

他說,早在 Mannus 項(xiàng)目初期,他們就在思考是使用開源模型訓(xùn)練一個(gè)端到端的智能體,還是基于前沿模型的上下文學(xué)習(xí)能力構(gòu)建智能體。GPT-3 等模型的出現(xiàn)讓他們意識(shí)到,上下文工程才是正確的方向,因?yàn)檫@些模型的能力遠(yuǎn)高于他們此前的內(nèi)部模型。

" 如果模型進(jìn)步是上漲的潮水,我們希望 Manus 成為那條船,而不是固定在海床上的柱子。" 季逸超說,這可以使他們能夠在幾小時(shí)而非幾周內(nèi)交付改進(jìn),并始終讓他免費(fèi)產(chǎn)品與底層面模型保持正交。

他在這篇技術(shù)文檔中分享了不少 Manus 在上下文工程上的經(jīng)驗(yàn),比如需要圍繞 KV 緩存進(jìn)行設(shè)計(jì)、要使用系統(tǒng)文件作為上下文等等。這些工程創(chuàng)新顯著提升了 Manus 的響應(yīng)速度以及成本優(yōu)勢(shì)。

季逸超舉例,使用 KV 緩存可以大幅度提升首個(gè) token 的生成時(shí)間和推理成本,例如使用 Claude Sonnet 時(shí),緩存的輸入 token 成本比未緩存的成本降低 10 倍。

季逸超分享的技術(shù)文檔

上下文工程的創(chuàng)新的確也可以使智能體擁有更好的性能效果。非盈利人工智能研究機(jī)構(gòu) Epoch AI 測(cè)試了 ChatGPT Agent 在 FrontierMath 數(shù)學(xué)試題集中的表現(xiàn),稱 ChatGPT Agent 在 Tier 1-3 的數(shù)學(xué)題上只得到了 27% 的正確率,且難度越高得分越低。

但當(dāng)每道題允許 ChatGPT Agent 嘗試 16 次之后,它的得分就從 27% 大幅度提升至 49%。Epoch AI 說,這表明更好的更好的提示詞設(shè)計(jì)(prompting)或任務(wù)結(jié)構(gòu)支持(scaffolding),可能會(huì)顯著提升當(dāng)前模型的性能。

Epoch AI 測(cè)試結(jié)果

換句話說,即便是相同的模型,創(chuàng)業(yè)公司們依然可以通過更好的提示工程與上下文設(shè)計(jì),來達(dá)到遠(yuǎn)超基準(zhǔn)模型的效果。

" 你如何塑造上下文最終決定了你的智能體的行為方式:它運(yùn)行的速度、恢復(fù)的效果以及擴(kuò)展的范圍。" 季逸超說。

如何與 Agent 的未來共處

ChatGPT Agent 的正式推出,標(biāo)志著 AI Agent 正式進(jìn)入巨頭博弈的時(shí)代。它帶給人類的社會(huì)的影響不會(huì)比大模型爆發(fā)之初的影響小,讓 AI 搶奪人類工作真正成了現(xiàn)實(shí)。

這種改變已經(jīng)在悄然發(fā)生。微軟和亞馬遜等科技巨頭們都在密集裁員,微軟 CEO 薩蒂亞 · 納德拉今年初表示,微軟 20% 到 30% 的代碼都由 AI 生成。一家金融科技公司 Klarna 更是早在去年初就對(duì)外宣布,他們的 AI Agent 僅投入使用一個(gè)月,就處理了公司 2/3 的客服聊天工作,相當(dāng)于 700 名全職人工客服的工作量。

市場(chǎng)研究機(jī)構(gòu) MarketsandMarkets 表示,全球的 AI Agent 市場(chǎng)將從 2024 年的 51 億美元增長(zhǎng)至 2030 年的 471 億美元,年均復(fù)合增長(zhǎng)率(CAGR)達(dá) 44.8%。Deloitte 預(yù)測(cè),到 2025 年,使用生成式 AI 的公司將有 25% 開始試點(diǎn)智能體,到 2027 年將增長(zhǎng)至 50%。

AI Agent 的快速應(yīng)用也讓行業(yè)人士產(chǎn)生擔(dān)憂。和過去大模型僅僅只是提供信息不同,AI Agent 真正具備了從思考到行動(dòng)的完整能力。比如 ChatGPT Agent 現(xiàn)在已經(jīng)可以訪問網(wǎng)站幫助用戶下單購(gòu)物、自動(dòng)填寫信用卡地址,也可以訪問用戶的日歷、電子郵件、云盤等隱私信息。對(duì)于使用 AI Agent 的人們來說,這意味著他們將自己的私人信息交給了一個(gè) " 黑盒 ",也更容易受到攻擊。

發(fā)布會(huì)上,OpenAI 也專門強(qiáng)調(diào)了 ChatGPT Agent 的風(fēng)險(xiǎn)。他們強(qiáng)調(diào),ChatGPT Agent 在執(zhí)行所有重要操作前都會(huì)征得用戶同意," 用戶始終擁有控制權(quán)。" 同時(shí),OpenAI 還加入了包括主動(dòng)監(jiān)督(Watch Mode)、主動(dòng)風(fēng)險(xiǎn)緩解(Proactive risk mitigation)等安全措施。

OpenAI 發(fā)布的聲明

山姆 · 阿爾特曼在 ChatGPT Agent 推出后專門發(fā)布長(zhǎng)篇推文警告用戶,要求用戶審慎地使用 ChatGPT Agent。

"Agent 代表著 AI 系統(tǒng)能力的新高度,它可以用自己的計(jì)算機(jī)完成一些令人驚嘆且復(fù)雜的任務(wù)。它融合了 Deep Research(深度研究)和 Operator(任務(wù)執(zhí)行者)的理念,但遠(yuǎn)比這些字面描述更強(qiáng)大 —— 它可以長(zhǎng)時(shí)間思考,使用各種工具,再繼續(xù)思考,再采取行動(dòng),如此往復(fù)。" 山姆 · 阿爾特曼說。

山姆表示,雖然他們還不確定這些影響具體是什么,但也許會(huì)有人試圖惡意 " 欺騙 " 用戶的 AI Agent,使其提供不應(yīng)該提供的隱私信息,并做出無法預(yù)測(cè)的不當(dāng)操作。" 我們建議用戶只授予 Agent 完成任務(wù)所必需的最低限度訪問權(quán)限,以降低隱私和安全風(fēng)險(xiǎn)。" 山姆強(qiáng)調(diào),他不會(huì)將 ChatGPT Agent 用于高風(fēng)險(xiǎn)的用戶或涉及大量個(gè)人信息的場(chǎng)景。

但對(duì)于已經(jīng)演變成了一家商業(yè)盈利公司的 OpenAI 來說,它并不會(huì)因?yàn)殡[私或者安全風(fēng)險(xiǎn)而減緩 AI Agent 迭代的步伐。

在 ChatGPT Agent 推出之前,《金融時(shí)報(bào)》就報(bào)道稱 OpenAI 正計(jì)劃在 ChatGPT 中開發(fā)支付結(jié)賬系統(tǒng),通過 ChatGPT 完成訂單的商家需要向 OpenAI 支付傭金。《金融時(shí)報(bào)》稱,OpenAI 已經(jīng)向部分合作伙伴電商平臺(tái) Shopify 等展示了系統(tǒng)的早期版本。

相關(guān)標(biāo)簽

相關(guān)閱讀

最新評(píng)論

沒有更多評(píng)論了
主站蜘蛛池模板: 婷婷尹人香蕉久久天堂 | 成人一级片在线观看 | 国产毛片久久国产 | 99久久久久国产精品免费 | 97国产大学生情侣11在线视频 | 日本韩国三级在线 | 亚洲国产精品成 | 特黄特a级特别特级特毛片 特黄特黄 | 成人欧美精品久久久久影院 | 免费一级在线观看 | 亚洲美女网址 | 亚洲一区二区三区精品国产 | 美女作爱网站 | 抱着cao才爽免费观看 | 亚洲国产高清视频 | 久久国产午夜精品理论片34页 | 看一级毛片国产一级毛片 | 欧美精品一区二区三区四区 | 国产成人精品免费久久久久 | 欧美成 人h版在线观看 | 久草免费资源在线 | 国产精品黄色片 | 在线成人免费看大片 | 成人女人a毛片在线看 | 日韩激情中文字幕一区二区 | 国产精品hd免费观看 | 国产a级精品特黄毛片 | 亚洲欧美综合一区二区三区四区 | 国产农村一二三区 | 69凹凸国产成人精品视频 | 久久国产亚洲精品 | 欧美成人影院 在线播放 | 亚洲美女视频网址 | 欧美一级毛片欧美一级无片 | 国产精品99r8免费视频2022 | 国产呦系列呦 | 国产日产欧美a级毛片 | 毛片免费在线观看网址 | 日本噜噜影院 | 免费一级成人免费观看 | 亚洲精品国产啊女成拍色拍 |