舉個例子,盡管市面上不少 AI 應用都具備拍照識圖等多模態(tài)功能,但大多數(shù)產(chǎn)品仍停留在 " 識別 - 展示信息 " 的淺層交互階段。
夸克于近期上線了 " 拍照問夸克 ",基于通義與夸克的多模態(tài)能力,AI 不僅能看,還能理解物理世界并采取行動,調(diào)用對應的智能體來完成后續(xù)服務,實現(xiàn)了從 " 看見物理世界 " 到 " 理解并行動 " 的質(zhì)變。
當前,AI 超級應用將各家技術(shù)能力轉(zhuǎn)化為用戶可感知的消費級產(chǎn)品,成為這一輪大模型技術(shù)浪潮中的風口,也是互聯(lián)網(wǎng)巨頭們都在搶奪的入口。阿里將 "AI 原生應用 " 列為未來三年的核心投入方向。" 拍照問夸克 " 不僅讓夸克打開了數(shù)字世界與物理世界的觸點,也進一步打開了阿里 AI To C 業(yè)務的想象空間。
所以,這一功能的上線,值得放在更加縱深的阿里 AI 戰(zhàn)略中來解讀。我們首先要解答的問題是,夸克究竟對 AI 相機做了什么?
所以,滿足用戶探索物理世界的需求,AI 搜索必須看清、看懂物理世界。但透過搜索引擎,探索豐富的物理世界,為什么一直沒能實現(xiàn)?
原因是傳統(tǒng)搜索,眼(視覺感知)、腦(圖像理解推理決策)、手(執(zhí)行服務)的脫節(jié):
看不懂。用戶的搜索意圖有模糊性,NLP 模型已經(jīng)可以較好地理解意圖和智能匹配,但很多基座大模型在跨模態(tài)理解上仍有局限,一旦涉及圖片等多模態(tài)交互,無法從圖片中準確理解用戶意圖,檢索準確性不足,十分依賴用戶的提示詞,普通用戶難以掌握,又進一步限制了多模態(tài)功能的使用意愿和頻率。
動不了。夸克 AI 相機產(chǎn)品經(jīng)理認為," 當用戶面向一個客觀物理世界,既想讓你告訴他這是什么,當然是什么背后有一些原因原理、趨勢判斷等,還有一些是面向面前畫面或者已有的自己圖像里相冊的內(nèi)容,希望進行一些處理 "。但傳統(tǒng)搜索止步于單向信息輸出,無法觸發(fā)場景化服務,缺乏行動能力。
進入大模型時代,許多應用或多或少都上線了 AI 拍照能力,但大多是碎片化場景,或者垂域場景(如購物、美顏修圖、植物識別),通用全能的一體化產(chǎn)品幾乎沒有。直到 " 拍照問夸克 " 的上線。
" 拍照問夸克 " 以幾乎 " 滿配 " 的 AI 能力," 眼腦手 " 的聯(lián)動,賦予了搜索全新的 " 視界觀 "。
夸克是如何提高 AI 搜索的 " 視力 " 的?AI 相機的眼、通義基模 + 夸克后訓練的腦、智能體的手,整合起來,重新打造圖像搜索。
接下來,教 AI 理解圖片,理解用戶 " 為什么問 "。基于多模態(tài)視覺理解能力與深度思考的復雜推理能力,相當于調(diào)動大模型的 " 大腦 " 去思索視覺信息,自動識別用戶提問意圖,先理解用戶想干什么、這道題是什么,理解完之后再去檢索,想一些對應的解決思路。一些用戶 " 沒見過、說不清、問不出口 " 的問題(如外語標志、沒見過的植物),也能秒懂用戶需求。同時," 拍照問夸克 " 還支持多輪圖片對話、以圖追問和深度對話,幫用戶解析復雜問題。
眼(感知)腦(推理)手(智能體)的聯(lián)動,大幅提升了多模態(tài)搜索的產(chǎn)品體驗。" 拍照問夸克 " 讓搜索從單一模態(tài)到多模態(tài),提升了視覺搜索處理復雜查詢的能力,可能成為行業(yè)的新標準。
從這兩個爆款 AI 功能來看,夸克做 AI 具備幾個特點:
一是以前的基礎。夸克憑借極簡、科技感在搜索領(lǐng)域快速占據(jù)一席之地,成為 2 億人都在用的 AI 應用,自身在 AI 產(chǎn)品化上的積累,鍛煉出了產(chǎn)品感覺和技術(shù)積累,這為其在產(chǎn)品中融入大模型的最新能力如多模態(tài),打好了基礎。
三是始終在線的戰(zhàn)斗力。再好的基礎和資源,都要靠行動來發(fā)揮出最大效果。公允地說,夸克的創(chuàng)新競爭力是業(yè)內(nèi)首屈一指的,比如去年第一時間整合大模型能力,把 AI 搜索融入夸克高考等功能。敏銳的需求洞察,快速反應不斷迭代,夸克的 AI 產(chǎn)品化在這一年多里進展飛快,成為行業(yè)標桿。
值得一提的是,阿里 2024 年明確 AI To C(AI to Consumer)業(yè)務,其中夸克其中的代表性 AI 應用,是 C 端超級入口。由此可以推斷,夸克未來集中資源的能力進一步加強,其 AI 能力未來或?qū)⒋钶d到智能消費硬件(如 AI 眼鏡)中,進一步打通物理世界入口。
從這個角度說," 拍照問夸克 " 多模態(tài)搜索功能的上線,只是夸克的一小步,卻進一步證明了夸克 AI 產(chǎn)品范式的有效性,指向了更寬廣的未來。
具體來看," 拍照問夸克 " 功能的上線,至少對阿里 AI to C 業(yè)務帶來幾重影響。
首先,多模態(tài)落地搜索的實際效果、整合速度,是阿里 AI 能力的佐證。AI 相機作為多模態(tài)入口已是標配,但夸克上線即滿配,說明其技術(shù)整合能力強,通過通義基模 + 后訓練,使得功能上線即具備高成熟度,直接滿足用戶多樣需求,減少迭代周期,快速占領(lǐng)市場。
這無疑是阿里通義大模型為應用賦能的有力佐證。
此外,夸克結(jié)合其已有的 AI 能力,如多模態(tài)推理、圖像生成等,讓用戶通過拍照直接獲取信息或服務,比如掃描物體識別、文檔處理等,增強實用性,進而提高用戶粘性和活躍度。
從數(shù)據(jù)來看,夸克 00 后用戶占比超 50%,該群體對物理世界探索(如學習、旅行)需求強烈,且更習慣多模態(tài)交互。通過滿足其高頻剛需,比如購物(掃描商品)、教育(拍照解題)、健康(醫(yī)療報告解讀)等,夸克快速建立 AI 服務心智,形成 " 入口即服務 " 的強綁定。
以拍照為例,當你拍了一個東西并 " 拍照問夸克 " 多少錢,它會首先描述一下你拍的東西,并給出相應的淘寶參考鏈接。并且夸克并不是直勾勾的引導購買,更多是作為一個信息提供給用戶。一個直接觸達用戶的鏈路,就被打通了。
透過夸克的拍照入口,我們不只能進一步看清、看懂物理世界,也看見了阿里與 AI 的無限可能性。