7月18日凌晨,OpenAI發(fā)布了ChatGPT Agent,這是繼1月份推出operator,2月份推出deep research之后,OpenAI在Agent化道路上又一關(guān)鍵舉動。
當(dāng)下,一個有趣的現(xiàn)象出現(xiàn)了:AI Agent領(lǐng)域正悄然分化為兩大流派。一方是以O(shè)penAI、Claude為代表的“基座派”,正在將Agent能力融入其底層模型;另一方則是“應(yīng)用派”,強(qiáng)調(diào)自己在具體的應(yīng)用場景和靈活的工具調(diào)用上的設(shè)計規(guī)劃。
3月,Manus的橫空出世,便已點燃了通用Agent的第一波市場狂潮,隨后,Genspark、Flowith、Fellou等一眾新銳玩家紛紛從不同應(yīng)用場景切入,迅速在Agent賽道上形成了各自的陣營。
就在OpenAI發(fā)布ChatGPT Agent后不久,Genspark便在社交平臺X上公開“叫板”,直言視頻中演示的ChatGPT Agent能力“表現(xiàn)不夠出色”。Manus也貼臉開大,對比了自己和OpenAI展示的案例的結(jié)果。
我們也想對比一下這些產(chǎn)品在ChatGPT Agent展示的一些案例上究竟表現(xiàn)有何不同。
1
你是一個成熟的Agent了,你該自己報道Agent的新聞了
首先,今天的AI Agent產(chǎn)品這么熱鬧,我們覺得它們也都是成熟的Agent了,應(yīng)該來自己報道其他Agent的新聞了。
于是我們讓幾個備受關(guān)注的AI Agent產(chǎn)品來報道此次ChatGPT Agent的發(fā)布。我們并沒有選擇只是給一個很簡單Prompt的方式,而是用類似深度報告的方式來要求它們,最終產(chǎn)出一個有些設(shè)計要素在的one pager。
結(jié)果如下。
Manus:
有意思的地方是,Manus的Agent自己分析之后,并沒有像官方X賬號那樣“自信”,給了OpenAI更高的分?jǐn)?shù)。
Genspark:
生成了一個更復(fù)雜的報告。這個報告里對OpenAI ChatGPT的信息捕捉更全。
并輸出了一份非常詳細(xì)的對比。
同樣,與官方X的“自信”也不同,Genspark的Agent也對OpenAI的水平表達(dá)了高度認(rèn)可。
Flowith:
Flowith算是對我們比較長的Prompt做了充分理解后,抓住了要做一個one pager這個重點,這讓它的結(jié)果看起來設(shè)計感也最強(qiáng),交出了一個格式上更好看的one pager。
1
比一比:從規(guī)劃到執(zhí)行的“最后一公里”
在報道完ChatGPT Agent后,我們讓這些AI Agent也拿OpenAI視頻展示的案例練了練手。互相比較一下。
OpenAI視頻中提到了四個案例,主要是行程策劃、圖像設(shè)計類、資訊分析類,這也是自3月份Manus推出之后比較常見的場景。
我們先找了其中一個,婚禮規(guī)劃的場景,把視頻中展示的Prompt提交給了Manus、Genspark、Flowith、Fellou等,看看直接對比。
prompt:Our friends are gettingmarried later this year! This is the wedding website:https://www.zola.com/wedding/minniaandsarahCan you help me find:- An outfit that matches the dress code for all the functions (mens)- Propose like five options. Something nice, mid luxury items which match the venue, and weather- Find me hotels with couple of days of buffer on either end_-Use booking.com for these, and make sure to check availability and current price-And also don't forget to pick a gift for them ideally under $500 (registry preferred if any, otherwisefind something nice)make a nice report!
Manus:
https://manus.im/share/iWutNt1yTVXu8ZUTuz6YVQ?replay=1
Manus輸出了一個長文本頁面,沒有給到具體購買鏈接等涉及到下一步行動的結(jié)果,屬于婚禮參加指南和建議。
特別是著裝要求上,沒有具體的圖片和款式。
Flowith:
同樣給出了一份詳細(xì)的婚禮參與指南,無法進(jìn)行到下一步加購等動作,更關(guān)鍵的是,因為單開了一條任務(wù)線來挑選參加婚禮的服飾,該任務(wù)線出現(xiàn)bug,最終沒能輸出服飾結(jié)果。
Fellou:
Fellou居然為這個任務(wù)一口氣跑了1 小時 14 分鐘。這是一個很有意思的不同,OpenAI此次發(fā)布后,它的研究員也提到,應(yīng)該有一個榜單來比較AI Agent一次任務(wù)能夠跑的時長。
當(dāng)然,這個時長和最終效果之間的關(guān)系也需要進(jìn)一步查看。但Fellou這個操作還是給用戶帶來某種微妙的“靠譜”感。
這個過程它非常認(rèn)真的單開了很多瀏覽器,比較行程、路線、酒店事件和日期。
最終它把信息用一種經(jīng)過簡單設(shè)計的格式,提供給用戶。
但是在具體推薦上,同樣無法直接購買,沒有具體鏈接,只能輸出報告,更像是一個搜集信息的AI瀏覽器。
https://chat.fellou.ai/report/0d853b10-fcd0-4c22-a1f2-696556c8f277
第二個我們選了“做貼紙”的場景。
prompt2:Make some team swag for our launch of chatgpt agent - makesome anime-style art that'scute and quirky based on theattached photo of our teammascot. then, make them into.1x1 laptop stickers and order 500 to 575 Florida St in SF.I like StickerMule!
貼紙的設(shè)計在近三個月來各類Agent測試中算是非常簡單的了,而且,很多產(chǎn)品,例如Genspark的任務(wù),本身也是調(diào)取的GPT的生圖能力。
不過同樣的,和OpenAI展示的相比,多個產(chǎn)品在訂購環(huán)節(jié),因為沒有調(diào)用能力,無法完成具體操作。
比如Genspark會提示:很抱歉,我無法直接為您完成在線訂購,因為這需要您的個人信息、付款方式和賬戶驗證。不過我可以為您提供詳細(xì)的訂購指導(dǎo),讓整個過程變得超級簡單!
Flowith同樣只能進(jìn)行訂購指引。
在這個任務(wù)中,Manus在流程中顯示完成了購物車的添加,也是除了OpenAI以外唯一一個進(jìn)行到這一步的Agent。
可以看到,今天的AI Agent依然是在一個“混沌期”,它能做到的事情,在不停讓我們驚嘆,而同時它也依然是不穩(wěn)定的,哪怕OpenAI,今天發(fā)布的ChatGPT Agent更像是一個占位動作。但當(dāng)我們把AI Agent視作一個潛力巨大,價值巨大的方向,這些新的重要玩家的加入和更激烈的競爭,都是好事——它最終會推動一個能穩(wěn)定地解決人類面對的復(fù)雜任務(wù)的Agent更早出現(xiàn)在我們的生活里。