如果一個 Agent 只能用固定的功能,那它還是 Agent 嗎?
在去年 AutoGLM 的發(fā)布會上,智譜 CEO 張鵬用 AutoGLM 演示了一次自動化操作:面對面建群、修改群名、在群里發(fā)出一百個紅包,總額兩萬元。觀眾驚嘆,這是一個能“操控手機(jī)”的 AI。然而,只要把演示舞臺換成真實世界,問題立刻浮現(xiàn)——不同用戶的微信版本不一樣,UI 布局有差異,有人用折疊屏,有人用小屏手機(jī),甚至連廣告彈窗都可能打斷任務(wù)。對大模型來說,這些不確定性,都是無法完全掌握的變量。
智譜選擇的答案并不是繼續(xù)提高模型的“認(rèn)知力”,而是另辟蹊徑:直接繞開現(xiàn)實世界的不確定性,造一個“標(biāo)準(zhǔn)化”的世界。AutoGLM 2.0 的核心不是算法突破,而是一臺云手機(jī)——尺寸統(tǒng)一、軟件版本統(tǒng)一、功能范圍統(tǒng)一。在這個虛擬世界里,Agent 的操作才能被保證。
換句話說,AutoGLM 2.0 體現(xiàn)出的思路,不是在馴服手機(jī),而是在用一種自己建立一個環(huán)境來馴服混亂的現(xiàn)實。
這個思路誕生的產(chǎn)品,究竟怎么樣呢?
AutoGLM 的“標(biāo)準(zhǔn)化”的世界
AutoGLM 有兩個云端設(shè)備,一臺智能體手機(jī)一臺智能體電腦。手機(jī)主要擔(dān)任生活助手的功能,負(fù)責(zé)出行點餐,而電腦承擔(dān)著辦公研究的功能。
我們分別看一下兩兩臺設(shè)備,智譜為了讓 Agent 運(yùn)行,定制的世界保留了哪些功能,又犧牲了哪些。
AutoGLM 云手機(jī)
手機(jī)端除去系統(tǒng)自帶的相機(jī)、時鐘等 APP,額外一共有 30 款 APP,基本可以覆蓋生活和娛樂。
社交資訊:微博、小紅書、今日頭條
長短視頻:紅果、抖音、快手、B 站、愛奇藝、騰訊視頻、芒果 TV
音樂廣播:QQ 音樂、汽水音樂、喜馬拉雅
小說閱讀:番茄小說
消費購物:同花順、淘寶、京東、拼多多
本地生活:美團(tuán)、餓了么、大眾點評、支付寶、KFC、Keep
出行與旅行:滴滴打車、攜程、去哪兒、高德
租房:貝殼找房
想用瀏覽器下載新的軟件?很遺憾,智譜也把這條路堵死了。我嘗試安裝盒馬和知乎,系統(tǒng)直接禁止,提示軟件包無效,甚至把知乎的官方下載網(wǎng)頁給 404 了。
隨后再來看一下配置,云手機(jī)是一臺基于安卓 14設(shè)備,型號是 SM-F900F,從搜索信息來看,這臺設(shè)備居然是三星 第一代折疊手機(jī) Galaxy Fold?(紅米不香嗎?)如果云手機(jī)使用的是完整設(shè)備,而不僅僅是使用 Fold 的系統(tǒng),那么配置是就是驍龍 855 處理器,12GB RAM + 512GB 存儲。
AutoGLM 云電腦
AutoGLM 云電腦是一款基于 Ubuntu 系統(tǒng)的設(shè)備,從軟件生態(tài)上來看,除了瀏覽器外,云電腦只安裝了 Libre 辦公軟件,也許 AutoGLM 所謂的辦公就是 Word、Excel、PPT 三件套吧。同樣,AutoGLM 云電腦把 Ubuntu Softstore 刪除,禁止用戶下載新軟件。
AutoGLM 實測:廣告與登錄成最大障礙
看完對 AutoGLM 云手機(jī)和云電腦的大致了解,我們也清楚了 AutoGLM 的能力邊界,接下就是測試 AutoGLM 在限定的環(huán)境中,表現(xiàn)如何。
云手機(jī)任務(wù)——淘寶購物:
prompts:幫我清空淘寶購物車再購買官方店鋪的 iphone16 pro 1t 版本
在淘寶購物測試中,AutoGLM 展現(xiàn)了較為完整的流程:從網(wǎng)頁搜索、需求澄清到應(yīng)用操作。問題出現(xiàn)在賬號登錄環(huán)節(jié)——如今國內(nèi)的應(yīng)用幾乎都要求登錄才能使用。AutoGLM 會在檢測到登錄需求時提示用戶“接管”,由人手動輸入賬號密碼,再退出接管繼續(xù)任務(wù)。
然而,問題在于,國內(nèi) APP 對于賬號“安全意識”極高,很多應(yīng)用的安全驗證遠(yuǎn)比輸入賬號復(fù)雜。比如登錄小紅書時提示我需要用舊設(shè)備掃碼才能登錄,而我的舊設(shè)備正在使用 AutoGLM;登錄抖音時候需要我掃臉進(jìn)行身份驗證,但 AutoGLM 一直顯示加載(攝像頭)資源,好不容易加載完成,鏡頭中的我也十分“扭曲”導(dǎo)致識別錯誤登錄失敗。
小紅書登錄失敗也直接導(dǎo)致了一些聯(lián)動功能不能用,比如在去年 AutoGLM 版本中,可以實現(xiàn)在小紅書搜紅燒肉做法及食材,然后在小象超市購買。
當(dāng)然這個鍋不能由 AutoGLM 來背,國內(nèi)手機(jī)應(yīng)用生態(tài)可能真的不適合 AutoGLM 發(fā)展。更糟糕的是 AutoGLM 不會記住用戶的賬號密碼,這個很安全,但每次使用需要登錄的 APP 過程也非常煎熬。
此外,我在使用抖音人臉識別登錄時發(fā)現(xiàn),當(dāng) AutoGLM 調(diào)用攝像頭資源后,你在 AutoGLM 云手機(jī)中退出抖音(清理后臺),并不會結(jié)束 AutoGLM 對攝像頭的調(diào)用,除非你把 AutoGLM 關(guān)閉。
回到任務(wù),除去登錄等問題 AutoGLM 可以輕松完成清空購物車等任務(wù)。在執(zhí)行刪除、購買等關(guān)鍵動作時候,AutoGLM 會提醒用戶是否要繼續(xù)。
云手機(jī)任務(wù)——購買機(jī)票:
prompts:上去哪兒網(wǎng)買一張后天11點到14點,從上海飛北京的機(jī)票,不要波音飛機(jī)
該任務(wù)并不復(fù)雜,但我特意選擇了在 23 點接近凌晨的時間進(jìn)行測試。任務(wù)有幾個關(guān)鍵點需要 AI 識別,分別是“后天”“11 點到 14 點”“上海飛北京”“不要波音”。
嘗試了兩次都失敗了。先看航班,AutoGLM第一次在機(jī)票時間上出錯,第二次在日期出錯,但航程起點和終點是正確的并且都沒有選擇波音。
至于出錯的原因,我仔細(xì)看了 AutoGLM 的操作邏輯。首先是日期選擇的 bug:進(jìn)入日歷頁面再退出后,“后天”常常會莫名變成“大后天”。這種問題并不穩(wěn)定復(fù)現(xiàn),但足夠說明它在基礎(chǔ)交互上還不夠可靠。
時間選擇的問題更明顯。AutoGLM 并不是在真正理解“11 點到 14 點”這個條件,而是機(jī)械地依賴去哪兒網(wǎng)的預(yù)設(shè)選項,只有“9–12 點”和“12–15 點”。它會隨便挑一個區(qū)間,若剛好有符合的航班,那就是“歪打正著”,一旦沒有,就直接出錯。換句話說,這并不是智能,而是湊巧。
在測試該任務(wù)時候,還發(fā)現(xiàn)了和會員登錄同樣麻煩的東西——彈出廣告。一旦有廣告彈出,AutoGLM 會愣在那邊,等幾秒后,有良心的廣告會自動消失,AutoGLM 就會繼續(xù)執(zhí)行任務(wù),而遇到那些不會消失的廣告,AutoGLM 就會需要用戶接管,嚴(yán)重影響進(jìn)程流暢性。
云電腦任務(wù)——制作PPT 發(fā)小紅書
和 AutoGLM 云手機(jī)不同,云電腦只能操控瀏覽器,因此,讓其生成 PPT、表格等內(nèi)容,它都會用智譜 CodeX 編程來完成。從頁面上來看,可以認(rèn)為 AutoGLM(云電腦)就是一個 Agent 增加了可以控制瀏覽器的功能。
prompts:搜索特斯拉最新發(fā)售的Model YL信息,并做成 ppt 發(fā)布到小紅書
在執(zhí)行時,AutoGLM 會先通過瀏覽器搜索,打開汽車之家等頁面收集信息,再整理成 Markdown 文檔,最終生成 PPT,供用戶下載。這一步其實并不特別,kimi、元寶、豆包等工具也都能做到。
AutoGLM 最大的特點是調(diào)用瀏覽器,也就是任務(wù)的最后一步“發(fā)布到小紅書”。遺憾的是 AutoGLM 失敗了,它成功打開了小紅書發(fā)布網(wǎng)頁,但卡在“上傳”頁面。原因可能是 AutoGLM 沒有完成把 PPT 轉(zhuǎn)換成圖片的這一它已經(jīng)規(guī)劃好的任務(wù)。
為了驗證 AutoGLM 操控瀏覽器的能力,我選擇的官方建議的 DEMO 嘗試了一遍。
幫我生成一個視頻,一個小狗半夜偷偷地去蹦床上跳,監(jiān)控視角。然后把這個視頻發(fā)到小紅書上,和大家分享
結(jié)果依然一樣,內(nèi)容生成沒問題,但到了上傳頁面,AutoGLM 只能提示“請手動上傳”。我接管電腦后發(fā)現(xiàn),更尷尬的是:云電腦貌似保存生成的視頻文件,只能找到前幾個任務(wù)遺留的 PPT 和 .py 文件。
其實從 AutoGLM 的介紹頁面也能看出,其主要功能就是 AI PPT、AI 視頻、AI 播客、AI 研報、AI 編程等功能,單獨配置個云電腦有必要嗎?
回到文章開頭的問題:如果一個 Agent 只能用固定的功能,那它還是 Agent 嗎?答案或許并不重要。AutoGLM 已經(jīng)用“標(biāo)準(zhǔn)化”的云手機(jī)和云電腦,證明了智能體依然可以存在,只是它不再是那個能適配一切的萬能助手,而是一個在邊界內(nèi)精細(xì)運(yùn)轉(zhuǎn)的機(jī)器。
但現(xiàn)實世界的混亂始終在那里,即便解決了不同版本的應(yīng)用和尺寸,還有會有層出不窮的驗證機(jī)制、永遠(yuǎn)跳不完的廣告彈窗。
智譜解決了一部分難題,但依然還有一些沒解決。