文/ Rainbow主流終端廠商合規負責人
塑造一個智能體作為人類的助手,在AI時代具有光明的前景。
這也是智能手機、智能設備,甚至軟件廠商都在嘗試的布局。
2024年,榮耀發布首款搭載AI Agent的榮耀Magic7,推出YOYO智能體;小米15搭載澎湃OS 2,并升級“小愛”為“超級小愛”;vivo也發布了PhoneGPT。
大模型走進端側讓設備具備了“大腦”,智能體則具象化成為鏈接用戶的最佳入口。
但是,智能體作為一個“新興物種”,落地應用有很多問題仍需厘清,什么稱得上智能體?其如何實現人類助手的功能?在處理龐大的數據量的情況下,如何保障數據合規?終端AI智能體可能沖擊第三方應用流量乃至App生態模式,接下來如何促進健康的產業發展?
本文將就此展開討論。
一、AI Agents 的崛起與未來趨勢
(一)從自動化到通用智能:AI Agents 的演進脈絡
人工智能(Artificial Intelligence)經過數十年的發展,已從早期注重邏輯推理、專家系統,逐步演進到基于深度學習、大規模預訓練模型(LLMs)的時代。隨著模型規模的指數級擴張以及多模態技術的興起,AI Agents(也可稱為智能體)開始具備更強的交互與決策能力,不再局限于單一任務的自動化,而是能夠在更復雜的環境下自主地進行規劃、執行、糾錯。
近年來,OpenAI、DeepMind、谷歌、微軟、Meta、智譜AI等研究機構和企業,紛紛在智能體技術上取得顯著突破。多數智能體都強調對環境的感知與操作,既包括文字、語音,也涵蓋了視覺、甚至物理環境。部分學者將這類增強能力的系統稱為具身智能AI(Embodied AI),而其中的GUI(Graphical User Interface) Agent即專門針對人機圖形交互界面進行理解和操作的智能體。
(二)AI智能體對 AGI 實現的價值
1. 近未來場景:2025 年的預測
●Sam Altman 對 2025 年“AI智能體員工”上崗的預言
OpenAI首席執行官山姆·奧特曼(Sam Altman)周日晚發表題為《反思》的新年博客文章,其中預言,“在2025年,我們可能會看到第一批人工智能智能體“加入勞動力市場”,并實質性地改變公司的產出。”【1】
●斯坦福 HAI 專家對于“協作AI”大范圍發展的預期
斯坦福大學人類中心 AI(HAI)的一些研究者亦指出,2025 年左右,協作型 AI 智能體將在醫療、金融、教育、政務等多個行業大規模鋪開。這些智能體不僅能與人類合作,還可以相互協作以完成更復雜的任務。其根本意義在于:AI 從單一工具上升為“合作者”,人機協同與多AI智能體協同將成為常態。【2】
2. 終端AI智能體對通用智能(AGI)的啟示
AGI(Artificial General Intelligence)即通用人工智能,旨在讓 AI 擁有類似人類的廣泛認知能力和自適應能力。當前在終端設備上進行跨應用操作的 AI智能體,雖稱不上 AGI,卻為AGI提供了重要試驗場:
1. 多模態交互:GUI 智能體通過視覺理解屏幕元素,文本識別文字內容,甚至可能結合語音來進行命令執行,這讓 AI 更加接近人類的多感官信息獲取方式。
2. 自主規劃與執行:能夠“看屏幕”并模擬點擊或調用官方接口完成任務,意味著 AI 真正具備一定的“動手能力”,而不只是“動口”或“動腦”。
3. 自我糾錯(反思能力):一些方案引入“反思智能體”,使得系統可以根據執行結果進行評估和修正。這正是走向通用智能必經的“自我反饋回路”。
總之,終端AI智能體的快速發展,為 AGI 帶來了更豐富的場景實踐,也為后續更高層次智能的落地奠定了基礎。
二、當前終端 AI Agent的主要技術方案
終端 AI智能體的趨勢愈發顯著,主要體現在手機和電腦上對智能理解和自動化操作能力的渴望。核心思路是讓 AI 像人類一樣,不僅能“理解”屏幕,還能“點擊”或“調用”各種應用功能,從而完成復雜任務。概括而言,行業中有兩大主流方案:
(一)屏幕識別 + 模擬點擊
利用光學字符識別(OCR)和圖像檢測,系統可以識別當前屏幕上的文字、圖標和控件,并通過模擬用戶點擊或鍵盤輸入完成操作。例如,智譜AI的CogAgent-Chat支持高分辨率圖像輸入,配合多智能體協作來執行任務【3】;Mobile-Agent-v2也通過“規劃、決策、反思”三部分智能體,在移動端實現了更高成功率的跨應用執行。【4】
(二)屏幕識別+意圖框架執行官方接口(或類API)調用
另一種思路是由平臺(如iOS)提供官方API或意圖框架,讓AI可以直接調取應用功能而無須模擬點擊。蘋果便是借助Onscreen Awareness功能讓Siri理解屏幕內容,再通過開發者配置的Assistant Schemas查詢數據類型以及可執行功能,整體由Apple Intelligence來理解任務、規劃行動并進行執行。【5】
微軟提供的UFO (UI-Focused Agent for Windows OS Interaction) 采用了多種方式來操作Windows應用程序,包括模擬點擊和API調用:
1. UI控制:UFO可以通過模擬鼠標點擊和鍵盤輸入來操作應用程序的用戶界面。它使用Microsoft提供的UI自動化工具來檢測應用程序界面上可用的UI控件,并為每個控件分配編號。智能體觀察這些編號和控件截圖后,可以選擇特定控件進行點擊或輸入操作。
2. 原生API:UFO能夠利用應用程序提供的原生API來執行操作。這種方法可能比模擬UI操作更高效和可靠。
3. AI工具:UFO還可以使用如"Copilot"等AI工具來完成某些任務。
4. 代碼API:對于某些應用程序,UFO可以利用它們提供的代碼API來執行操作。【6】
三、多角度思考與綜合治理的路徑
AI技術發展帶來的影響復雜而深遠,如何在終端 AI Agent浪潮中實現技術發展與法律合規、創新與安全、效率與公平之間的動態平衡,正是我們當下需要面對和解決的問題。本節我們將從幾個核心維度切入,并最終提出一個“綜合思考象限”或“多主體、多維度”的分析框架,以便在法律層面給出可行的治理思路。
(一)多角度思考
1. 技術與AI進化
模擬點擊更貼近人類使用方式,覆蓋度更廣;官方接口則更安全高效。二者都在推動AI向多模態和更高自主性的方向前進。
2. 用戶體驗與隱私安全
用戶可通過跨應用操作獲得便利,同時也要明白在哪些場合下共享了屏幕信息。平臺須建立完善的權限與授權機制,緩解用戶對隱私泄露的顧慮。
3. 法律合規與監管
屏幕識別和API調用都可能涉及個人信息保護與數據安全。各國個人信息保護法等均強調知情同意與最小化收集原則,要求平臺或AI服務需對潛在風險做好管控。
4. 競爭與生態
終端AI智能體可能沖擊了第三方應用流量乃至于App生態模式。需要重新梳理AI介入后的產業鏈變化,形成新的產業格局,促進更健康的產業發展。
5. 社會與未來影響
隨著更多智能體承擔任務,必然帶來新的就業模式或職業配置;倫理規范、行業標準也需要同步跟進,避免技術被不當利用。
(二)綜合思考象限:多主體、多維度的平衡
若要將上述維度融為一體,可采用“多主體—多維度交叉”的分析框架。主體包括用戶、開發者、平臺/系統廠商、監管機構、AI 技術提供方;維度則涵蓋技術進化、用戶體驗/隱私、安全/合規、競爭/生態以及社會影響。
通過這張矩陣,我們不僅能看到單一維度的沖突與協同,也能發現各主體在不同維度的潛在需求或矛盾,從而尋求平衡方案。
(三)從具體方案到綜合治理
從智譜CogAgent-Chat、微軟UFO、Mobile-Agent-v2 到蘋果的 Onscreen Awareness + App Intents,這些技術路線看似各不相同,卻都在解決同一個核心問題:“如何讓AI真正模仿人類在操作系統或應用中的各種復雜點擊、輸入、跨應用切換等動作?”
1. 多智能體、分工協作:在技術架構上,不少方案都導入規劃/決策/反思這類思路,提升可控性與成功率。
2. 接口與模擬點擊兩條路徑并存:有的傾向“模擬點擊”,有的強調“官方意圖框架”;這是對現實生態和長尾需求的妥協。
3. 安全合規與生態平衡是關鍵:不管是哪種技術實現,都繞不開隱私保護、授權機制、數據安全、生態競爭等現實問題。
4. 對未來AGI的意義:讓AI真正“能看到、能思考、能操作”,把理論研究與真實操作環境結合起來,這正是 AGI 路上的重要實踐之一。
終端AI智能體既帶來技術與效率上的提升,也在用戶體驗、法律合規和行業競爭中提出新課題。要實現更健康的發展,有必要從多個層面著手。
AI產業鏈中的主體應繼續加強系統級權限管理與數據最小化收集。無論是屏幕識別還是API調用,都需盡量為用戶提供可理解的操作界面和授權提示,讓用戶在使用AI執行自動化功能時更有安全感。對平臺與開發者而言,可以考慮建立“官方接口+模擬點擊”兩條路徑并存的方式:一方面為用戶提供通用化體驗,另一方面也讓應用開發者有機會更好地控制其核心功能或敏感數據。
與此同時,也應看到,AI技術進步在帶來便利的同時,也會引發較為深遠的社會變革。隨著更多AI智能體逐漸走向日常應用,產業分工可能會因自動化程度的提高而發生新的調整,部分行業和崗位的工作內容可能需要重新定位。如何在技術變革的同時,兼顧個人權益和產業活力,將是長期議程。
AI時代,生態格局將有哪些變化?軟硬件廠商如何尋求最大公約數?我們將持續推出報道,敬請期待......
注:
【1】郝博陽 無忌:《奧特曼新年發文:OpenAI周活破3億,我們已找到通往AGI之路》,載于公眾號騰訊科技。
【2】Stanford HAI:《Predictions for AI in 2025: Collaborative Agents, AI Skepticism, and New Risks》
【3】Wenyi Hong等:《CogAgent: A Visual Language Model for GUI Agents》
【4】Junyang Wang等:《Mobile-Agent-v2: Mobile Device Operation Assistant with Effective Navigation via Multi-Agent Collaboration》
【5】Apple:《Bring your app to Siri-WWDC24》
【6】Chaoyun Zhang等:《UFO: A UI-Focused Agent for Windows OS Interaction》