人工智能正迎来前所未有的变革,其中,大语言模型(LLM)的崛起推动了智能系统从信息处理向自主交互迈进。
以DeepSeek为代表的LLM,凭借强大的语言理解与推理能力,在文本创作、编程辅助、复杂任务规划等领域展现出卓越表现。
然而,LLM的潜力远不止于文本生成,它们正在塑造一种全新的智能体形态——GUI代理(GUI Agents)。这类智能体不仅能理解指令,还能像人类一样直接操作计算机和手机,摆脱对预设规则或API的依赖,带来更自然、高效的交互方式,使AI真正融入软件生态,成为智能操作系统的一部分。
问题在于,目前的LLM代理虽然具备强大的推理能力,却在任务执行效率上存在明显瓶颈
为了解决这个问题,现在,西湖大学AGI实验室张驰团队推出了AppAgentX——一款具备自我进化能力的GUI代理。它能够在不断执行任务的过程中学习并优化自身的行为模式,实现更加高效的操作。
AppAgentX的核心创新在于:
AppAgentX:让智能体学会“进化”
过去,计算机的自动化操作主要依赖RPA(机器人流程自动化),通过预设规则或API进行固定任务的执行。然而,这种方式需要大量手动配置,缺乏灵活性。
GUI代理的出现,改变了这一局面,被誉为软件世界中的具身智能。
GUI代理不依赖后端API,而是像人类一样,通过屏幕视觉、鼠标和键盘直接操作软件界面。这意味着,智能体可以自主学习如何操作各种应用程序,甚至能够在不同软件之间切换,执行复杂的跨应用任务。例如:
正因如此,GUI代理被视为智能助手、数字员工、自动化测试等领域的下一代解决方案,但现阶段的挑战也很突出:现有的智能体聪明但不够高效
现有的LLM代理通常采用逐步推理(Step-by-step Reasoning)的方式,即每次执行操作前,模型都要推理下一步动作。例如,在进行网页搜索时,它可能会这样决策:
这种方式赋予了智能体极强的泛化能力,使其能够适应新任务场景,但也带来了执行低效、重复计算严重的问题。
AppAgentX解决这一痛点的核心思路,是让智能体学会“进化”
下面是一个AppAgentX执行播放音乐的一个例子示意图,当找到了“一键”操作,就不需要每一步都耗费大量时间思考下一步需要做什么,从而快速完成任务。
这里可以看出智能体进化出一个高级操作“搜索”,它取代了一系列低效的低级操作。这种进化避免了重复耗时的逐步推理,显著提高了代理的效率。
△AppAgentX的功能示意图方法介绍
任务轨迹的分解
在执行任务时,AppAgentX会将整个过程分解成多个重叠的三元组(即由三个部分组成的组合)。这些三元组包含了页面内容和用户界面(UI)元素的功能描述。
具体来说,智能体会:
进化机制与执行过程
在任务执行过程中,AppAgentX还引入了一种进化机制,使得智能体能够更高效地执行操作。这个机制的核心在于生成“捷径节点”,允许智能体在执行一系列操作时,跳过逐步推理的过程。具体步骤如下:
从实验结果来看,AppAgentX从单步的执行效率到总体的API token消耗,在多个GUI交互任务上展现出了显著的“降本增效”。
总体来说,AppAgentX作为一项创新的移动终端交互技术,通过构建链式知识存储架构与动态匹配执行机制,在保持大型语言模型代理灵活性的同时显著提升执行效能,实现了无需后端访问的图形界面智能操作系统。
该技术突破性地解决了传统智能体在响应速度与认知能力间的平衡难题,为移动端AI应用开辟了新的技术路径。此项研究不仅标志着智能体技术在效率与智能动态平衡方面取得重要突破,更为人机交互领域提供了可扩展的技术范式。
项目地址:https://appagentx.github.io/
Github地址:https://github.com/Westlake-AGI-Lab/AppAgentX
Arxiv地址:https://arxiv.org/abs/2503.02268