炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!
(来源:量子位)
在学校里做实验的时候,老师如何确定我们做了实验并且达到了预期效果呢?——最常见的做法是让学生写一份实验报告交上来。
现在,AI智能体拿到一个任务以后如何检验执行的效果有没有达到预期呢?我们也可以让AI在执行任务的同时主动提交一份证据链报告,边做边收集任务完成的证据,自我检查是否符合预期,不符合就继续做。
在LLM/VLM驱动的智能体(Agent)的强化学习(RL)研究中,一直面临一个巨大的挑战:
你交给智能体一个任务,它干完了,但你不知道完成度如何。
为了确认它是否真的准确完成了任务,我们不得不建立庞大的“监督系统”来复核它的每一步操作。这种“被动验证”往往需要:
这两种常见的先完成任务(task completion)再校验轨迹(outcome verification)的机制有以下缺点:
针对以上问题,我们提出了一种简单的RL训练方法,让智能体自己成为“质检员”,在尽可能减少校验器(Verifier)审核压力的同时,让智能体学会主动分解子目标并且留痕存证。
什么是SmartSnap?
SmartSnap的核心思想是将GUI智能体从“被动的执行者”转变为“主动的自证者”。
简单来说,智能体在完成任务的同时,还会主动收集、筛选并提交一份“证据快照集”。
这份证据就像是任务的“结项报告”,让验证者只需看一眼快照,就能确认任务是否成功。
三大核心突破:从“执行”到“自证”
1. 角色升级:双重使命的“自证代理”
传统的智能体只负责“做(Execute)”,而SmartSnap提出了“自证智能体”(Self-Verifying Agent),赋予了它“自我验证(Verify)”的第二使命。
它在操作过程中会像人类一样思考:“为了证明我已经改好了设置,我需要把对开关状态截图并作为证据提交。”
2. “3C原则”:高效率的证据美学
为了避免给验证者造成信息过载,SmartSnap提出了证据策展的3C原则
3. 强化学习驱动:GRPO+内在奖励反馈
我们利用GRPO算法对智能体进行了训练。通过精心设计的奖励机制(Intrinsic Reward Shaping),引导智能体在保证任务成功率的同时,不断提升证据的质量,尽可能减少奖励黑客行为(reward hacking)。
战绩显赫:小模型也不错
SmartSnap的表现令人惊艳,它在AndroidLab等复杂的任务上提升显著:
通过感性分析,我们还观察到以下特点:
为什么这简化了智能体RL训练的准备工作?
在手机端、OS端这类环境的操作中,由于其时效性特点,传统的外部验证器很难精准捕捉瞬时的成功信号。
SmartSnap就像是给智能体配上了一台取证相机。它不再需要事先对环境所有状态有一个预期的变化感知来撰写校验脚本,或者让裁判员模型盯着全程轨迹来仔细推敲,而是让智能体自己边做边收集必要的证据。
这允许我们基于合成的任务轻松拓展其训练场景,并针对有限的证据链来判断成功与否,让RL训练更加便捷。
面向未来
SmartSnap的出现,标志着GUI智能体正从“蛮力执行”走向“认知协同”。这种主动寻找证据的能力,不仅提升了AI的可靠性,更为未来大规模、低成本的AI部署铺平了道路。
未来的AI,不仅要“能干”,更要“可信”。
论文标题:
SmartSnap: Proactive Evidence Seeking for Self-Verifying Agents
论文地址:
https://arxiv.org/abs/2512.22322
代码地址:
https://github.com/TencentYoutuResearch/SmartSnap