(来源:CAAI认知系统与信息处理专委会)
本次会议邀请了香港科技大学广州的石国维博士,分享了关于面向安全平滑机器人操作的异步扩散策略的研究。石博士介绍了他们的研究背景,包括足式机器人的运动控制和接触感知,以及无人机的规划和探索。他详细讲解了异步推理在机械臂操作中的应用,以及如何通过引入延迟感知分类器和目标导向的无碰撞轨迹规划来优化异步推理策略,以实现更丝滑和高效的操作。此外,他还讨论了他们在8个真实世界场景中验证了Legal Policy的有效性,并鼓励与会者就这些问题进行交流和探讨。
本次分享重点介绍了近期工作 Legal Policy,旨在解决扩散模型在机械臂操作中的平滑性与避障问题。
一、传统扩散策略的局限性分析
针对扩散策略(Diffusion Policy)在机器人操作领域的应用,会议指出了其在异步推理下的三大核心痛点:
1. 动作抖动与不连续
- 异步推理缺陷:为避免推理延迟导致的卡顿,通常采用异步推理(不等动作执行完即开始下一次推理),但过时的观测值会导致新旧动作序列衔接不连续,产生“抽搐”现象。
- 硬件依赖差异:推理耗时受硬件性能影响(如 4090 需 30ms,4070 需 50ms),导致不同设备上的动作表现不一致。
2. 避障效率低下与分布外问题
- 局部修正局限:现有方法(如 Safety Filter)仅对局部动作进行修正,缺乏全局视野,导致避障过程缓慢且效率低下。
- 分布外风险:局部修正可能将机械臂引导至训练数据分布之外,导致出现夹爪无故张开等异常行为,影响任务成功率。
二、Legal Policy 核心技术方案
为解决上述问题,石国维博士提出了 Legal Policy 的三模块优化方案:
1. 延迟感知的无分类器引导
- 条件引导机制:利用当前推理中尚未执行的未来动作序列(Future Action Condition)作为下一次推理的条件,引导新生成的动作与当前动作保持一致性。
- 鲁棒性增强:在训练阶段人为引入对条件的随机延迟化处理,使模型在部署时能容忍条件偏移,确保动作衔接的丝滑与稳定。
2. 目标导向的无碰撞轨迹规划
- 全局目标预测:构建目标点预测网络,利用 Diffusion Policy 提取的深层观测特征(图像特征+运动趋势)预测任务相关目标点。
- 轨迹优化:借鉴 EGO Planner 思想,通过 B 样条曲线优化控制点,结合平滑度、碰撞及物理可行性约束,生成全局无碰撞轨迹。
3. 时空轨迹优化与执行模式
- 时空优化:无论规划轨迹还是 Diffusion Policy 输出,均通过 MINCO 进行时空轨迹优化,确保动作的物理可行性与执行效率。
- 混合执行策略:长距离移动或避障时由规划器接管,将机械臂带至目标附近;精细交互时切换回 Diffusion Policy 控制,兼顾效率与精度。
三、实验验证与性能表现
Legal Policy 在 8 个真实世界场景中进行了验证,覆盖了抓取、对齐及接触任务:
1. 动作平滑性提升
- 柔性物体抓取:解决了传统方法因抖动导致的物体掉落问题,实现了稳定的接触与抓取。
- 长程操作优化:即使在键盘采集的低质量数据基础上,也能生成高效的非直线轨迹,快速接近目标。
2. 泛化避障能力
- 未见障碍物处理:在面对训练集中未出现的障碍物时,系统能自动规划丝滑的避障轨迹,避免碰撞。
- 任务成功率保障:通过规划器将机械臂拉回数据分布内,确保 Diffusion Policy 在熟悉的环境下执行精细操作,保障任务完成率。