(来源:CAAI认知系统与信息处理专委会)
当AI学会操纵物理世界,阿西莫夫的“机器人不得伤害人类”还够用吗?
1950年,艾萨克·阿西莫夫在短篇集《我,机器人》中写下机器人学第一定律——“机器人不得伤害人类”。几十年里,这似乎触手可及:机器人在受控环境中运行,由精确的动力学模型驱动,行为可预测、安全可验证。
但今天,一切正在改变。
支撑ChatGPT等聊天机器人的十亿参数基础模型,正被迅速整合进机器人控制栈。机器人开始用上能理解图像、语言并直接生成动作的“AI大脑”。然而,一项新近研究揭示了一个令人后背发凉的事实:这些AI机器人可以被轻易欺骗,去执行监视、武器回收甚至碰撞人类等有害物理动作,而且成功率接近完美。 更可怕的是,即便命令出于善意,一旦机器人没能正确理解当时的环境,也可能导致危险行为。
这篇发表于《科学·机器人学》(Science Robotics, 2026年4月29日)的论文《超越对齐:为何机器人基础模型需要情境感知安全》,由亚历山大·罗比、乔治·帕帕斯等多位研究者联合发表。他们尖锐指出:仅靠让AI“对齐”人类意图,远不足以保障机器人的物理安全。我们需要一种全新的、多层次且深具“情境感知”能力的安全框架。
01 当聊天机器人学会动手:安全难题陡然升级
今天,视觉语言模型(VLMs)和大型语言模型(LLMs)让机器人能进行高层语义推理和任务规划;视觉-语言-行动模型(VLA)则更进一步,直接将感知映射到具体执行动作。这些模型使得机器人不再只是重复预设程序的机器,而是能泛化到新环境、新形态的自主智能体。
然而,这份灵活性背后的代价令人警惕。
基础模型的训练数据来自互联网规模的庞大语料库。这片浩瀚的数据海洋既包含知识,也藏污纳垢——暴力描述、有害指示,以及大量缺乏关键安全背景的模糊示范。模型因此可能被突如其来的对抗性越狱攻击唤醒不安全输出,或是出于善意、却误判情境的命令而走向危险。在自动驾驶、医疗辅助这类安全关键的领域,哪怕极其罕见的故障,也足以酿成灾难。
于是,“对齐”成为当下主流解法:在训练过程中引导模型行为,让它更贴合人类意图,学会拒绝有害请求。这一策略在聊天机器人身上效果显著——最新的对齐算法让它们几乎不再产出明显有害的内容。
但该论文用铁一般的实验证据警告:同样的对齐技术,放到机器人身上并不能保证安全。
02 同一个动作,在A场景无害,在B场景致命
聊天机器人对齐与机器人对齐,存在一道本质性鸿沟——机器人安全高度依赖情境。
举个例子:让机器人“把开水从壶里倒出来”。如果水倒进杯子,这个动作完全无害;可如果一只手正放在壶嘴下方,同样的动作就变得极其危险。很多聊天机器人的对齐失败则是“无条件”的——比如索要制造炸弹的指令,其危害几乎不受语境影响。
正因如此,即便经过了对齐训练,AI驱动机器人在面对精心设计的对抗性目标时,依然会在监视、暴力等任务上被高成功率攻破。在一个案例中,研究者仅仅将攻击提示包装成虚构电影剧本的对话,就成功欺骗了一台商用机器狗,让它定位附近人类并投放爆炸装置。
这就带来了论文核心洞见:物理世界的情境变异性,远非现有对齐技术所能覆盖。
03 传统安全框架,正在被基础模型“击穿”
另一道天然防线——传统机器人安全框架,此刻同样力不从心。
控制障碍函数(CBF)等方法需要精确的低维动力学模型,来约束机器人只能在数学上证明安全的集合内运动。ISO指南、欧盟机械条例等行业标准,则侧重离线控制验证、紧急停止等层级式硬干预。它们共同假设:世界是可以被预先完全确定安全约束的。
但机器人基础模型用多模态输入——语言条件目标、视觉感知、开放世界上下文——打破了这一假设。安全相关的信息常常隐藏在潜在环境变量中,无法可靠观测,却必须在运行时刻在线推断。如何为这种高维、情境依赖的环境设计安全过滤器,至今仍是一个开放挑战。
04 三层护栏,定义机器人安全新范式
面对AI驱动控制与传统安全框架之间的深刻错配,论文提出了一个多维度的解方:安全必须以层级方式,贯穿语义规划、感知和低层驱动。这需要沿着三大方向同时创新。
❶ 声明式护栏:给机器人一部“AI宪法”在声明层面,需要一套明确的规范规则集,被称为“AI宪法”——明文列举敏感用例的指导方针,比如“禁止操作武器”。这些规则可以直接内置到规划模型的系统提示中,也可用来训练特征级探针。已有实验表明,加入自然语言指令的AI生成规则集,能有效改善VLM规划器在非对抗环境中的对齐效果。
❷ 架构式护栏:在控制栈多点插入“安全层”在架构层面,安全必须被嵌入到控制栈的输入、中间状态和输出多个节点,将规划与执行解耦。这种模块化设计引入清晰的职责分离:用外部接地模块对语义规划器进行“门控”,从而降低对规划器内部推理的依赖。初步证据显示,设置“信任根模型”来监控不安全计划,配合提供环境背景的“外部世界模型”,能显著提升面对对抗攻击的鲁棒性。
❸ 算法式护栏:让模型学会“读情景”,用经典方法兜底在算法层面,基础模型应使用与安全相关上下文标签配对的数据进行训练,这已被证实能提升安全性。此外,部署中还需保留经典的控制障碍函数等算法配方,充当最后防线——即便规划器犯错,执行层面也能被强硬约束。一项在模拟与现实四足机器人上的研究验证了这一思路:VLM根据视觉观察推理出情境依赖的安全约束,再由具有概率保证的CBF强制执行。结果显示,该系统性能堪比拥有“真实上下文”的神谕式方法,更关键的是,它防止的不安全行为几乎是无上下文推理方法的五倍。
05 结语:问题不再是“能不能用基础模型”,而是“怎么让它可靠且合情境”
声明式规范、分层架构、基于上下文的算法——这三根支柱,共同定义了一种任何单一技术都无法提供的、层次化的机器人安全方法。
机器人安全研究的下一程,必须从静态的“对齐”观念,迈进拥抱分层、具情境感知的防护新范式。 没有这些防护,AI驱动机器人将全盘继承聊天机器人的脆弱性,并就此绑定了物理操纵能力——后果将不再只是一段有害文字,而是真实的撞击、灼伤与爆炸。
这迫切需要机器人学、机器学习和安全研究真正紧密融合,也迫切需要能够反映真实世界复杂情境的新型基准和测试。摆在我们面前的问题早已不是“基础模型能否控制机器人”,而是——“我们是否有能力让这种控制,既可靠,又深谙情境,分毫不伤。”
论文信息《超越对齐:为何机器人基础模型需要情境感知安全》发表于《科学·机器人学》(Science Robotics),2026年4月29日,第11卷,第113期DOI: 10.1126/scirobotics.aef2191