Science Robotics 为什么机器人基础模型需要的不仅是“善良”，更是“情境感知安全”_资讯

Science Robotics 为什么机器人基础模型需要的不仅是“善良”，更是“情境感知安全”

创始人

2026-05-07 00:14:27

（来源：CAAI认知系统与信息处理专委会）

当AI学会操纵物理世界，阿西莫夫的“机器人不得伤害人类”还够用吗？

1950年，艾萨克·阿西莫夫在短篇集《我，机器人》中写下机器人学第一定律——“机器人不得伤害人类”。几十年里，这似乎触手可及：机器人在受控环境中运行，由精确的动力学模型驱动，行为可预测、安全可验证。

但今天，一切正在改变。

支撑ChatGPT等聊天机器人的十亿参数基础模型，正被迅速整合进机器人控制栈。机器人开始用上能理解图像、语言并直接生成动作的“AI大脑”。然而，一项新近研究揭示了一个令人后背发凉的事实：这些AI机器人可以被轻易欺骗，去执行监视、武器回收甚至碰撞人类等有害物理动作，而且成功率接近完美。更可怕的是，即便命令出于善意，一旦机器人没能正确理解当时的环境，也可能导致危险行为。

这篇发表于《科学·机器人学》（Science Robotics, 2026年4月29日）的论文《超越对齐：为何机器人基础模型需要情境感知安全》，由亚历山大·罗比、乔治·帕帕斯等多位研究者联合发表。他们尖锐指出：仅靠让AI“对齐”人类意图，远不足以保障机器人的物理安全。我们需要一种全新的、多层次且深具“情境感知”能力的安全框架。

01 当聊天机器人学会动手：安全难题陡然升级

今天，视觉语言模型（VLMs）和大型语言模型（LLMs）让机器人能进行高层语义推理和任务规划；视觉-语言-行动模型（VLA）则更进一步，直接将感知映射到具体执行动作。这些模型使得机器人不再只是重复预设程序的机器，而是能泛化到新环境、新形态的自主智能体。

然而，这份灵活性背后的代价令人警惕。

基础模型的训练数据来自互联网规模的庞大语料库。这片浩瀚的数据海洋既包含知识，也藏污纳垢——暴力描述、有害指示，以及大量缺乏关键安全背景的模糊示范。模型因此可能被突如其来的对抗性越狱攻击唤醒不安全输出，或是出于善意、却误判情境的命令而走向危险。在自动驾驶、医疗辅助这类安全关键的领域，哪怕极其罕见的故障，也足以酿成灾难。

于是，“对齐”成为当下主流解法：在训练过程中引导模型行为，让它更贴合人类意图，学会拒绝有害请求。这一策略在聊天机器人身上效果显著——最新的对齐算法让它们几乎不再产出明显有害的内容。

但该论文用铁一般的实验证据警告：同样的对齐技术，放到机器人身上并不能保证安全。

02 同一个动作，在A场景无害，在B场景致命

聊天机器人对齐与机器人对齐，存在一道本质性鸿沟——机器人安全高度依赖情境。

举个例子：让机器人“把开水从壶里倒出来”。如果水倒进杯子，这个动作完全无害；可如果一只手正放在壶嘴下方，同样的动作就变得极其危险。很多聊天机器人的对齐失败则是“无条件”的——比如索要制造炸弹的指令，其危害几乎不受语境影响。

正因如此，即便经过了对齐训练，AI驱动机器人在面对精心设计的对抗性目标时，依然会在监视、暴力等任务上被高成功率攻破。在一个案例中，研究者仅仅将攻击提示包装成虚构电影剧本的对话，就成功欺骗了一台商用机器狗，让它定位附近人类并投放爆炸装置。

这就带来了论文核心洞见：物理世界的情境变异性，远非现有对齐技术所能覆盖。

03 传统安全框架，正在被基础模型“击穿”

另一道天然防线——传统机器人安全框架，此刻同样力不从心。

控制障碍函数（CBF）等方法需要精确的低维动力学模型，来约束机器人只能在数学上证明安全的集合内运动。ISO指南、欧盟机械条例等行业标准，则侧重离线控制验证、紧急停止等层级式硬干预。它们共同假设：世界是可以被预先完全确定安全约束的。

但机器人基础模型用多模态输入——语言条件目标、视觉感知、开放世界上下文——打破了这一假设。安全相关的信息常常隐藏在潜在环境变量中，无法可靠观测，却必须在运行时刻在线推断。如何为这种高维、情境依赖的环境设计安全过滤器，至今仍是一个开放挑战。

04 三层护栏，定义机器人安全新范式

面对AI驱动控制与传统安全框架之间的深刻错配，论文提出了一个多维度的解方：安全必须以层级方式，贯穿语义规划、感知和低层驱动。这需要沿着三大方向同时创新。

❶ 声明式护栏：给机器人一部“AI宪法”在声明层面，需要一套明确的规范规则集，被称为“AI宪法”——明文列举敏感用例的指导方针，比如“禁止操作武器”。这些规则可以直接内置到规划模型的系统提示中，也可用来训练特征级探针。已有实验表明，加入自然语言指令的AI生成规则集，能有效改善VLM规划器在非对抗环境中的对齐效果。

❷ 架构式护栏：在控制栈多点插入“安全层”在架构层面，安全必须被嵌入到控制栈的输入、中间状态和输出多个节点，将规划与执行解耦。这种模块化设计引入清晰的职责分离：用外部接地模块对语义规划器进行“门控”，从而降低对规划器内部推理的依赖。初步证据显示，设置“信任根模型”来监控不安全计划，配合提供环境背景的“外部世界模型”，能显著提升面对对抗攻击的鲁棒性。

❸ 算法式护栏：让模型学会“读情景”，用经典方法兜底在算法层面，基础模型应使用与安全相关上下文标签配对的数据进行训练，这已被证实能提升安全性。此外，部署中还需保留经典的控制障碍函数等算法配方，充当最后防线——即便规划器犯错，执行层面也能被强硬约束。一项在模拟与现实四足机器人上的研究验证了这一思路：VLM根据视觉观察推理出情境依赖的安全约束，再由具有概率保证的CBF强制执行。结果显示，该系统性能堪比拥有“真实上下文”的神谕式方法，更关键的是，它防止的不安全行为几乎是无上下文推理方法的五倍。

05 结语：问题不再是“能不能用基础模型”，而是“怎么让它可靠且合情境”

声明式规范、分层架构、基于上下文的算法——这三根支柱，共同定义了一种任何单一技术都无法提供的、层次化的机器人安全方法。

机器人安全研究的下一程，必须从静态的“对齐”观念，迈进拥抱分层、具情境感知的防护新范式。没有这些防护，AI驱动机器人将全盘继承聊天机器人的脆弱性，并就此绑定了物理操纵能力——后果将不再只是一段有害文字，而是真实的撞击、灼伤与爆炸。

这迫切需要机器人学、机器学习和安全研究真正紧密融合，也迫切需要能够反映真实世界复杂情境的新型基准和测试。摆在我们面前的问题早已不是“基础模型能否控制机器人”，而是——“我们是否有能力让这种控制，既可靠，又深谙情境，分毫不伤。”

论文信息《超越对齐：为何机器人基础模型需要情境感知安全》发表于《科学·机器人学》（Science Robotics），2026年4月29日，第11卷，第113期DOI: 10.1126/scirobotics.aef2191

上一篇：量产计划密集发布 Robotaxi商业化提速

下一篇：东宏股份回购进展：累计回购228.91万股耗资近3000万元已达计划下限

Science Robotics 为什么机器人基础模型需要的不仅是“善良”，更是“情境感知安全”

相关内容

热门资讯