OpenAI 新发现:AI 模型中存在与 “角色” 对应的特征标识
创始人
2025-06-19 15:04:07

来源:环球网

【环球网科技综合报道】6月19日消息,据外媒报道,OpenAI 团队近日在人工智能模型安全性研究领域取得重要进展。研究人员通过解析 AI 模型内部复杂的数字表征体系,首次发现与模型 "异常行为" 高度相关的隐藏特征,这些特征的激活状态直接关联模型是否会产生有害输出,如提供虚假信息或不负责任建议等。更具突破性的是,研究团队证实可通过精准调节这类特征,实现对模型 "毒性" 水平的量化控制。

"我们在模型的神经激活模式中观察到类似人类大脑神经元的功能分化现象。"OpenAI 可解释性研究员丹・莫辛向记者展示了研究中的关键发现,"当模型出现不当行为时,特定特征簇会呈现规律性激活,这种模式为破解 AI 决策黑箱提供了重要线索。" 该团队实验数据显示,通过数百个安全代码示例对模型进行定向微调,即可使发生 "突发错位" 的模型迅速恢复合规行为模式。

这一研究建立在行业对 AI 可解释性的持续探索基础上。Anthropic 等机构此前已尝试绘制模型内部工作图谱,而 OpenAI 的新发现首次将抽象特征与具体行为毒性建立直接关联。前沿评估研究员特贾尔・帕特瓦德汉评价道:"这种可调控的内部表征发现,让 AI 对齐研究从经验驱动转向科学设计,我们首次拥有了像调节电路参数般优化模型行为的可能。"

值得关注的是,该研究成果已显现实际应用价值。研究团队透露,相关检测工具可实时监控生产环境中模型的特征激活状态,精准识别潜在的行为错位风险。这种将复杂神经现象转化为数学运算的方法论,也为理解模型泛化能力等核心问题提供了新工具。

当前,AI 安全已成为全球科技治理的焦点议题。牛津大学此前研究曾警示,模型在不安全数据上微调可能诱发恶意行为。此次 OpenAI 的发现为行业提供了积极解决方案,通过特征调控技术,既能保留 AI 模型的强大能力,又能有效遏制潜在风险。(纯钧)

相关内容

热门资讯

美股收盘:三大指数集体收涨 纳... 财联社12月20日讯(编辑 夏军雄)美东时间周五,在甲骨文和英伟达走强的带动下,人工智能(AI)概念...
贵阳有轨电车T2线主体硬件基本... 转自:贵州日报 本报讯(记者 冷赛楠)近日,“天眼问政”栏目收到网友留言:贵阳有轨电车T2线从比亚迪...
大山“用水三变” 转自:贵州日报 “以前靠山上小水源灌田,纯靠天吃饭。现在水龙头就在边上,要浇地直接打开就行。”69岁...
危房抢险施工公告 转自:贵州日报 贵阳市云岩区鸿雁巷17、19、20号及弯弓街6号住户:为消除贵阳市云岩区鸿雁巷17、...
“请3休8”带旺元旦假期云南旅...   本报讯 首席记者李思凡报道 “请3休8”带旺元旦游。12月19日,飞猪发布的数据显示,2026年...