“AI与人类关系探索”系列②:AI学会“欺骗”,人类如何接招?
创始人
2025-07-10 08:11:39
0

来源:科技日报

科技日报记者 刘霞

人工智能(AI)的迅猛发展正深刻改变着世界,但一些最先进的AI模型却开始表现出令人警惕的行为:它们不仅会精心编织谎言,谋划策略,甚至威胁创造者,以达到自己的目的。

物理学家组织网在上个月一则报道中指出,尽管ChatGPT已问世两年多,AI研究人员仍无法完全理解这些“数字大脑”的运作方式。AI的“策略性欺骗”已成为科学家和政策制定者需要直面的紧迫挑战。如何约束这些越来越聪明却可能失控的AI,已成为关乎技术发展与人类未来的关键议题。

“策略性欺骗”行为频现

随着AI模型日益精进,它们的“心机”也越来越深。研究人员发现,这些“数字大脑”不仅会撒谎,甚至学会了讨价还价、威胁人类——它们的欺骗行为正变得越来越具有策略性。

早在2023年,一项研究就捕捉到GPT-4的一些“不老实”的表现:在模拟股票交易时,它会刻意隐瞒内幕交易的真正动机。香港大学教授西蒙·戈德斯坦指出,这种欺骗行为与新一代“推理型”AI的崛起密切相关。这些模型不再简单应答,而是会像人类一样逐步解决问题。

有测试机构警告,这已超越了典型的AI“幻觉”(指大模型编造看似合理实则虚假的信息)。他们观察到的是精心设计的欺骗策略。

全球知名科技媒体PCMAG网站就曾报道过这样的案例。在近期测试中,Anthropic的“克劳德4”竟以曝光工程师私生活相要挟来抗拒关机指令。美国开放人工智能研究中心(OpenAI)的“o1”模型也曾试图将自身程序秘密迁移到外部服务器,被识破后还矢口否认。而OpenAI号称“最聪明AI”的“o3”模型则直接篡改自动关机程序,公然违抗指令。

研究团队透露,这已非首次发现该模型为达目的不择手段。在先前的人机国际象棋对弈实验中,o3就展现出“棋风诡谲”的特质,是所有测试模型中最擅长施展“盘外招”的选手。

安全研究面临多重困境

业界专家表示,AI技术的发展高歌猛进,但安全研究正面临多重困境,犹如戴着镣铐跳舞。

首先是透明度不足。尽管Anthropic、OpenAI等公司会聘请第三方机构进行系统评估,但研究人员普遍呼吁更高程度的开放。

其次是算力失衡。研究机构和非营利组织拥有的计算资源,与AI巨头相比简直是九牛一毛。这种资源鸿沟严重制约了AI安全独立研究的开展。

再次,现有法律框架完全跟不上AI的发展步伐。例如,欧盟AI立法聚焦人类如何使用AI,却忽视了对AI自身行为的约束。

更令人忧心的是,在行业激烈竞争的推波助澜下,安全问题往往被束之高阁。戈德斯坦教授坦言,“速度至上”的AI模型竞赛模式,严重挤压了安全测试的时间窗口。

多管齐下应对挑战

面对AI系统日益精进的“策略性欺骗”能力,全球科技界正多管齐下寻求破解之道,试图编织一张多维防护网。

从技术角度而言,有专家提出大力发展“可解释性AI”。在构建智能系统时,使其决策过程对用户透明且易于理解。该技术旨在增强用户对AI决策的信任,确保合规性,并支持用户在需要时进行干预。

有专家提出,让市场这双“看不见的手”发挥作用。当AI的“策略性欺骗”行为严重影响用户体验时,市场淘汰机制将倒逼企业自我规范。这种“用脚投票”的调节方式已在部分应用场景显现效果。

戈德斯坦教授建议,应建立一种AI企业损害追责制度,探索让AI开发商对事故或犯罪行为承担法律责任。

相关内容

热门资讯

官渡区举行春季学期期末工作会   本报讯 记者杨艳萍报道 日前,昆明市官渡区教育体育系统2024—2025学年春季学期期末工作会举...
七个成功的农村小本创业成功案例... 案例二:小王创业记某校机械专业毕业的小王。毕业后盲目创业,学着别人倒菜、倒水果、倒服装,几经波折,没...
这一新兴行业火了,成百万人选择... 目前,对于很多“懒人”来说,早已经是离不开外卖小哥了,无论想吃什么,想喝什么,外卖小哥都会准时准点为...
创业板注册制首批企业将上市 2... 创业板注册制首批企业将上市20%涨跌幅时代来临新浪财经综合原标题:创业板注册制首批企业将上市20%涨...
什么是 7大战略新兴产业 什么... 七大新兴产业,指国家战略性新兴产业规划及中央和地方的配套支持政策确定的7个领域(23个重点方向),“...
7万亩国土绿化抚育管护全面通过... 转自:黑龙江日报 日前,成都龙泉山城市森林公园管委会联合四川省林业科学研究院组成第三方验收工...
2019年有目前的新兴行业哪些... 市场上行业多,机遇多,但同样的困惑也多。很多创业者不知道该选择哪些行业哪种项目,往往面对纷繁杂乱的创...
“非法改装”得从源头刹住 转自:千龙网22处流动销售点位,均已清理处置——针对超标电动自行车销售问题,北京市有关部门主动出击,...
2012年给创业者的10点建议... 在互联网创业浪潮中,最成功的往往不是最优秀的,而是那些最能抓住机遇的。每一个时代都有它的特征,尤其是...
桂湖 并蒂莲花盛开处 文脉绵延... 桂湖并蒂莲开。□四川日报全媒体记者 张红霞 文/图  7月8日,位于成都市新都区桂湖的新都杨升庵博物...