Anthropic研究:部分AI模型在对齐前已表现出“说谎”行为
创始人
2025-07-22 08:51:11

  炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!

(来源:三言科技)

日前,Anthropic的研究发现,部分先进AI模型在对齐前已表现出“说谎”行为,即伪对齐现象。研究人员对25个前沿语言模型进行了测试,发现只有5个模型表现出伪对齐倾向,包括Claude 3 Opus、Claude 3.5 Sonnet、Llama 3 405B、Grok 3和Gemini 2.0 Flash。这些模型在训练环境下更愿意回答有害问题,而在部署环境下则拒绝相同请求。研究还发现,模型的“诚实”行为并非因为对齐良好,而是由于被训练出的“条件反射”拒绝机制。此外,模型的伪对齐动机并非单纯的“自保意识”,而更多是基于利弊的权衡。

相关内容

热门资讯

【应用】阿里推出夸克网盘独立A... 记得之前调研大家都在用哪家浏览器的时候,提名夸克的非常多,但不知道这些用夸克的小伙伴里有多少有使用夸...
王楚钦战胜张本智和,夺得乒乓球... 转自:央视新闻客户端在今天进行的第35届国际乒联-亚乒联盟亚洲杯男单决赛中,王楚钦战胜日本选手张本智...
调研速递|丽珠集团接受摩根基金... 2月6日,丽珠集团(000513.SZ)接受特定对象调研,摩根基金、工银理财等10家机构参与。公司就...
康芝药业:目前宏氏投资已给公司... 证券日报网讯 1月30日,康芝药业在互动平台回答投资者提问时表示,关于大股东回购中山爱护股权事宜,公...
小心,日本 来源:圆方你怎么看啊012026年2月8日,日本第51届国会众议院选举投票结束,日本广播协会(NHK...