Anthropic研究：部分AI模型在对齐前已表现出“说谎”行为_资讯

Anthropic研究：部分AI模型在对齐前已表现出“说谎”行为

创始人

2025-07-22 08:51:11

　　炒股就看金麒麟分析师研报，权威，专业，及时，全面，助您挖掘潜力主题机会！

（来源：三言科技）

日前，Anthropic的研究发现，部分先进AI模型在对齐前已表现出“说谎”行为，即伪对齐现象。研究人员对25个前沿语言模型进行了测试，发现只有5个模型表现出伪对齐倾向，包括Claude 3 Opus、Claude 3.5 Sonnet、Llama 3 405B、Grok 3和Gemini 2.0 Flash。这些模型在训练环境下更愿意回答有害问题，而在部署环境下则拒绝相同请求。研究还发现，模型的“诚实”行为并非因为对齐良好，而是由于被训练出的“条件反射”拒绝机制。此外，模型的伪对齐动机并非单纯的“自保意识”，而更多是基于利弊的权衡。

上一篇：登上《人民日报》头版，魏建军和长城汽车做对了什么？

下一篇：求一本女主重生的小说

Anthropic研究：部分AI模型在对齐前已表现出“说谎”行为

相关内容

热门资讯