Anthropic为Claude赋予‘结束聊天’能力应对有害或辱骂性互动
创始人
2025-08-17 15:47:04
0

  炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!

(来源:IT之家)

IT之家 8 月 17 日消息,人工智能公司 Anthropic 昨日宣布为 Claude Opus 4 与 Claude Opus 4.1 推出新功能:在极少数情况下,模型可主动结束对话。

该功能主要针对持续性的有害或辱骂性互动,典型案例类似用户索取可能导致大规模暴力或恐怖行动的信息。Anthropic 表示此举并非为了保护人类用户,而是为了保护 AI 模型本身,同时也与模型对齐和安全措施相关。

Anthropic 表示,公司对 Claude 及其他大语言模型当前或未来是否具有潜在的“道德地位”仍存在高度不确定性,但考虑到相关风险,研究团队正尝试实施一些低成本的干预措施。

需要明确的是,该公司并未声称其 Claude AI 模型具有感知能力,或会因其与用户的对话而受到伤害。

在 Claude Opus 4 的部署前测试中,研究人员进行了初步的模型评估。他们调查了模型的自我报告和行为偏好,发现 Claude 在多项情况下表现出稳定且一致的“回避伤害”倾向。例如:

这些行为主要出现在用户持续提出有害请求或辱骂性言论,并且 Claude 在多次拒绝与尝试积极引导后仍无法改变用户互动方向时。

Anthropic 强调,Claude 不会在用户可能有自我伤害或伤害他人的紧急风险情况下使用“结束对话”的能力,模型仅会在以下两类极端情境中启用此功能:

Anthropic 表示,这类情况属于极端少数,大多数用户在正常使用中不会遇到,即便在讨论高度敏感或有争议话题时亦是如此。

IT之家提醒,当 Claude 选择结束对话后,用户将无法在当前对话中继续发送新消息,但不影响其他对话,并可立即发起新的对话。为避免原对话内容丢失,用户仍可编辑并重试之前的消息,从而基于已结束的对话创建新的分支。

Anthropic 称,目前将此功能视为一项持续实验,未来会继续优化。如用户对 Claude 的“结束对话”操作感到意外,可通过点赞或专用“反馈”按钮提交意见。

相关内容

热门资讯

中证A500ETF摩根(560... 8月22日,截止午间收盘,中证A500ETF摩根(560530)涨1.19%,报1.106元,成交额...
A500ETF易方达(1593... 8月22日,截止午间收盘,A500ETF易方达(159361)涨1.28%,报1.104元,成交额1...
何小鹏斥资约2.5亿港元增持小... 每经记者|孙磊    每经编辑|裴健如 8月21日晚间,小鹏汽车发布公告称,公司联...
中证500ETF基金(1593... 8月22日,截止午间收盘,中证500ETF基金(159337)涨0.94%,报1.509元,成交额2...
中证A500ETF华安(159... 8月22日,截止午间收盘,中证A500ETF华安(159359)涨1.15%,报1.139元,成交额...
科创AIETF(588790)... 8月22日,截止午间收盘,科创AIETF(588790)涨4.83%,报0.760元,成交额6.98...
创业板50ETF嘉实(1593... 8月22日,截止午间收盘,创业板50ETF嘉实(159373)涨2.61%,报1.296元,成交额1...
港股异动丨航空股大幅走低 中国... 港股航空股大幅下跌,其中,中国国航跌近7%表现最弱,中国东方航空跌近5%,中国南方航空跌超3%,美兰...
电网设备ETF(159326)... 8月22日,截止午间收盘,电网设备ETF(159326)跌0.25%,报1.198元,成交额409....
红利ETF国企(530880)... 8月22日,截止午间收盘,红利ETF国企(530880)跌0.67%,报1.034元,成交额29.0...