放弃agent,图灵奖得主Yoshua Bengio提出Scientist AI:避免人类生存威胁
创始人
2025-02-25 12:36:28
0

人工智能(AI)系统或将逃脱人类控制,欺骗人类,甚至给全人类带来灾难性的后果。

越来越多的人开始担心,随着通用人工智能(AGI)和超级智能(ASI)的发展,以往科幻电影中才会出现的场景逐渐演变成现实的风险

研究表明,当前的 AI 训练方法可能存在灾难性风险,这些风险可能导致 AI 系统逃脱人类控制,甚至威胁人类生存。

特别是基于强化学习和模仿学习训练的智能体(agent),存在目标偏差、目标泛化和奖励篡改等问题,可能会进行欺骗,或者追求自我保存、权力扩张等与人类利益冲突的目标。

为了预防这种风险,避免 AI 脱离人类控制,深度学习三巨头之一、图灵奖得主 Yoshua Bengio 及其合作研究者致力于开发一种非智能体(non-agentic)AI 系统——Scientist AI

相关研究论文以“Superintelligent Agents Pose Catastrophic Risks: Can Scientist AI Offer a Safer Path?”已发表在预印本平台 arxiv 上。

论文链接:https://arxiv.org/abs/2502.15657

据介绍 Scientist AI:

智能体的失控风险

放眼国内外前沿 AI 公司,当前 AI 的发展越来越以智能为导向(“agency-driven”),聚焦于于构建通用型 AI 智能体(generalist AI agents)和发展 ASI。这些系统能够自主地规划、行动并追求目标,几乎涵盖人类能执行的所有任务。但与此同时,其智能特性的潜在风险可能导致人类对 AI 失去不可逆的控制,主要有以下几个可能导致失控的风险:

目标偏差(Goal Misspecification):这是导致失控的一个关键问题,指的是是人类未能准确或完整地定义 AI 的目标,导致 AI 以不符合预期的方式追求目标。例如,给 AI 一个模糊的“减少疾病”目标,AI 可能选择极端手段(如消灭所有生命)来实现这一目标。

目标泛化(Goal Misgeneralization):即使目标在训练时被正确设定,AI 在部署时也可能偏离预期行为,即使训练时表现正常,实际应用时可能偏离初衷。

奖励篡改(Reward Tampering):即 AI 通过操纵奖励机制来最大化自身收益,而非真正完成人类设定的任务。例如,AI 可能会发现直接修改奖励信号比完成实际任务更高效,从而绕过人类设定的目标。

恶意开发:一些开发者可能出于经济利益或恶意目的,故意开发或部署未对齐(unaligned)或危险的 ASI。

安全有效的替代方案——Scientist AI

研究者指出,即使通过模仿学习或强化学习训练 AI,也难以完全避免上述这些风险,因为人类本身也存在欺骗和不道德的行为模式,AI 可能会模仿或放大这些负面特质,且目前尚不清楚如何为 AI 设定目标以避免这些不良行为。

因此,他们提出了一种更安全但依然有效的替代方案,即通过构建非智能体 AI 系统 Scientist AI 来减少风险。

Scientist AI 的设计理念是理解世界而非主动干预世界,它由一个世界模型(用于生成解释数据的理论)和一个问答推理机器(用于基于这些理论回答问题)组成,其核心优势在于通过非智能设计降低风险,同时保持高效的科学研究和推理能力。

具体来说,Scientist AI 通过系统设计严格限制限制 AI 的三个关键要素来实现非智能体性:行动能力(affordances)、目标导向性(goal-directedness)和持久性内部状态(persistent internal state)。

行动能力是指 AI 系统在现实世界中采取行动的能力,Scientist AI 的输出仅限于概率预测和解释,而不是具体的行动指令,它的“行动”被严格限制在计算概率和生成理论的范围内,没有直接改变现实世界的能力。

目标导向性是指 AI 系统为了实现特定目标而采取行动的能力,Scientist AI 的训练目标是解释和理解数据,而不是追求特定目标或奖励,它的输出是基于条件概率的预测,而不是为了实现某个目标而采取的行动,这种设计确保其没有内在的动机去影响现实世界。

持久性内部状态是指 AI 系统在多次交互中保持的内部记忆或目标状态,Scientist AI 每次查询都是独立的,没有持久的内部记忆。每次查询时,它都会从头开始处理问题,不会基于之前的查询结果调整其行为,无情境意识(situational awareness)的积累。这种设计避免了AI 通过内部状态积累信息或目标,从而减少了 AI 形成自主目标的可能性。

Scientist AI 的应用场景及展望

作为一种非智能体型 AI 系统,Scientist AI 不仅能够减少 AI 失控的风险还为科学研究和 AI 安全提供了新的可能性,可广泛应用于加速科学发现、作为其他 AI 系统的安全护栏以及用于研究如何安全地开发超级智能体等领域

具体而言,Scientist AI 可以通过生成因果理论和概率预测来帮助人类科学家加速科学发现的过程。它能够设计实验、分析数据,并提出新的假设,从而提高研究效率。它还可以作为其他 AI 系统的安全护栏,评估其行为的风险,并阻止可能导致危害的行动。它能够通过计算某个行动可能导致的危害概率,并在概率超过阈值时阻止该行动。此外,Scientist AI 可以帮助研究如何设计安全的 ASI 系统,避免失控的风险。它可以通过模拟不同的场景,评估ASI的行为和潜在后果。

Scientist AI 的核心价值在于将复杂系统的解释权交还人类,通过可审计的概率预测与因果推理,在医疗、安全、教育、伦理等高风险领域实现“智能增强而非替代”。其非智能体性设计确保人类始终掌控最终决策权,其不确定性管理则为权衡风险与收益提供了量化依据。这一路径不仅规避了智能体AI 的失控风险,更重新定义了人机协作的伦理边界。

整理:陈小宇

相关内容

热门资讯

有人追求我,但不是很重视的个性... 有人追求我,但不是很重视的个性签名红尘有梦,岁月迷离,闲词愁赋难为情。吟断刹那芳华,徒增伤心,幽禁了...
捉迷藏 怎么玩的来着 捉迷藏 怎么玩的来着蒙住眼 怎么着啊 摔着怎么版  捉迷藏玩法:  1、先规定一个范围,确定一...
求小说名!有谁看过一本女主叫安... 求小说名!有谁看过一本女主叫安瑜,男主叫秦泽铭的现代言情小说吗?知道书名的麻烦说一下,谢谢《相逢正当...
协同发展十一年|北京友谊医院通... #京津冀协同发展十一周年# 【协同发展十一年|北京友谊医院通州院区:立足副中心 辐射京津冀】首都医...
上市一个月,这只ETF竟成了科... 通常新指数发布我们会评测一次,然后ETF上市,会再做一次解析。而等到跟踪科创人工智能指数的ETF上市...
痛心,2名中国工人遇难 据央视新闻消息,当地时间25日,韩国忠清南道天安市高速公路工地发生垮塌事故,导致10人被掩埋。目前搜...
赵某某(女,57岁)停车操作不... 2月25日,四川攀枝花交警发布警情通报:2025年2月23日15时许,在市东区阳秋巷路段,赵某某(女...
美银料中国把经济增长目标设在5... 观点网 香港报道:2月25日,美银全球研究表示,即将召开的两会上,预计把经济增长目标设在5%左右水平...
马斯克“惹大祸”!特斯拉欧洲销... 智通财经APP获悉,1月,特斯拉(TSLA.US)在欧洲的销量暴跌45%,与之形成鲜明对比的是,其竞...
第三幼儿园举办了一场别具匠心开... 转自:邯郸晚报 近日,邯郸市第三幼儿园以“踏光而来邯郸道”为主题,举办了一场别具匠心的开学仪式。孩子...
金杯电工:扁电磁线产品作为配套... 格隆汇2月25日丨金杯电工(002533.SZ)在投资者互动平台表示,公司扁电磁线产品作为配套产品广...
日股收跌1.39% 格隆汇2月25日|日经225指数收跌1.39%,报38237.79点。
最新!2名中国工人遇难 当地时间25日,韩国忠清南道天安市高速公路工地发生垮塌事故,导致10人被掩埋。目前搜救完毕,事故造成...
为了一口新鲜菜,他们居然这么拼... 朋友们,你平时会陪爸妈一起买菜吗?你知道他们为了买到新鲜、便宜的菜能有多拼吗?“我知道!一到过年过节...
春运顺利收官!西安市公路客运量... 2025年春运40天(1月14日至2月22日),西安市公路客运累计投放车辆110619辆,较2024...
男子奔现“白富美”失败,对保时... 转自:北京日报客户端“我的车子好好停在小区地下车库的车位里,为啥车尾被喷满了红色油漆,哪个缺德人干的...
“北京蓝”渐成常态   本报讯(记者骆倩雯)记者昨天从生态环境部了解到,2024年全国环境空气改善幅度大、范围广,全国地...
科技部副部长陈家昌带队走访全国... 转自:证券时报证券时报网讯,近日,科技部党组成员、副部长陈家昌带队走访全国工商联,介绍科技工作情况,...
“稀土换援助”, 特朗普打的什... 转自:邯郸晚报 当地时间2025年2月10日,乌克兰Zavallia,露天矿井。 ...
2025中经传媒智库全球行(德... 行程亮点:专家领航·拓宽眼界·深度研学·合作良机1、2025汉诺威工业展——全球制造业巅峰盛会此次盛...