微软推“Societal AI”,打造AI治理新范式
创始人
2025-06-27 16:05:56

价值观对齐的重要目标是建立人机价值协商的持续对话机制,也只有当AI系统既能坚守安全底线,又保持价值维度的可塑性,人机文明共生才真正成为可能。

文|石丹

ID | BMR2004

在人工智能技术从实验室走向产业应用的进程中,“负责任的人工智能”(Responsible AI)的概念曾主导了行业伦理准则的构建。但随着大模型技术的突破性发展,AI系统的社会渗透率呈指数级增长,传统治理框架已难以应对技术与社会深度耦合带来的复杂挑战。为此,微软亚洲研究院提出了“社会责任人工智能”(Societal AI)概念,意味着 AI 治理不再局限于技术伦理范畴,而是将技术研发与社会系统的交互影响纳入研究框架,为AI治理的跨学科范式提供技术支撑。

2025年3月,微软亚洲研究院发布了《社会责任人工智能:研究的挑战与机遇》白皮书,系统剖析了人工智能在社会实践中面临的复杂挑战,从技术、伦理、治理等多维度提出十大关键研究问题。该报告通过计算机科学与社会科学的跨学科深度对话,系统探讨了如何构建一个负责任的人工智能体系,旨在推动技术革新与社会价值实现双向赋能的协同发展。

那么,什么是Societal AI?它与Responsible AI有什么不同?如何将抽象的人类价值观具象到数据集从而建模研究?企业级科研组织的逻辑又是怎样的?《商学院》杂志记者采访了微软亚洲研究院全球研究合伙人谢幸,揭示了Societal AI的理论创新与实践路径,探讨AI与社会协同发展的未来图景。

01

从Responsible AI到Societal AI

范式的转变从本质上反映了技术与社会关系的重构。

谢幸介绍,微软早在AI技术发展初期就将“负责任的人工智能”作为人工智能研发的核心准则,系统构建起涵盖人工智能研发与应用中的“公平、包容、可靠与安全、透明、隐私与保障、负责”六大治理维度。这一具有战略远见的布局,曾为行业树立了标杆性的伦理范式。

社会责任人工智能是一个新兴的跨学科研究领域,聚焦于 AI 与全球社会系统和公共生活的复杂交互关系。它主要关注两个方面:第一,AI 对教育、就业和治理等领域带来的影响;第二,在 AI 能力不断演进的过程中,AI 系统所面临的、新兴的内在挑战,例如评估机制、责任归属、人类价值观对齐问题。其目标是引导 AI 发展与社会系统相协调,能够更好地融入现实世界。

从“Responsible AI”到“Societal AI”并非简单的概念迭代,而是人工智能技术研究范式的转变。这种范式的转变从本质上反映了技术与社会关系的重构。

据了解,负责任的人工智能框架本质上仍属于技术修正主义范畴,其治理逻辑聚焦于算法层面的优化改进。例如,通过差分隐私(一种可以在向外界提供数据信息的同时,保护数据中个体隐私不被泄露的技术)保护数据安全、利用对抗训练消除算法偏见等,这种技术中心主义的治理路径在“小模型”时代成效显著,但当面对参数量超千亿的大模型时,其方法论体系会遭遇根本性挑战。 

谢幸告诉记者,以ChatGPT为代表的生成式人工智能,不仅颠覆了传统的研究方法论,更对既有技术伦理框架提出了全新挑战。这种挑战首先体现在可解释性研究领域:传统的解释模型难以适配大模型的“黑盒”特性,因为大模型通常由成千上万甚至上亿个参数构成,通过多层网络结构相互作用,使得其决策过程高度复杂且难以解释。其次,在内容生成控制方面,传统方法依赖模型微调来消除有害内容,需要耗费大量计算资源和标注成本,而大模型使得通过系统级提示词(System-level Prompt)进行实时控制成为可能。

谢幸坦言,“这样的困惑推动了我们深入探索大模型时代特有的技术伦理问题,这是我们逐步去定义社会责任人工智能的一个出发点。通过‘社会责任人工智能’这一方向的研究,我们将努力确保人工智能成为一项对整个社会负责任的技术,使得AI的发展不仅符合人类的福祉,更要探索如何让人工智能理解和遵从人类社会的主流价值观,做出符合人类预期的决策,并通过更合理的评估模型让人类准确掌握人工智能的真实价值观倾向和智能水平。 ”

02

人工智能价值观对齐的实践探索

尽管目前人工智能价值观对齐技术取得了一定的进展,但距离真正的大模型价值观对齐还有很大的差距。

在人工智能技术加速演进的今天,价值观对齐已成为全球AI治理的核心议题。

面对越来越智能且应用场景广泛的人工智能,曾经那些狭义的、指令化的标准已经显得力不从心。“因此,在 Societal AI 的研究中,人工智能对齐的目标应该从过往的指令上升至人类的内在价值观,让人工智能可以通过自我判断,使其行为与人类价值观保持一致。”谢幸说,“但价值观本身就是一个很抽象的概念,同时,人工智能应该与哪些价值观进行对齐?又该如何对齐?这些问题至今也还没有明确的答案。”

为了解决这些挑战,微软亚洲研究院提出了价值观罗盘(Value Compass)项目,从交叉学科的角度切入,充分借鉴伦理学和社会学中的理论,以解决对价值观的定义、评测和对齐问题,确保AI在处理和分析问题时符合人类的伦理和社会规范。价值观罗盘项目的核心在于开发一种名为BaseAlign的对齐算法,该算法基于社会心理学家谢洛姆·施瓦茨(Shalom H.Schwartz)的人类基本价值理论。

据了解,人类基本价值观理论是施瓦茨提出的跨文化心理学和“普世价值”理论,在心理学、社会学、文化研究等领域得到了广泛的应用,该理论认为,人们内心深处存在一组基本价值观,这些价值观在个体行为和社会文化中起着重要的作用。这些基本价值观在不同的文化和社会背景下可能有所不同,但它们通常是相对稳定的,并且在个体的生活中会对其行为、决策和态度产生影响。该理论确定了10种基本的人类价值观,每种代表一组相关的价值,反映了个体在不同情境中对重要目标和理想的不同关注和偏好。这些价值观之间存在着相互竞争和协调的关系,共同塑造了个体的行为模式和社会交往方式。它们分别是:刺激(Stimulation)、享乐主义(Hedonism)、成就(Achievement)、权力(Power)、安全(Security)、自我导向(Self-direction)、从众(Conformity)、传统(Tradition)、 仁慈(Benevolence)、普世主义(Universalism)。

谢幸介绍,从建模的角度出发,研究员们以该理论各维度为基础搭建了一个名为“基本价值观空间”(Basic Value Space)的价值空间,在这个空间中评估、分析大语言模型的价值观对齐。同时,微软亚洲研究院还训练了一个基本价值观判别模型,用于自动评估大语言模型背后的基本价值,并提出了BaseAlign的算法,让大语言模型对齐得以在基本价值观空间中实现。“我们基于Value Compass的相关研究,推出了一个公开的网站,可以测评当下主流大模型的价值观。不涉及打分也不涉及评判高低对错,它会像大家平时爱测的‘MBTI’一样,获得当前大语言模型行为的价值观向量。”谢幸说,“尽管目前人工智能价值观对齐技术取得了一定的进展,但距离真正的大模型价值观对齐还有很大的差距。未来,微软亚洲研究院将通过 Value Compass 项目,继续深化对大模型与人类价值观对齐的研究,探索更多有效的对齐方法和工具,确保人工智能可以始终坚持社会责任,这将有助于构建更加安全、可靠和可信的人工智能系统。”

03

跨学科合作:难,但必要

社会科学为计算机技术提供了新的视角和工具。

早在2023年11月,微软亚洲研究院与清华大学苏世民书院联合举办了一场主题为“促进人工智能的合作与学术交流”的座谈会。会上,苏世民书院院长薛澜教授表示,人工智能带来巨大的范式转变,新技术改变了社会科学研究的格局。在人工智能治理方面,我们需要技术专家、哲学家、政策制定者和管理人员共同参与,跨学科合作是人工智能发展的关键所在。

谢幸所带领的社会计算组在实践中发现,“社会责任人工智能”的研究方向,需要与心理学、社会学、法学等社会科学进行跨学科合作。如前述,如果没有社会科学的深度介入,仅靠计算机领域的科学家将难以完成价值观对齐的研究。“挑战也在于,社会科学为计算机技术提供了新的视角和工具,但这是一个我们都未曾涉足的领域,需要从零开始搭建理论框架与方法。”谢幸说。

其实,这里的核心挑战源于两个学科底层逻辑差异:计算机科学建立在形式化逻辑与可计算性理论之上,追求用算法将复杂问题转化为可解方程。社会科学则以解释性范式为核心,通过概念工具解剖社会现象的多重因果链。同时,计算机科学讲求的是快速迭代和方法优化,社会学则需要经年的研究与观察,如何平衡并有机结合这两种不同的研究方式和节奏、让算法逻辑与人文精神在动态平衡中塑造负责任的AI,仍是需要探索的问题。

“我们也需要引入‘双料人才’,因为目前在社会学、法学等社会学科中,能够掌握跨学科研究所需知识的人才还比较匮乏。”谢幸说,“我们希望通过实习生项目来推动跨学科人才的成长。目前有一位剑桥大学心理学博士参与到了我们的研究中,探讨人类与AI在认知模式上的共性与区别。从问题构建到API调用,从数据采集到结果分析,实习生能够在真实的研究场景中完成知识迁移。同时,我们还开展诸如‘计算社会科学暑期国际研讨会’的方式,鼓励多学科间的跨界合作,涵盖人工智能技术、计算机与数据科学、社会科学、设计思维等领域,为对计算社会科学感兴趣的研究生、博士后研究人员和青年教师提供免费的、开放的、高质量的课程,以促进该领域的发展。” 这种模式也使得社科背景研究者快速掌握AI实验的基本功,为后续深度合作奠定基础。

04

前瞻布局与长效价值的平衡

坚持长期主义研究。

作为企业级研究机构,微软亚洲研究院的科研组织方式呈现出独特的战略定力。其研究组的设立与研究方向的遴选,通常会兼顾“前瞻洞察”与“长效价值”的双重准则,既非追逐技术热点,亦不囿于短期商业回报,而是致力于构建技术深度与战略价值的复合优势。

用微软亚洲研究院院长周礼栋的话说,就是要做“顶天立地”的研究。“何谓立地?研究院不能只在象牙塔里做研究,需要了解真问题、真痛点,我们首先要做的是‘接地气’,融入行业,了解它面临的实际问题,再看怎么用技术去解决。何谓顶天?一个创新型组织的成长过程,也是不断拓展视野并承担更大社会责任的过程。我们希望研究人员的视野和格局能打开,以高度的社会责任感,去做有意义、有价值、有温度和创造未来的科学研究和基础创新。当每个人以服务并造福社会为科学研究的终极目标,那么获得引领业界的成果也将水到渠成。”周礼栋曾告诉《商学院》记者。

以谢幸所在的社会计算组为例,其成立可追溯至十年前社交媒体兴起引发的数据革命。当Facebook用户突破十亿、微博、微信成为现象级应用时,微软亚洲研究院敏锐捕捉到社交网络数据对理解人类行为的价值。社会计算组的最初使命就是聚焦于挖掘社交媒体数据的潜在价值。谢幸表示,这种前瞻性布局并非跟风热点,而是基于对“数字社会”演进路径的深刻认知。当人类行为首次以结构化数据形式被完整记录时,计算机科学和社会学便开始有了连接的桥梁,并逐渐交融,而计算社会学的研究范式也就此发生根本转变。

当推荐系统从信息过滤工具演变为行为干预引擎时,微软亚洲研究院关注到了“信息茧房”和“社会极化”等潜在风险,这些问题也在学术界引发了持续而广泛的讨论。谢幸和他的团队开始关注算法决策对社会认知的潜在影响。这正是早期数据挖掘研究的自然延伸:当技术具备塑造行为的能力时,理解其行为机制就成为更紧迫的学术使命。同时,这些发现促使研究员们进一步探索模型的可解释性、公平性以及隐私等问题,为后续更全面的社会责任人工智能研究奠定了基础。

谢幸在微软亚洲研究院24年研究工作的背后,也体现了这个科研组织的运行内核之一——坚持长期主义研究。“我追求的不仅仅是发表一两篇论文,更重要的是与人交流和讨论的过程。持续的研究还需要投入大量的时间和耐心,不能急于求成,这就需要我们反复实验和实践,验证和改进自己的方法及模型,才能取得好的成果。”从个性化推荐研究,到关注“信息茧房”和“社会极化”等潜在风险,从探索模型的可解释性、公平性以及隐私等问题,到后来的“社会责任人工智能”,都体现在这个科研组织中,“长期主义”文化带来的价值。当然,研究院也会从组织层面支持那些有想法、有长期价值的项目,“研究院采用了一种类似风险投资的模式来优化资源分配和加强对项目的支持。这一模式涵盖了初期探索的种子投资以及基于长远愿景和潜力的阶段性投资。这确保了研究院既鼓励自下而上的创新,也有着对长远愿景的专注投入。”周礼栋曾告诉记者。

当AI技术的社会影响突破“工具属性”进入“文明塑造”领域,Societal AI提供的不仅是治理方案,更是文明演进的新范式。 价值观对齐的重要目标是建立人机价值协商的持续对话机制,也只有当AI系统既能坚守安全底线,又保持价值维度的可塑性,人机文明共生才真正成为可能。

相关内容

热门资讯

更好保护消费者的知情权选择权 (来源:中国妇女报)转自:中国妇女报  据新华社北京12月20日电(记者 魏弘毅 魏玉坤) 为深入贯...
监控到位而不越位校园安全更有温... (来源:中国妇女报)转自:中国妇女报  □ 白晨  近日,湖南汨罗、邵阳、桑植等地多位网友通过“问政...
沪深交易所:支持境外机构投资者... (来源:经济参考报) 为进一步深化交易所债券市场对外开放,提升市场国际化水平,上交所、深交所近日分别...
95后鸵鸟主理人:养鸵鸟不是“... 在山城重庆养鸵鸟?听起来有些不可思议,毕竟人们印象中的鸵鸟多奔跑在非洲大陆。95后“鸵鸟主理人”范志...
让非遗在田园中“活”起来 (来源:中国妇女报)转自:中国妇女报  □ 中国妇女报全媒体记者 姜军旗  在盛满清水的方盘里,滴入...