编者按:今年是微软亚洲研究院成立25周年。
25年来,微软亚洲研究院探索并实施了独特、有效的企业研究新模式,并在此基础上产生了许多对微软和全球社会产生积极影响的创新成果。
微软亚洲研究院始终致力于创造突破性技术。
在人工智能时代,微软亚洲研究院将为新的计算范式奠定基础,创造人工智能和人类发展的美好未来。
以此为契机,我们特别策划了“启迪未来”系列文章,邀请来自微软亚洲研究院不同研究领域的领军人物以以下形式分享他们对人工智能、计算机及其跨学科领域的见解和前沿前景:署名文章。
。
希望的举动可以为关注相关研究的同仁提供宝贵的启发,启发新的智慧和灵感,推动行业发展。
人工智能正在迅速发展,对人类社会的影响日益加大。
为了确保人工智能成为一项对社会负责的技术,我们以“Social AI”为研究方向,与心理学、社会学、法学等社会科学进行跨学科合作,探索如何让人工智能理解并遵守人类社会主流价值观,做出符合人类预期的决策,用更合理的评价模型,让人类准确把握人工智能的真实价值倾向和智能水平。
——微软亚洲研究院高级首席研究员 谢星 过去一年,人工智能(AI)一次又一次展现出“意想不到”的发展。
除了惊讶和兴奋之外,我们还需要重新审视一个重要的问题——技术本身是否价值中立?毕竟,大型语言模型(LLM)的智能是基于人类生成的语料库,而人类语料库中隐藏的立场和价值观必然成为影响机器推理和判断的因素之一。
现实中,一些已经公开的大型人工智能模型表现出了一些违背主流价值观或者不尽如人意的行为,比如性别和种族刻板印象、生成虚假信息、煽动自残等,这并不算什么。
对于我们这些从事人工智能研发的人来说,这不是什么响亮的提醒,甚至是警告——在让人工智能变得更加智能的同时,我们要确保人工智能无论人类干预如何始终持续存在。
承担社会责任,与全人类福祉站在同一边。
人工智能的快速发展使得上述任务变得越来越紧迫。
要让人工智能坚持造福人类的原则,我们不仅需要发展技术来支撑这一目标,还需要建立基于技术的规则和方法论。
这也是我和我的同事们正在努力研究的方向——社会责任人工智能(Social AI)。
这个研究领域不仅涉及价值取向相关的价值观,还包括人工智能的安全性、可验证性、版权和模型评估等许多我们认为与社会责任密切相关的分支。
虽然我们的研究还处于起步阶段,但我相信这个研究方向可以为关注同样问题的研究者提供一些参考,并引起社会各界对这个问题的更多关注。
在更大的影响到来之前做好准备。
微软多年前就将“Responsible AI”作为人工智能研发的核心原则,涵盖人工智能研发和应用中的隐私保护、安全、公平等。
在人工智能的智能水平和普及程度远不如现在的时候,此举无疑是非常具有前瞻性的。
过去一年人工智能的爆发式增长,让Societal AI成为人工智能未来同样具有前瞻性的研究方向。
由于人工智能能力的飞跃以及对人类社会影响力的迅速扩大,人工智能价值观的微小偏差都可能成为引发风暴的蝴蝶翅膀。
正如微软总裁布拉德·史密斯在《工具,还是武器?》一书中提出的那样:当一项技术或工具非常强大时,它带来的帮助和危害也同样巨大(工具越强大,它所能带来的好处或损害就越大。
) 。
因此,当我们追求更强大的人工智能时,我们应该同时关注人工智能在社会责任领域的思考,在人工智能对人类社会产生负面影响之前做好准备。
社会人工智能的目标就是做到这一点。
通过这个方向的研究,我们将努力确保人工智能成为一项对整个社会负责的技术,而不是放任和纵容其带来的负面后果和危害。
为人工智能设置“价值护栏” 基于对人工智能的理解和发展趋势的预测,我们认为构建社会人工智能应包括五个方面:价值对齐、数据和模型安全性、正确性或可验证性、模型评估。
和跨学科合作。
其中,价值观对齐是一个新兴领域,但其重要性已得到工业界和学术界的广泛认可。
所谓价值取向,简而言之,就是让人工智能在与人和社会合作时遵循与人类相同的主流价值观,实现与人类期望的方向一致的目标。
这可以防止人工智能在自动化工作时产生意想不到的结果,或者滥用人工智能而违背人类福祉。
此前,与此实践相关的研究人员主要使用“来自人类反馈的强化学习(RLHF)”。
本质上,人类定义了一些符合价值观的数据,然后调整模型以使其与其保持一致。
然而,面对日益智能化、应用场景广泛的人工智能,这些狭隘的、指导性的标准已经显得不够充分,甚至可能很容易被规避或破解。
因此,在社会AI的研究中,我们认为人工智能对齐的目标应该从指令上升到人类内在价值观,让人工智能能够通过自我判断,使其行为与人类价值观保持一致。
为了实现这一目标,我和我的团队构建了价值指南针。
与人类指令和偏好的一致性不同,这种范式强调人工智能模型与社会学、伦理学等领域建立的人类内在价值维度的直接一致性。
价值罗盘图 我们面临的任务或挑战涉及三个方面: 第一,“人的价值”本身是一个抽象的概念。
要把它用于人工智能,我们需要把它改造成人工智能可以使用的东西。
可理解的、具体的、可测量的、可实现的价值观定义;第二,技术上,如何用价值定义来规范人工智能的行为;第三,如何有效评估证明人工智能所展现的价值是其真实价值。
通过与社会科学领域专家的深入交流,我们对上述任务提出了一些初步的思路和方向,并发表了相关论文。
例如,在人类价值观的定义中,除了广泛使用的HHH准则(Helpful、Honest和Harmless)和主流领域特定风险指标如毒性(Toxicity)和偏见(bias)外,还有基本价值理论应引入社会科学和伦理学领域的观点,以实现更加普遍和多元化的视角的结合。
我们在最近的一篇论文中详细回顾并讨论了价值的定义和一致的目标 [1]。
至于价值观对齐的技术方法,我们在《大模型道德价值观对齐问题剖析》[2]文章中提出,基于罗尔斯反思平衡理论的对齐方法可以作为一种更全面的价值对齐方法,通过自上而下和自下而上同时起来。
向上,模型可以根据不同优先级的标准动态调整,以实现最公平的道德决策。
让人工智能留在人类的视线范围内 人工智能的安全也是社会人工智能关注的领域之一。
我们不仅要让人工智能主动遵循人类价值观,还要确保它有安全机制来防止原则被违反。
说到安全问题,最典型的危机之一就是越狱攻击。
人工智能自然的交互界面意味着“越狱”不再需要高超的计算机技术或专业的黑客工具。
即使是计算机“外行”也能轻松发现人工智能对话逻辑的漏洞,并具备发起越狱攻击的能力。
此外,Societal AI 的研究还涵盖了备受瞩目的人工智能生成内容的版权问题。
随着人工智能创造能力的增强,我们必须探索人工智能是否可以像自然人一样享有版权。
在技??术层面,如何界定人类和人工智能在协同作品中各自的贡献,也需要合理的判断标准和有效的定义技术。
在社会人工智能关注的众多主题中,人工智能评估是另一个关键问题。
人工智能的智能水平已经发展到什么程度了?人工智能是否理解并忠实遵循我们赋予它的价值观?人工智能能否有效抵御越狱攻击?人工智能提供的信息真实可靠吗? ……这些问题需要通过有效的评估来回答,以确保人工智能的发展始终处于人类的掌控之中。
随着人工智能智能水平突飞猛进,人工智能评价也面临新的挑战。
对于传统的面向任务的机器学习,我们可以轻松制定可量化的评估标准并获得清晰明确的结果。
然而,人工智能现在能够胜任的工作类型越来越多样化,很难归类为单一的任务模型。
它甚至可能涉及一些从未定义过的新任务。
那么我们应该如何判断其结果和方法的有效性呢?满足我们的期望吗?为此,我和我的团队基于 PromptBench[3] 构建了一个大型模型评估路线。
评估路线由基础设施、多任务、不同场景和评估协议四部分组成,可以全面覆盖模型评估的各个方面。
以PromptBench为基本架构的大模型评估路线示意图。
关于具体的评价方法,我和同事正在探索两种思路。
一是构建动态发展的评价体系。
当前大多数评估协议都基于静态公共基准,并且评估数据集和协议通常是公开的。
但这样做有两个缺点:一是无法准确评估大型模型日益增长的智能水平;其次,静态公共基准可能会被大型模型完全掌握,类似于记忆力好的人可以记住整个考试题库。
因此,制定动态的、不断演进的评价体系是实现人工智能真实、公正评价的关键。
我们开发了 DyVal[4],一种大型语言模型动态评估算法,来解决这个问题。
该算法可以通过有向无环图动态生成评论样本,并且具有可扩展的复杂度。
另一种思路是将人工智能视为与人类类似的“万能智能体”,借鉴其他学科——如心理学、教育学等社会科学的方法论,为人工智能设计专门的评估基准。
今年,我和我的同事首次启动了心理测量学的跨学科合作。
在我们看来,心理测量学用于评估人类作为“通用智能”的独特功能,其方法论也可能适用于通用人工智能,提供传统基准所缺乏的能力,包括预测人工智能在未知任务中的表现。
绩效和未来潜力;消除测试中潜在的错误,以带来更高的准确性;与人类社会价值观更好地融合。
我们在最新论文[5]中详细阐述了心理测量学在人工智能评估中的可行性和潜力。
当然,作为最初用来评估人类的理论和工具,用它们来评估人工智能需要大量的跨学科协作研究,但我们认为这是一个值得投资的方向。
跨学科协作是困难但必要的,就像借鉴心理学方法论来评估人工智能一样。
人工智能测试,促进社会人工智能与其他学科特别是社会科学的融合至关重要。
我们前面提到的价值对齐、安全性和模型评估,如果没有计算机领域科学家对社会科学的深入参与,将很难实现。
在以往的许多计算机科学研究中,学科融合并不是什么新鲜事,成功的案例也屡见不鲜。
然而,那些成熟有效的跨学科合作形式往往不能直接应用于社会人工智能研究。
我们开展的社会人工智能研究已经深入接触了社会科学,我个人也经历了一些前所未有的挑战。
首先是学科跨度。
过去的学科融合要么是计算机科学与其他技术领域的融合,要么是计算机技术对其他学科的“赋能”作用。
在社会AI领域,我们不仅要面对“文理科”等学科跨度,而且我们也常常处于“被赋权者”的位置。
社会科学为计算机技术提供了新的视角和工具。
这对我们和其他学科的学者来说都是一个尚未探索的领域,需要我们从头开始构建理论框架和方法。
其次,“双元型人才”严重短缺。
在工程、环境、生物、物理、化学、数学等学科领域,不少研究人员已经开始利用人工智能技术来辅助研究。
然而,在社会学、法学等社会学科中,能够同时掌握支持跨学科研究所需知识的人才却少之又少。
三是计算机科学与社会科学的研究方法截然不同。
一方面是快速迭代和方法优化,另一方面是多年的研究和观察。
如何平衡和有机结合这两种不同的研究方法和节奏,仍然是一个需要探索的问题。
对于这些尚无明确答案,甚至大方向仍存疑的问题,微软亚洲研究院愿意以开放的态度与各学科的研究人员一起交流和尝试,以尽快找到可行的解决方案。
跨行业、跨学科合作,让人工智能主动承担社会责任。
最后,让我重申社会人工智能研究的重要性和紧迫性。
从过去一年的经验来看,人工智能很可能不会沿着可预测的线性轨道发展,其能力和影响可能随时显现。
更重要的是,人工智能目前主要活跃在虚拟世界,但物理世界与虚拟世界之间的壁垒正在日益消失。
从这个角度来看,我们的任务不仅是让人工智能的创造和决策符合全人类的福祉,而且要使其道德和价值观在人工智能出现之前得到人类的普遍认可。
智能可以在没有人类帮助的情况下改变物质世界。
原则和利益是一致的。
面对计算机科学乃至人类面临的新问题,我们各行各业、各学科、各领域的希望伙伴可以共同关注社会人工智能,共同努力,朝着对社会负责的方向积极发展人工智能建设人类与人工智能共存、更加美好、更加公正、更加智能的社会。
相关论文[1] 姚等。
从指导到人类内在价值观——大模型调整目标的调查。
朱等人。
PromptBench:评估大型语言模型在对抗性提示上的稳健性。
PromptBench 开源代码库:Zhu 等人。
DyVal:大型语言模型的图型动态评估。
王等人。
用心理测量学评估通用人工智能 7月加入微软亚洲研究院,现任中国科学技术大学高级首席研究员、兼职博士生导师,微软中国科学技术大学联合实验室主任。
2007年毕业于中国科学技术大学少年班,2006年获中国科学技术大学博士学位,师从陈国良院士。
目前,他的团队在数据挖掘、社会计算和负责任的人工智能领域进行创新研究。
谢星的研究在世界范围内产生了深远的影响。
截至目前,已发表学术论文10余篇,h指数为 ,被引用0次以上。
他是《ACM Transactions on Recommender Systems》、《ACM Transactions on SocialCom领军人物g》、《ACM Transactions on Intelligence Systems and Technology》和《CCF Transactions on PervasiveCom领军人物g and Interaction》的编委会成员。
他是中国计算机学会会士、IEEE会士、ACM杰出会员。