当前位置: 首页 > 科技赋能

需要学习 80 亿个偏好模型才能了解地球上每个人的偏好

时间:2024-05-20 00:25:31 科技赋能

《AI 新生》斯图尔特·罗素中信出版集团。

10 如果世界上有一个完全理性的人哈里特和一个乐于助人、受人尊敬的机器人罗比,我们将保持良好的状态。

罗比会尽可能安静地了解哈里特的喜好,成为哈里特的完美助手。

我们或许希望从这个充满希望的开端进行推断,也许将哈里特和罗比之间的关系视为人类与机器之间关系的典范,对人类和机器进行整体解释。

然而,人类并不是单一的、理性的实体,而是由无数的、令人讨厌的、嫉妒驱动的、非理性的、不一致的、不稳定的、计算有限的、复杂的、不断发展的实体组成的。

由进化的异质实体组成。

这些问题是社会科学的主要内容,甚至可能是社会科学存在的理由。

在人工智能方面,我们需要加入心理学、经济学、政治理论、道德哲学的思想。

我们需要将这些想法融化、塑造和锤炼成一个足够坚固的结构,以承受日益智能的人工智能系统对其施加的巨大压力。

这项工作现在才刚刚开始。

人有千千万万张面孔,但机器呢?我将从也许是最简单的问题开始——人类是多样化的。

当人们第一次接触到机器应该学会满足人类偏好的想法时,人们通常会反对。

反对意见是,不同的文化,甚至不同的个人,有着完全不同的价值体系,所以机器不可能有正确的价值体系。

当然,这对于机器来说不是问题:我们不希望它有自己正确的价值体系,我们只是希望它能够预测其他人的偏好。

对于机器迎合不同人类偏好的难度的困惑可能来自于错误地认为机器会采用它所学到的偏好,例如认为素食家庭中的家用机器人会采用素食偏好。

事实上,机器人不会这样做。

它只需要学会预测素食者的饮食偏好。

除了帮助人类实现自己的偏好之外,机器人没有自己的偏好。

从某种意义上说,这与餐馆厨师学习烹饪几种不同的菜肴以满足客人的不同口味,或者跨国汽车公司为美国市场生产左驾汽车、为美国市场生产右驾汽车没有什么不同。

英国市场。

原则上,机器可以学习 80 亿个偏好模型,即地球上每个人的偏好。

事实上,事情并不像听起来那么绝望。

首先,机器可以轻松地相互分享它们学到的知识。

其次,人类的偏好结构有很多共同点,因此机器通常不会从头开始学习每个模型。

机器权衡和决策多人存在的另一个明显后果是机器需要在不同人的偏好之间进行权衡。

几个世纪以来,人与人之间的权衡问题一直是社会科学的主要焦点。

如果人工智能研究人员期望在不知道已知情况的情况下找到正确的解决方案,那就太天真了。

关于这个主题的文献非常多,我不可能在这里一一列举,不仅因为篇幅限制,而且因为我读的不多。

我还应该指出,几乎所有文献都涉及人类决策,而我这里的重点是机器决策。

两者是不同的,因为人类拥有可能与对他人的任何假定义务相冲突的个人权利,而机器则不然。

例如,我们不会期望或要求一个真正的人类牺牲自己的生命来拯救另一个人的生命,而我们肯定会要求一个机器人牺牲自己的存在来拯救一个人的生命。

哲学家、经济学家、法学家和政治学家数千年来一直致力于制定宪法、经济制度和社会规范等法律,以帮助(或阻碍,取决于谁负责)实现令人满意的妥协。

解决方案。

特别是,道德哲学家一直在根据行为对他人的有益或有害影响来分析行为正当性的概念。

自 18 世纪以来,他们一直在功利主义的标题下研究权衡的定量模型。

这项工作与我们当前的担忧直接相关,因为它试图定义一个公式,根据该公式,人工智能可以代表许多个人做出道德决策。

即使每个人都有相同的偏好结构,我们仍然需要做出权衡,因为往往不可能最大限度地满足每个人的偏好。

例如,如果每个人都想成为宇宙的全能统治者,大多数人都会失望。

此外,巴菲属性确实使一些问题变得更加困难:如果每个人都对天空是蓝色的感到满意,那么处理大气问题的机器人就可以努力保持这种状态;如果很多人主张改变天空的颜色,那么机器人就需要考虑可能的妥协方案,例如在每个月的第三个星期五将天空变成橙色。

世界上不止一个人这一事实还有另一个重要的后果:这意味着每个人都有其他人需要关心。

这意味着满足一个人的偏好会对他人产生影响,具体取决于个人对其他人福祉的偏好。

什么是“忠诚”的人工智能?让我们从一个非常简单的建议开始,关于机器应该如何处理多人的存在:机器应该忽略有多人在场的事实。

也就是说,如果哈里特拥有机器人罗比,那么机器人罗比应该只关注哈里特的喜好。

这种忠诚的人工智能绕过了权衡问题,但却导致了这样的问题:机器人罗比:你丈夫打电话提醒你今晚吃饭。

哈里特:等等!什么?什么晚餐?机器人罗比:庆祝你的 20 周年纪念日,七点。

哈里特:我没有时间!我7点30分会见秘书长!进展如何?机器人罗比:我确实警告过你,但你没有听我的建议……哈里特:好吧,对不起……但我现在该怎么办?我不能跟秘书长说我太忙了!机器人罗比:别担心。

我会安排她的航班延误并出现一些电脑故障。

哈里特:真的吗?你还能做什么? !机器人罗比:秘书长向您深表歉意,并很高兴明天与您共进午餐。

在这里,机器人罗比找到了解决哈里特问题的巧妙方法,但它的行为却对其他人产生了负面影响。

如果哈里特是一个有道德、无私的人,那么罗比这个为了满足哈里特的喜好而设计的机器人,就绝不会想到执行如此可疑的计划。

但如果哈里特不关心别人的喜好呢?这样,机器人罗比就不会介意飞机延误。

它会花时间从网上银行账户窃取资金来填满冷漠的哈里特的钱包,还是更糟?显然,忠诚机器的行为需要受到规则和禁令的约束,就像人类的行为受到法律和社会规范的约束一样。

一些人提出了严格责任原则作为解决方案:哈里特(或机器人罗比的制造者,取决于你想追究谁的责任)对机器人罗比所做的一切承担经济和法律责任,就像美国大多数州一样,如果狗在公园咬伤儿童,狗的主人要承担责任。

这个想法听起来很有希望,因为罗比有动力避免做任何会给哈里特带来麻烦的事情。

不幸的是,严格责任原则不起作用:它只是确保机器人罗比为了哈里特的利益而延误飞机和偷钱时的行为不会被发现。

这是脆弱性原理在实践中的又一个例子。

如果机器人罗比忠于不择手段的哈里特,用规则约束他的行为的尝试可能会失败。

即使我们能够以某种方式防止公然犯罪,为冷漠的哈里特工作的忠诚机器人罗比也会表现出其他令人讨厌的行为。

如果它在超市买东西,如果可能的话,它会在收银台排队。

如果它在买完东西回家的路上遇到心脏病发作的路人,它会选择不理睬继续回家,只是为了不让哈里特的冰淇淋融化。

简而言之,它会找到无数种损人利己的方法,这些方法完全合法,但大规模实施时就变得难以容忍。

各国将发现自己每天都会通过数百项新法律,以弥补机器在现有法律中发现的所有漏洞。

人类往往不会利用这些漏洞,要么是因为他们对基本的道德原则有一般性的理解,要么是因为他们缺乏发现这些漏洞所需的创造力。

因此,构建忠诚AI的想法很难成立,除非将想法延伸到除了主人的偏好之外还考虑其他人的偏好。

功利主义人工智能 我们之所以有道德哲学,是因为地球上生活着不止一个人。

与理解人工智能系统应如??何设计最相关的方法通常被称为结果主义,即应根据预期后果来判断选择。

另外两种主要方法是义务论伦理学和美德伦理学,粗略地说,它们分别关注个人的行为和道德品质,而不考虑选择的后果。

没有证据表明机器具有自我意识,所以我认为如果结果非常不人道,那么构建有道德的机器或选择按照道德原则行事的机器就没有意义。

换句话说,我们建造机器是为了提供结果,而且我们应该更喜欢建造能够提供我们喜欢的结果的机器。

这并不是说道德原则和美德无关紧要,只是对于功利主义者来说,他们根据结果以及这些结果的更实际成就来判断合法性。

尽管很多人试图反驳结果主义,但结果主义是一个很难反驳的原则。

因为以结果会产生不良后果为由来反对结果主义是不合逻辑的。

人们不能说:“但是如果你在这样那样的情况下遵循结果主义的方法,那么这件非常可怕的事情就会发生。

”任何此类失败都只是该理论被滥用的证据。

如果我们计划建造结果主义机器,下一个问题是如何评估影响多人的结果。

一个看似合理的答案是对每个人的偏好给予同等的重视,即最大化每个人的总效用。

这个答案通常可以追溯到 18 世纪英国哲学家杰里米·边沁 (Jeremy Bentham) 和他的学生约翰·米尔 (John Mill),他们发展了功利主义哲学方法。

其根本思想源于古希腊哲学家伊壁鸠鲁的著作,这一思想在中国哲学家墨子《墨子》的著作中也清晰可见。

活跃于公元前4世纪的墨子提出了“兼爱”思想,意为“包容关怀”或“兼爱”,以此来定义道德行为的特征。

功利主义的名声有些不好,部分原因是对其主张的简单误解。

(功利主义这个词的意思是“为实用而设计,而不是为吸引力而设计”,这当然没有帮助。

)功利主义常常被认为与个人权利不相容,因为功利主义者会切除一个活人的器官来拯救另外五个人的生命人们是冷漠的。

当然,这样的政策会让地球上每个人的生活都变得难以忍受的不安全,而功利主义者甚至不会考虑这一点。

功利主义也被错误地认为是一种相当不讨人喜欢的财富最大化行为,并且不重视诗歌或苦难。

事实上,边沁的版本特别关注人类的幸福,而密尔则自信地宣称,智力上的幸福比单纯的感觉更有价值。

(“做一个不满足的人,比做一只满足的猪要好。

”)G.E.摩尔的理想功利主义更进一步:他主张最大化内在价值的心理状态,这集中体现在对美的审美欣赏上。

我认为功利主义哲学家没有必要规定人类效用或人类偏好的理想内容。

(人工智能研究人员这样做的理由更少。

)人类可以自己做到这一点。

经济学家约翰·哈肖尼(John Harshony)用他的偏好自主原则指出了这一点:“一个人决定什么是好是坏的最终标准只能是他自己的欲望和偏好。

”因此,Harshony 的偏好功利主义与我在《AI 新生》中提出的“有益人工智能”的第一个原则大致一致,即机器的唯一目的是实现人类的偏好(该原则主要用于指导人工智能研究者和开发人员如何创建有益的人工智能系统)。

人工智能研究人员永远不应该从事确定人类偏好的工作!和边沁一样,哈肖尼将这些原则视为公共决策的指南,他并不期望个人完全无私。

他也不期望个人是完全理性的。

例如,一个人的短期愿望可能与他或她的“更深层次的偏好”相冲突。