人工智能(AI)研究的目的是了解智能行为的基本原理,并将这些原理构建到可以表现出这种行为的机器中。在该领域的早期,提出了一些“智能”的区别定义,包括仿真人类行为和逻辑推理的能力;然而,在近几十年中,围绕理性代理人的思想得出了共识,该理性代理人感知和行动以最大程度地实现其目标。诸如机器人技术和自然语言理解之类的子领域可以理解为一般范式的特殊情况。AI已将概率理论纳入了处理不确定性,实用性理论以定义目标和统计学习,以允许机器适应新情况。这些发展与其他学科建立了牢固的联系,这些学科建立在类似概念的基础上,包括控制理论,经济学,运营研究和统计。
2013年2月6日,在Tate Modern的Turbine's Turbine Hall开放了回顾性目录12345678的演出期间,德国电子音乐先驱Kraftwerk的一部图像的细节于2013年2月6日。
AI的进展似乎正在加速。在过去的几年中,部分归因于机器学习的进展,诸如语音识别,对象识别,腿部运动和自主驾驶等任务得到了很大的解决。能力的每一个进步都带来了新的潜在市场和新的激励措施,以投资进一步的研究,从而导致良性周期推动了AI的前进。在接下来的十年中,我们可能会看到有效的语言理解方面的重大进展,从而导致能够摄入,综合和回答有关人类知识总和的问题。
尽管取得了所有进展,但我们仍然远离人类AI。例如,我们没有实用的方法来发明有用的新概念,例如“电子”或有用的新高级动作,例如“为明天的演讲写幻灯片”。后一种功能对于在现实世界中运行的系统尤为重要,在现实世界中,有意义的目标可能需要数十亿个原始的运动控制动作才能实现。如果没有能力和理由,就不可能进行新的高级行动,成功的计划和对这些时间表的行动是不可能的。毫无疑问,除非我们看到构建通用AI系统的最大努力,但我们将不知道如何描述如何描述如何进行突破。预测这种突破的困难意味着对人类级AI到达的日期进行任何确切的估计是愚蠢的。尽管如此,大多数专家认为它可能会在本世纪内到达(Müller和Bostrom,2016; Etzioni,2016)。
很难夸大此类事件的重要性。我们文明提供的一切都是我们情报的结果;因此,获得更大的智力将构成人类历史上的不连续性。它可能导致解决疾病,战争和贫困问题的解决方案。同时,几位观察家指出,超级智能AI系统本质上可以对全球范围产生影响 - 可能对系统的人类进行负面的影响。定义我们的AI系统要解决的问题,以便我们保证对解决方案感到满意;而且赌注几乎不会更高。
风险和反驳
对超级智能AI的担忧并不是什么新鲜事物。在1951年的广播讲话中,蒂丁本人认为有必要指出可能性:
如果一台机器能想到,它可能比我们更聪明地思考,然后我们应该在哪里?即使我们可以将机器处于屈服位置,例如,通过在战略时刻关闭力量,我们也应该以一种物种感到非常谦卑。…[T]他的新危险……当然是可以给我们焦虑的东西。
I. J. Good(1965年)在第二次世界大战期间与图灵合作,迈出了一步,指出了自我提高AI系统的可能性:“那么,毫无疑问,毫无疑问,人类的智慧将会出现'智力爆炸'被留在后面。”因此,AI控制问题是如何确保具有任意高度智力的系统严格在人类控制之下。
要谨慎地创造比我们自己更聪明的东西,这似乎是合理的。但是,如果我们要朝着正确的方向引导不懈的科学和经济压力来构建不可思议的系统,那么我们不仅需要一种不安的感觉。许多小说和电影都将这种不安转化为自发的邪恶机器意识的场景,这既可能消失了,并且作为避免的技术现象,无法解决。实际上,在我们完全理解问题的范围内,最有可能的难度来源似乎是价值一致性的失败 - 我们可能会无意中的机器与与我们自己的目标不完全一致的目标。诺伯特·维纳(Norbert Wiener,1960)这样说:“如果我们使用,实现我们的目的,我们无法有效地进行操作……我们最好非常确定,将其目的放入机器中是我们真正的目的欲望。”
不幸的是,AI或其他学科围绕目标的优化(经济学,统计,控制理论和运营研究)都没有太多要说的关于如何确定我们真正想要的目的的要说的。相反,他们假定目标只是植入机器。AI研究实现目标的能力,而不是这些目标的设计。正如米达斯国王发现的那样,得到一个人的要求并不总是一件好事。
Bostrom(2014)详细阐述了其他几个论点,表明该问题没有简单的解决方案。与本文分析最相关的是Omohundro(2008),他们观察到智能实体将倾向于采取行动来保护自己的存在。这种趋势与任何自我保护的本能或其他生物学观念无关。只是一个实体已经死了,实体将无法实现其目标。这意味着图灵(Turing)对上述开关的依赖是放错了位置的:根据Omohundro的论点,一台超级智能机器将采取措施以某种方式禁用偏离开关。因此,我们有超级智能机器的前景,他的行为(按照定义)是不可预测的,其不完美和不完全指定的目标可能与我们自己的目标发生冲突,并且他们的动机保留自己的存在以实现这些目标可能是不可能的。
AI社区中的研究人员主要提出了许多反对这些论点的反对意见。反对意见反映了自然的防御反应,也许对超级智能机器所能做的事情缺乏想象力。在仔细检查中似乎没有人能持有水。(如果某些反对意见似乎是荒谬的,请放心,已经省略了几个更荒谬的反对意见,以免发起人的尴尬。)Stone等人最近的AI100报告中出现了一些反对意见。(2016年),而其他人则是由参加人工智能会议的小组讨论的个人进行的:
人级AI是不可能的。这是AI研究人员提出的不寻常主张,鉴于从图林开始,AI研究人员一直在抵御哲学家和数学家的此类主张。没有任何论点或证据支持的索赔似乎承认,如果有可能的AI可能是可能的,那将是一个重大风险。好像是一名公共汽车司机,所有人类都是乘客,他说:“是的,我朝悬崖开车,但是请相信我,我们会在到达那里之前用完汽油!”该主张还代表了反对人类创造力的愚蠢赌注。我们之前已经下注了,并输了。1933年9月11日,著名的物理学家欧内斯特·卢瑟福(Ernest Rutherford)完全充满信心地说:“任何期望这些原子转型的权力来源的人都在谈论月光。”1933年9月12日,物理学家Leo Szilard发明了中子引起的核链反应。几年后,西尔拉德(Szilard)在实验室中表现出了这样的反应,他写道:“我们关闭了一切,回家了。那天晚上,我毫无疑问地,世界正在痛苦。”
现在为时过早。担心人类潜在严重问题的合适时机不取决于问题何时会发生,而是在设计和实施避免风险的解决方案需要多少时间。例如,如果我们要检测到2066年与地球碰撞的大型小行星,我们会说现在为时过早吗?而且,如果我们认为预计在本世纪晚些时候发生的气候变化带来的全球灾难性风险,那么采取行动来防止它们还为时过早吗?相反,可能为时已晚。人级AI的相关时间尺度是不可预测的,但这当然意味着,就像核裂变一样,可能会比预期的要早得多。
这就像担心火星上的人口过多。这是“太早担心”的有趣变化,它吸引了一个方便的类比:不仅风险很容易管理,而且将来很远,而且我们甚至不太可能尝试将数十亿人类转移到火星首先。但是,类比是一个错误的。我们已经专门致力于创建越来越多的能力的AI系统。一个更恰当的类比将是一个计划,将人类族人搬到火星,而无需考虑到我们到达后可能会呼吸,喝酒或进食。
人类级的AI实际上并不是迫在眉睫,因此我们不必担心。这是“太早担心”的另一种变化,但是将关注AI控制的问题归因于超级智能AI即将出现的错误信念。这种反对只是错误地说明了关注的原因,这些原因不是基于迫在眉睫的。例如,博斯特罗姆(Bostrom,2014)写道:“本书中的论点不是我们处于人工智能突破性的巨大突破的门槛,或者我们可以在发生这种发展时以任何精确性进行预测。”
我们是专家,我们建立AI系统,相信我们。这种反对通常伴随着那些提出关注的人对AI现实的不了解。确实,一些提出关注的公众人物,例如埃隆·马斯克(Elon Musk),斯蒂芬·霍金(Stephen Hawking)和比尔·盖茨(Bill Gates),不是AI研究人员,但他们几乎不熟悉科学和技术推理。而且很难说图灵(1951),维也纳(1960),古德(1965)和明斯基(Minsky)(1984)没有资格讨论AI。
您只是Luddites。马斯克,盖茨,霍金等人(包括作者显然)获得了信息技术创新基金会的2015年度年度奖。Luddite的一个奇怪的定义包括图灵,维纳,明斯基,马斯克和盖茨,他们是20世纪和二十一世纪技术进步的最杰出贡献者之一。此外,这个名称代表了对提出的关注的性质的完全误解和提出它们的目的。如果人们指出需要控制裂变反应的需要,就好像要指责核工程师。一些反对者还使用“抗AI”一词,这就像称核工程师为“反物理学”一样。理解和防止AI风险的目的是确保我们能够实现收益。例如,博斯特罗姆(Bostrom,2014)写道,成功控制AI的成功将导致“文明轨迹,导致对人类宇宙赋值的富有同情心和欢欣鼓舞。”
您的厄运预测未能考虑AI的潜在好处。如果AI没有潜在的好处,就不会有经济或社会动力来进行AI研究,因此没有实现人级AI的危险。这种反对就像指责核工程师致力于遏制永远不会考虑廉价电力的潜在益处。可悲的事实是,核能的潜在益处在很大程度上未能确切地实现,这是因为对三英里岛和切尔诺贝利的控制风险的关注不足。
您无法控制研究。目前,没有人争辩说AI研究被限制。仅仅注意预防设计较差的系统负面后果的问题。但是,如有必要,我们可以控制研究:我们不会在遗传上工程师人类,因为分子生物学社区在1975年在Asilomar的一个研讨会上决定,即使“改善人类股票”是一个长期存在的,这将是一个坏主意几十年来,生物学社区中许多研究人员的目标。
不要提及风险,这可能对资金不利。参见核电,烟草,全球变暖。
除了这些政策级别的异议外,还基于提出的简单解决方案来避免超智能AI的负面后果:
而不是将目标放入AI系统中,而是让它选择自己的目标。这远非清楚地解决问题。人工智能系统选择自己的目标的标准可以被视为元目标本身,我们再次面临确保它们导致与人类福祉一致的行为的问题。我们需要直接转动,而不是卸下方向盘。
更聪明的人类倾向于拥有更好,更无私的目标,因此超级智能机器也会。除了那些提出这一论点的人认为自己比平均水平更聪明的事实之外,这一论点的前提几乎没有宝贵的证据。前提没有为结论提供任何支持。
不用担心,我们只会拥有合作的人类团队。价值错位排除了团队合作,因此该解决方案只是提出了如何解决价值一致性问题的问题。
只是不要实现“人类”目标,例如自我保护。请参阅上面关于Omohundro论点的讨论。对于一个咖啡的机器人,死亡本身还不错。但是,应避免死亡,因为如果您死了,很难取咖啡。
不用担心,我们可以将其关闭。好像超级智能实体永远不会想到这一点。
解决方案
Bostrom(2014)考虑了解决AI控制问题的许多更严重的技术建议。在“ Oracle AI”的标题下,有些人将机器密封在一种防火墙内,从中提取了有用的提问工作,但从未允许它们影响现实世界。(当然,这意味着放弃超级智能机器人!)不幸的是,似乎不太可能起作用 - 我们尚未发明针对普通人类的防火墙,更不用说超级智能机器了。其他人则涉及对行为的可强制执行限制,但是设计这种限制就像试图编写无漏洞的税法(具有超级税收逃税者!)。
相反,我们可以正面处理Wiener的警告吗?我们可以设计其目的与我们的目的不冲突的AI系统,以便我们一定会对它们的行为方式感到满意?这远非容易,但是如果我们遵循三个核心原则:可能是可能的:
该机器的目的是最大化人类价值观的实现。特别是,它没有自己的目的,也没有天生的保护自己的愿望。
该机器最初对这些人类价值观是不确定的。事实证明这一点至关重要,从某种意义上说,它避开了维纳的问题。当然,机器可能会进一步了解人类价值观,但它可能永远无法确定。
机器可以通过观察我们人类做出的选择来了解人类价值。
事实证明,这三个原则曾经体现在一个形式的数学框架中,该框架定义了AI系统在宪法上需要解决问题,似乎可以在AI控制问题上取得一些进展。特别是,至少在简单的情况下,我们可以为代理设计定义模板,这些模板在某些合理(如果不是严格的)假设下被证明是有益的。
学习奖励功能
为了解释数学框架,这有助于对术语更加精确。根据冯·诺伊曼(Von Neumann)和摩根斯特(Morgenstern)(1944)的说法,任何理性的代理都可以描述为具有效用函数u(s),该功能分配了一个实际数字,代表在任何特定的世界状态s中的可取性。同等地,这是假设代理作用最佳的可能的未来状态序列的预期可取性。(在操作研究中,这通常称为价值函数,这个术语在经济学中具有独特的含义。)通常会做出固定偏好的进一步假设(Koopmans,1972),其后果是任何状态序列的可取性都可以以序列中与每个状态相关的即时奖励表示表示为(可能会随着时间的推移而打折)。为了方便起见,奖励功能r(s,a,s')被定义为与通过行动a从状态s到状态s的过渡相关的直接奖励。通常,奖励功能提供了定义任务的简洁方法。例如,可以通过指定所有非终端状态s'的奖励为零,而在–192和+192之间指定奖励为零来定义,以确定向终端状态的奖励(取决于确切的值,取决于确切值取决于状态将立方体加倍,无论比赛是正常结束的,gammon还是在反登山中)。另一方面,在大多数情况下,Backgmon State S的实用性将是S非常复杂的功能,因为它代表了对未来奖励序列的期望,相对于游戏其余部分发生的所有可能的骰子卷。对于一个享受他或她的花园的人来说,奖励可能会闻到玫瑰的味道(尽管不是连续100次闻到玫瑰),而对刺刺刺的否定是负面的, 而当时在花园里的效用取决于将来的所有奖励,这些奖励可能会大大不同,具体取决于是否要结婚,即将开始长期监禁,等等。
就可以通过指定奖励功能即可简单地定义目标的范围,可以通过推断奖励功能来简单地解释行为。这是逆增强学习基础的关键思想,即IRL(Russell,1998; Ng和Russell,2000年)。IRL算法通过观察某些其他被认为是按照此功能行动的代理人的行为来学习奖励功能。(IRL是偏好启发的顺序形式,与经济学中MDP的结构估计有关。)看着其主人在早上煮咖啡,家用机器人在某些情况下学习一些有关咖啡的可取性,而机器人的机器人则带有一个带有一个的机器人在任何情况下,英国老板都会学到一些有关茶的可取性。
解决简单的AI控制问题
可能会想象IRL为价值对准问题提供了一个简单的解决方案:机器人观察人类的行为,学习人类奖励功能,并根据该功能行为。这个简单的想法有两个缺陷。第一个缺陷是显而易见的:人类的行为(尤其是早晨)经常传达对咖啡的渴望,机器人可以学习这一点,但我们不希望机器人想要咖啡!这个缺陷很容易固定:我们需要制定价值对准问题,以便机器人始终具有优化人类奖励的固定目标(上面给出的第一个原则),并且在了解人类的内容时变得更好奖励功能是。
第二个缺陷不太明显,更容易修复。人类有兴趣确保值尽可能快,准确地发生价值对齐,以便机器人可以最大程度地有用并避免潜在的灾难性错误。然而,在离开机器人作为被动观察者的同时,在咖啡获取方面发挥最佳作用可能并不是实现价值一致性的最佳方法。相反,人可能应该解释咖啡准备的步骤,并向机器人展示保留备用咖啡供应的机器人,如果咖啡壶在供暖板上放置过长,该怎么办蓬松的蒸汽符号是为了在人类的指导下尝试在咖啡中尝试,即使第一个结果是不可避免的。这些东西都不适合标准IRL框架。
通过将IRL扩展到将人类和机器人纳入代理商中,可以将价值对准问题作为合作和交互式奖励最大化过程(Hadfield-Menell等,2017a)提出和解决价值对准问题。更确切地说,合作的逆增强学习(CIRL)问题是一个两者的部分信息游戏,其中人类知道奖励功能(2),而机器人则不知道。但是机器人的回报正是人类的实际奖励。(因此,cirl实例化了上面给出的所有三个原则。)该游戏的最佳解决方案最大程度地提高了人类的奖励,并且自然可以通过机器人进行人类和主动学习的积极指导。
在CIRL框架内,可以制定和解决离开关问题的问题,也就是说,可以防止机器人禁用自己的偏离开关的问题。(这样,图灵可能会更容易休息。)旨在解决cirl问题的机器人确保它想要最大化人类价值观,但同时肯定它不知道这些价值是什么。现在,机器人实际上受益于关闭,因为它知道人类会将其施加外开关,以防止机器人对人类价值观采取一些反感。因此,机器人有积极的动力来保存离职,这种激励直接源于其对人类价值的不确定性。此外,可以证明在某些情况下,机器人是有益的,也就是说,当可以使用cirl的机器人时,对人类的预期奖励更高,无论人类的实际奖励功能是什么(Hadfield-Menell等,2017b)。离转离心示例提出了一些可控剂设计的模板,并至少提供了一种可证明的有益系统的情况。总体方法与经济学中的机制设计问题有一定的相似之处,在这种方法中,人们试图激励其他代理商以证明对机制设计师的有益的方式行事。这里的关键区别在于,我们正在建立一个代理商以使另一个代理商受益。
离心示例的工作是第二个原则:机器人应该不确定真正的人类奖励功能。奇怪的是,尽管对领域知识和传感器解释的不确定性一直是二十多年的核心关注,但在AI中,关于奖励的不确定性几乎被完全忽略了。
原因之一可能是奖励功能的不确定性与标准顺序决策问题(MDP,POMDP,最佳控制问题)无关,因为不确定的奖励功能下的最佳策略与在确定的奖励功能下等于预期的奖励功能的最佳政策相同不确定奖励功能的价值。但是,当环境没有提供有关真实奖励函数的进一步信息时,这种等价性只能存在 - 在人类行动揭示有关人类偏好的信息的情况下,这并非如此。当环境可以提供有关奖励功能的其他信息时,具有奖励不确定性的代理可以表现出通过具有固定奖励功能的传统AI系统无法实现的行为。
Valor团队的成员在为美国弗吉尼亚理工大学的地面机器人工程和控制仪实验室(TREC)中准备DARPA机器人挑战赛时,对战术危险操作机器人(Thor)进行了测试。
熟悉强化学习概念(RL)的读者可能会指出,每个州行动状态过渡后,RL代理收到的“奖励信号”确实提供了有关真实奖励功能的信息,因为它给出了实际值R(S,A,S')用于观察到的过渡。因此,如果人类只是直接向机器人提供奖励信号,那么普通的RL是否可以成为价值对齐的基础?不幸的是不是!首先,即使对于特定的经验丰富的过渡,人类也可能无法准确量化真正的奖励。其次,RL的正式模型假设奖励信号从环境外部到达代理。但是人类和机器人是同一环境的一部分,机器人可以通过修改人类始终提供最大奖励信号来最大化其奖励。这种结果的不良性,称为线头(Muehlhauser和Hibbard,2014年),表明RL标准配方中存在基本缺陷。缺点是环境不能向代理提供实际的奖励;它只能提供有关奖励的信息。因此,向机器人发出“奖励信号”的人不是给予奖励,而是以选择数字的动作的形式提供证据(可能是嘈杂)。这种新的配方显然避免了线头问题,因为只有在修改信息源以掩盖基础信号时,机器人才会变得更糟。而且,如果该配方规定机器人必须最大限度地提高人类的原始奖励功能,然后修改人类,以便他或她具有更易于最大化的新奖励功能,这不会使机器人有任何好处。
实际考虑
我认为,合作逆增强学习的框架可能会提供朝着AI控制问题理论解决方案的初始步骤。也有一些原因认为该方法在实践中可能是可行的。首先,有大量有关人类做事(以及其他人类反应)的书面和拍摄的信息。在创建超智能AI系统之前,将很早就可以使用该仓库的人类价值模型的技术。其次,机器人有非常强大的近期经济激励措施来理解人类价值:如果一个设计良好的国内机器人为猫烹饪晚餐,而不是意识到其感性价值超过其营养价值,那么国内机器人行业就会超越商业。在个人数字助理的领域,似乎在十年结束之前就可能成为一个重要的市场,这对助手来说是显而易见的好处,该助手迅速适应了其所有者的复杂和细微的偏好。
但是,有一个明显的困难,基于从人类行为的学习价值的方法。人类是非理性的,不一致的,虚弱的,并且在计算上有限,因此他们的行为并不总是反映出他们的价值观。(例如,考虑两个人的下棋:通常,其中一个人输了,但不是故意的!)人类在价值观和环境中也有多样化,这意味着机器人必须对个人偏好敏感,并且必须在冲突的偏好中调解- 社会科学家和工程师的问题。有些人是邪恶的,因此机器人必须有一种方法来滤除与一般福利不相容的个人价值系统。
机器人似乎只能借助更好的人类认知模型从非理性的人类行为中学习。什么邪恶行为?是否有可能避免在我们准备允许的价值观上施加先发制人(并因此在文化上相对)的限制而损害我们的机器人?可能会使用康德的绝对命令的版本:奖励函数将他人的幸福感忽略不计或负值,就会缺乏自隔离,从某种意义上说,如果每个人都使用这样的奖励功能操作,那么没有人会获得很多奖励。
概括
我认为,跟随许多其他作者,找到解决AI控制问题的解决方案是一项重要的任务。用博斯特罗姆(Bostrom)的句话,“我们这个时代的基本任务。”我还认为,到目前为止,AI一直专注于更好地做出决策的系统。但这与做出更好的决定不同。无论算法多么出色,无论其世界模型多么准确,在普通人的眼中,机器的决策都可能是愚蠢的,如果其效用功能与人类价值观不符。
这个问题需要改变AI本身的定义,从与目标无关的纯粹智能的领域到与人类有益的系统有关的领域。(我想我们还可以提供为其他物种设计的AI系统,但这可能不是直接的问题。)认真对待这个问题似乎已经产生了新的思考AI,其目的及其与我们的关系的新方法。