当前位置: 首页 > 科技观察

DeepMind最新研究:AI打败人类,设计更好的经济机制|自然子刊

时间:2023-03-12 20:01:36 科技观察

人工智能(AI),能否推动人类社会进入真正的智能时代?尽管经过60多年的发展,人工智能产业取得了突破,广泛应用于经济社会的方方面面,但构建与人类价值观相一致的人工智能系统仍然是一个悬而未决的问题。现在,英国人工智能公司DeepMind的一项新研究,或许可以为人工智能行业的从业者解决这一问题提供一种新的思路。据介绍,DeepMind的人工智能系统不仅通过向4000多人学习和计算机模拟,在4人在线经济游戏中学会制定如何重新分配公共资金的政策,而且表现非常出色,击败了其他人类玩家.该游戏涉及玩家决定是保留金钱捐赠,还是为了集体利益与他人分享。7月5日,权威科学期刊《自然人类行为》在线发表了题为《Human-centredmechanismdesignwithDemocraticAI》的相关研究论文。来源:NatureHumanBehavior英国约克大学助理教授AnnetteZimmermann警告说,不要“将民主狭隘地等同于寻找最受欢迎政策的‘偏好满足’系统”。她还说,民主不仅仅是让你最喜欢的政策得到最好的执行——它是关于创造一个过程,在这个过程中,公民可以相互接触并平等地商议(事情)。AI研究的最终目标是构建造福人类的技术——从帮助我们执行日常任务到解决社会面临的重大生存挑战。如今,机器学习系统已经在解决生物医学领域的重大问题,并帮助人类应对环境挑战。然而,人工智能在帮助人类设计公平繁荣的社会方面的应用仍有待探索。在经济学和博弈论中,被称为机制设计的领域研究如何最佳地控制有动机的参与者之间的财富、信息或权力的流动,以实现预期目标。在这项工作中,研究团队试图证明深度强化学习(RL)代理可用于设计一种经济机制,以捕捉有动机的人群的偏好。在这个游戏中,玩家从不同数量的钱开始,必须决定贡献多少以帮助更好地建立一个共同的资金池,并最终获得一部分回报,并反复决定是保留还是分享这笔钱与其他参与者分享潜在的集体利益。研究团队训练了一个深度强化学习代理来设计一种再分配机制,在平等和不平等财富的情况下与玩家分享资金。共享收益通过两种不同的再分配机制返还给玩家,一种由AI系统设计,另一种由人类设计。图|游戏设计(来源:NatureHumanBehaviour)在人工智能制定的政策中,系统会根据每个玩家投入的启动资金的多少,重新分配公共资金,从而缩小玩家之间的贫富差距。与“平均主义”方法(无论每个玩家贡献多少,均分资金)和“自由主义”方法(根据每个玩家对公共资金的贡献分配资金)相比,该政策赢得了人类玩家的青睐。更多选票。同时,该政策纠正了初始财富失衡,制止了玩家的“搭便车”行为,除非玩家贡献其启动资金的一半左右,否则他们几乎得不到任何回报。然而,研究团队警告说,他们的发现并不代表“人工智能政府”的秘诀,也不打算为决策构建人工智能驱动的工具。它值得信赖吗?研究结果表明,通过在人类显然更喜欢的激励相容的经济博弈中设计一种机制,可以训练人工智能系统来满足民主目标。在这项工作中,研究团队使用人工智能技术从头开始学习重新分配方案,这种方法可以减轻AI研究人员(他们本身可能有偏见或不能代表更广泛的人群)选择特定领域的目标来执行。优化负担。这项研究工作也提出了几个问题,其中一些在理论上具有挑战性。例如,有人可能会问,强调民主目标作为一种价值调整方法是否是个好主意。这个人工智能系统可能继承了其他民主方法“以牺牲少数人为代价赋予多数人权力”的倾向。鉴于人们迫切担心AI的部署方式可能会加剧社会中现有的偏见、歧视或不平等,这一点尤为重要。资料来源:Pixabay另一个悬而未决的问题是人们是否会相信人工智能系统设计的机制。如果事先知道裁判的身份,玩家可能更喜欢人类裁判而不是AI代理裁判。然而,当人们认为任务对人类来说太复杂时,他们也倾向于选择信任人工智能系统。此外,如果向玩家口头解释机制而不是通过经验学习,玩家的反应会有所不同吗?大量文献表明,当机制是“通过描述”而不是“通过经验”时,人们有时会有不同的行为,尤其是对于冒险的选择。然而,AI设计的机制可能并不总是可以用语言表达,而且在这种情况下观察到的行为似乎可能完全取决于研究团队采用的描述选择。在论文的最后,研究团队还强调了这些发现,并表示他们支持某种形式的“人工智能治理”,在这种治理中,自主代理人可以在没有人为干预的情况下做出决策。他们希望该方法的进一步发展将提供能够以真正类似于人类的方式帮助解决现实世界问题的工具。