几十年来,我们一直在努力按照自己的形象发展人工智能。与此同时,我们也一直致力于创造一种既像人一样聪明又像人一样笨的机器。但经过六十年的研究和开发,使人工智能系统在目标、意图和价值观方面与人类保持一致的目标仍然是一个难以实现的目标。人工智能几乎在每个主要领域都达到了与人类智能相近甚至更高的水平,但在最核心的领域却始终有所欠缺。正是这种缺失,阻碍了人工智能技术成为真正具备我们所期待的变化和行动逻辑的智能代理。在他的最新著作《机器学习与人类价值观之间的一致性问题》(对齐问题:机器学习和人类价值)中,程序员兼研究员BrianChristian讨论了我们如何确保AI模型捕捉“我们的规范和价值观,理解我们的意义或意图,并相应地做出优先级判断”是一个真正的挑战。近年来,随着机器学习应用范围的逐渐扩大,在现实世界中做出错误的决定很可能会造成灾难性的后果。正是这种背景使克里斯蒂安的问题变得更加紧迫。根据Christian的说法,“随着机器学习系统变得越来越普遍和强大,我们开始变得像‘新手巫师’——我们拥有一种自主的力量,我们似乎能够按照我们的命令指挥。这种力量,但如果指令如果不准确或不完整,可能会产生一些可怕的和意想不到的后果。”在书中,克里斯蒂安全面描述了人工智能的现状和整个发展过程,同时讨论了现有人工智能创造方法的各种不足。让我们来看看这本书的主要观点。机器学习:在人工智能研究中将输入映射到输出在最初的几十年中,符号系统在解决过去涉及逻辑推理的复杂问题方面取得了显着的成功。然而,此类系统难以解决人类儿童可以处理的小问题——例如检测物体、识别人脸、理解声音和语音。此外,此类系统的可扩展性比较差,往往需要大量的人工干预来建立明确的规则和知识定义。近来,世界对机器学习和深度学习的关注开始迅速增加,同时也在推动计算机视觉、语音识别和自然语言处理(传统符号AI无法处理的领域)的快速发展。机器学习算法可以随着数据量和计算资源量同步扩展,从而带来人工智能黄金十年。但问题是,虽然机器学习算法的效果相当突出,但本质还是很简单——通过复杂的数学函数和结果映射观察结果。因此,机器学习的好坏将直接取决于数据的质量,在实际应用中遇到与训练数据不匹配的真实材料时,性能会严重下降。在书中,克里斯蒂安列举了一系列例子来说明机器学习算法的各种尴尬甚至有害的损害。举个例子,谷歌照片分类算法将深色皮肤的人标记为大猩猩。问题不在于算法本身,而在于使用的训练数据。如果Google可以在数据集中包含更多深色皮肤的材料,则可以完全避免这个问题。“当然,从理论上讲,这样的系统可以从一组示例中学习任何东西,”克里斯蒂安写道。“但这也意味着人工智能系统的理解方式完全由示例驱动。”更糟糕的是,机器学习模型无法分辨是非,也无法做出道德决定。机器学习模型训练数据的任何问题通常以微妙的方式反映在模型的行为中,如果不是不明显的话。例如,亚马逊在2018年关闭了一种用于做出招聘决定的机器学习工具,因为其结果明显歧视女性。显然,人工智能的创造者并不想根据性别来选择候选人,但由于模型训练使用的数据来自亚马逊的过往记录,因此反映了其在用人方面的一些倾向性。而这只是机器学习模型偏差问题的冰山一角。正是因为这些问题,因为机器学习模型盲目地根据我们过去的行为总结经验,我们不能完全信任这些工具。Christian写道,“对现实世界建模相对简单,但模型在投入使用后总会发生变化,甚至会反过来改变世界。目前大多数机器学习模型的设计都基于一个广泛的假设,即模型本身,它并不会改变它所建模的现实。但这样的假设几乎是完全站不住脚的。事实上,仓促部署此类模型很可能会形成一个反馈循环,使我们越来越难以让它回到正轨。“人类情报应该在收集数据、寻找模式以及将模式转化为行动方面发挥更大的作用。机器学习的现实挑战已经证明,我们对数据甚至机器学习的许多假设都是完全错误的。Christian警告说,“我们需要批判性地思考......除了关注训练数据的来源,我们还应该关注系统中标签的来源作为groundtruth。人们认为的是groundtruth通常不是基本事实。”强化学习:奖励最大化强化学习也帮助研究人员取得了非凡的成就,使人工智能能够在复杂的视频游戏中击败人类冠军。人工智能技术的另一个分支——强化学习,在过去十年中也获得了关注。它引起了广泛关注.强化学习需要模型提供一个问题空间加上奖励函数规则,然后模型独立探索整个空间以找到最大化奖励的方法。Christian写道,“强化学习……帮助我们一步步探索这就是普遍的,甚至是智力最基本的定义。如果JohnMcCarthy的“智能是实现真实目标的能力的计算部分”的说法是正确的,那么强化学习提供了一个令人惊讶的通用工具箱。其核心机制是通过一次又一次的试错,探索出新时代所有人工智能解决方案的共同基础。“强化学习确实在雅达利游戏、围棋、《星际争霸2》、DOTA2等游戏中表现不俗,并在机器人领域得到广泛应用。但在成功的背后,人们也开始意识到单纯追求外部奖励是并没有完全体现智能化的运行模式,一方面强化学习模型需要很长的训练周期才能获得简单的判断能力,因此这方面的研究成为了极少数手握无限资源的科技巨头的专利。,强化学习系统的适用性也非常有限——一个系统能够在《星际争霸2》击败人类世界冠军,但无法击败其他类似游戏。强化学习代理也更倾向于经历无限循环,追求最简单的奖励最大化路径。以赛车游戏AI为例,它经常陷入不断收集奖励物品的死循环,但总是无法赢得整个游戏。Christian认为,“消除这种与外部奖励的刚性联系可能是构建通用AI的唯一方法。因为与Atari游戏不同,现实生活不会为我们的每个人预先编程清晰的实时反馈。行为。当然,我们有父母和老师可以及时纠正我们的拼写、发音和行为模式。但是,这些并不是生活的全部,我们的生活不能完全被权威控制。我们需要根据自己的判断来做出判断自己的观点和立场,这是人类生存和发展的根本前提。”克里斯蒂安还建议,我们不妨基于强化学习的原则反其道而行之,“考虑如何结合预期的行为,引导模型一步步把握行为模式。这就像面对美食评论家做一道菜,思考如何得到对方的肯定.“AI有必要模仿人类吗?在书中,Christian还讨论了开发AIagent的意义——这些agent模仿人类行为真的有意义吗?自动驾驶汽车就是一个典型的例子,agent会学习通过观察人类司机。如何驾驶车辆。模仿确实可以创造奇迹,特别擅长处理规则和标签不明确的问题。但是,模仿也会继承人类智能的不足。人类往往通过模仿学习很多知识和死记硬背,但模仿只是我们发展智能行为的众多机制之一。当我们观察他人的行为时,我们会调整我们的处理过程以适应我们自己的约束、意图、目标、需要和价值观。克里斯蒂安写道,“如果被模仿的对象比我们更快、更强壮、更高,那么我们就无法完美地模仿他们。这时候,一味地坚持模仿只会影响我们解决问题的能力有问题。“的确,人工智能系统确实试图通过观察和预测我们的行为来模仿来提供帮助。但很明显,人工智能系统不像人类那样受到各种约束和限制,因此会导致它们误解我们的意图,甚至放大我们的意图。我们的一些坏习惯最终会渗透到我们生活的方方面面。克里斯蒂安写道,“我们的数字管家正在密切关注我们的私人和公共生活,检查我们的好坏,然而,目前尚不清楚这些是如何因素不同以及它们之间的关系。人工智能系统似乎生活在一个奇怪而复杂的山谷中:能够从我们的行为中推断出人类欲望的复杂模型,但无法理解这些欲望从何而来。他们试图弄清楚该怎么做接下来,但他们不了解我们想要什么以及如何成长为我们自己。“未来在哪里?机器学习的进步表明我们在创造思维机器方面取得了一些成就。然而,机器学习带来的挑战和影响也再次提醒我们,我们应该正视理解人类智能的前提。AI科学家和研究人员正在探索克服这些障碍的不同方法,并创建只造福人类而不伤害人类的AI系统。在实现这一目标之前,我们需要注意不要过分强调此类系统。权限。Christian最后警告说:“目前最危险的事情是在机器学习领域找到一个合理的模型并急于宣布研究成功——这可能会给整个社会带来灾难性的后果。“
