一个能够在不同情况下记忆和推理信息的个人人工智能助手似乎总是“遥遥无期”,但直到鼠年结束,这样的人工智能助手才出现尚未实现。同样,虽然机器学习取得了长足的进步,但一旦离开“人”的辅助,自主系统仍然很难说“智能”——它无法在不同的学习中连接数据和整合模型,实现经验的跨领域迁移。如果说人工智能的目标是优化功能来解决领域问题,那么我们一直在一天天进步。许多曾经被认为异常困难的具体问题(参考文献[1][6][11]),通过优化解决——尤其是深度神经网络(DL)的反向传播——已经显示出立竿见影的效果,而且远远超出了人类的努力。计算机视觉、机器翻译、语音识别、棋牌游戏、电竞等诸多领域焕然一新——人工智能正在快速全面“驯化”。俗话说“风雨莫羡,人间危机四伏”,这种“驯化”的共同缺陷是:学习只发生在模型部署之前。但实际上,实时学习是动物获得生存优势的智能展示。相比之下,支持机器学习的骨干是一个狭义的学习概念。更深入地看,所有的离线优化问题本质上都是基于进化而不是个人智慧。例如,转基因萤火虫可以准确地检测并成功捕杀特定的猎物,前提是植入了某种遗传密码。在这种情况下,萤火虫无需实时学习即可获得技能。同样,只要预装导航、定位、物体检测(ObjectDetection)等预装功能的模块,或者离线优化参数,自动驾驶汽车应该能开能走。如今,主流人工智能尚未就如何从离线优化转向快速可靠的实时学习给出令人信服的答案。但这不仅是对智能本质的探究,也是人工智能的初衷。像野生动物一样,通用人工智能(AGI)能够在运行时应对不可预见的情况。快速可靠的适应性不仅可以推动新一代机器人和个人助理的实用化发展,更应该被视为智能理论的“核心谜题”。对“智能”二字的理解千差万别,每个人都有不同的看法。王佩为此专门写了篇《人工智能定义专论》,发表在《通用人工智能》(JGAI,2019年第10期)。这篇文章被认为是解决人工智能领域核心历史争议的最有力尝试之一。邀请的同行评议专家多达110人,他们来自DeepMind、GoogleBrain等多所名校和知名行业公司。文章针对智力的“非主流”定义,即“智力是主体在知识和资源不足时适应环境的能力”。尽管该定义在另一项针对567名AI专家的调查中获得了高票,但也存在对资源限制和实时适应需求的质疑。一些质疑源于人工系统与生物系统的区别,认为后者总是在知识和资源不足的情况下通过进化来适应,但部署的人工智能系统并不需要具备这种能力。许多对智能本质的误解源于对实时学习的忽视。例如,遗传算法(GA,参考文献[5])有时被用作强化学习的“替身”(RL,参考文献[12])。确实,根据前述,遗传算法之于强化学习,就像进化之于智能一样。但这种类比只有在学习发生在大量代际实例的模拟中时才成立。对于自主机器人或动物而言,情况并非如此,它们都可以在一生中以最快的速度适应未知环境。显然,一旦致命事件发生,个人学习就会戛然而止。这也是高度模拟领域(如参考文献[11])取得巨大成功却难以“实现”的主要原因。因此,与实时自适应系统相比,离线优化的这位“同学”还真是有点优等生。从机器学习的角度来看,存在三个重要的挑战:第一,如果智能体想要适应动态(非静止)环境,“易于使用”的决策理论必不可少。在动物中,这是通过进化实现的。但是对于一台机器来说,它不可能在一个人的一生中学会。因此,它虽然离不开先天的预设,但其行为却是先天与后天的结合。强化学习是一种非常成功的决策理论(RL,参考文献[12])。虽然在非平稳环境下使用有点尴尬(被试的适应性需求和学习率衰减是一对矛盾体),但至少可以用于实时学习。强化学习有一些主要的概念限制,基于行为主义的强化学习是最常见的。通过学习具有最高预期奖励的“状态行为”之间的响应映射(策略),而无需对情况中的其他因果关系进行建模,此类代理具有以奖励为中心的世界观。这意味着一旦效用函数发生变化,被试必须重新获取新的策略,现有的知识无法借助先天设计转移到新的任务中。对于有单一明确获胜标准的计算机游戏(例如赛车游戏中的单圈时间、国际象棋中的将死等),效用函数的变化不是问题。但是对于生物系统来说,这是每天的现实。动物在饥饿和口渴时的行为非常不同,它们在口渴时寻找猎物或美味的树叶和水。也就是说,个体行为不仅取决于外部因素,还取决于内部需求。当特定需求出现时,个人会寻求“因果知识”,这些知识会自动转移到下一次解决其他需求。这样可以及时响应不断变化的需求。然而,个人并不总是事先知道如何满足特定需求。为了解决这个问题,可以将特定的信念和动机系统解耦,让主体在不同的环境中学习不同的行为结果,建立不同的因果模型。这是那些抱有AI初衷的AGI研究人员所追求的道路,但在特殊用途AI(SAI)领域,却常常被忽视。二是测量。不用说,如果不衡量就无法知道自己是否取得了进步,但衡量的内容也很重要。我们测试主体在每个领域的表现,如果允许为不同的领域设置不同的超参数最重要的是超参数。深度学习“炼金术士”的一个重要操作就是超参数的调整),获得的将是不同学科的“特殊成就”。虽然在应用程序级别非常有用,但它对理解个人的普遍性却保持沉默。另一方面,如果不允许因领域不同而设置不同的超参数,那么得到的就是该科目“各科考试”的“总分”。目前,最好的通用系统仍然无法与专用系统(针对特定兴趣领域调整超参数)相提并论,但最好的专用系统在通用性方面的得分并不高。类似的情况在自然界比比皆是(如图1所示)。虽然在特定的静态环境中,往往首选特定的专用解决方案,但通用性更容易适应特殊的环境条件。图1:高度专业化的昆虫vs高度泛化的昆虫从上面的讨论可以看出,衡量AGI的成功与否需要改变现有的评估方法。AGI也不是AI的超集。一个专门的最优解,在某个特定领域显示出强大的威力,在其他领域可能毫无用处。在通往AGI的道路上,通常(如果不是总是)很少有专用功能的交叉点。写这篇文章是为了向读者指出通用人工智能发展面临的诸多挑战和误解。短期应用结果应该与长期蓝图相辅相成。我们需要深思熟虑,超前的系统研发,才能实时了解主体的感知,使其适应不断变化的环境。三是制度落实。知之不难,行之难。创建一个具有通用功能的系统并不容易,我们只是在漫漫长路上迈出了一小步。王培提出的非公理推理系统NARS(Non-AxiomaticReasoningSystem)[9]就是一个重要的例子。NARS项目已经存在30多年,在实时学习、推理和目标满足等关键领域取得了显著成果。系统可以通过自身的感知对环境进行建模,适应环境,通过推理决定下一步的行动,从而达到自己的目标。最近的一个研究亮点是将深度神经网络(YOLOv4,参考文献[1][6])的视觉感知与NARS(OpenNARSforApplications,参考文献[4][13])的实时学习和推理能力相结合,非常好地完成了机器人瓶子收集的任务(如视频所示)。机器人找瓶子,机器人抓瓶子,机器人举瓶子,机器人搬运瓶子图2:体现NARS实时推理和学习能力的瓶子收集任务注:虽然这个例子很小,意义重大。首先,再次证明同一个通用人工智能系统可以完成不同的特殊用途的任务,而无需重新开发或修改源代码重新编译;其次,它清楚地表明,通用人工智能系统的各种感觉和运动功能都可以在“大脑”的指挥下进行控制。它协调得当,但对计算能力的要求只是“弱”;最后,虽然单一的能力不是它的强项,但它在开放世界中拥有“发现”、“躲避”、“捕捉”和“饲养”的能力。就“强而全”的冠军而言,通用人工智能系统必定是最强大的竞争者,没有之一。视频演示:【收瓶任务】【拔草、抬举动作交替】,可前往“回园”观看。在这项任务中,机器人不仅需要协调视觉搜索和机械操纵等多种感觉运动功能,还需要学习探索如何避开障碍物。这让NARS的实时学习和实践推理相得益彰,两者的融合一目了然——可以充分体现实时学习的能力(常被视为强化学习的优势),无需失去目标规划和使用背景知识的认知灵活性。而且,通过集成最新的深度学习模型来处理其擅长的目标检测任务,可以结合机器学习的离线优化特性和AGI系统的实时学习和推理优势。这就是SAI和AGI系统的共生。我们的AGI解决方案有望大大提高智能系统的自主性,并用于:救援机器人探险机器人智能手机或基于PC的个人助理一切皆有可能。”总之,实时学习是AGI的关键方法。离线优化人工智能技术可以成为服务于AGI“大脑”的其他扩展“器官”,从而使多模态学习与跨领域迁移的结合成为现实,这样的系统具有真正的智能,能够快速适应不断变化的现实环境。最后,本文的主要观点总结如下:AGI和SAI的根本目标不同——通用VS专用AGI和SAI的评价方式完全不同实时适应性是智能化的必然要求NARS所基于的通用推理系统是实现真正智能的一种方法。
