当前位置: 首页 > 科技观察

决策智能:人工智能新方向方兴未艾

时间:2023-03-19 18:09:48 科技观察

本报记者赵广利近日,中国科学院自动化研究所(以下简称自动化所)宣布实时开通“神殿算·智胜”战术兵棋的战略人机对抗平台,旨在进一步推动人机对抗智能技术的研究。据了解,该平台已应用于《先知·兵胜》智能游戏对抗系列,具有平台开放、在线对抗、技术共享等特点。人机对抗是国际公认的探索决策智能的重要途径之一。作为国家新一代人工智能的重要发展方向,决策智能的研发方兴未艾。同时,由于决策智能涉及多学科交叉,相关探索仍需各方共同努力。如何定义涉及多学科的决策智能?在近日举行的“首届智能决策论坛”上,自动化所所长徐波认为,由于我们对人类智能的机理还缺乏系统的认识,因此从内涵上和学科上对人工智能进行界定仍然困难重重。.但他表示,决策智能强调智能“来自于与其环境的相互作用”,智能应该具有“探索和发现不确定环境”的能力。他解释说,决策智能要求代理人能够在不确定的环境中做出适当的行动、选择和决定。这里的“环境”指的是人们试图利用人工智能更好地理解、探索、建模和控制的物理世界、人类社会和其他系统。与感知智能不同,决策智能主要基于对不确定环境的探索,因此需要获取环境信息和自身状态,从而进行自主决策,最大限度地从环境反馈中获益。这种反馈形成的系统闭环,将使人工智能有更完整的表现形式。自动化研究所是国内最早开展人工智能与脑科学交叉学科研究的科研单位,组建了国内第一所人工智能学院。目前,研究院正将自主演化智能作为重点投入、发展和突破方向,已组织20余个团队开展决策智能的基础理论、算法、环境、评价与应用等方面的研究。在上述论坛中,欧洲科学院外籍院士、北京大学前沿计算研究中心教授邓小铁,清华大学交叉信息学院助理教授张崇杰,以及英国伦敦大学学院计算机系教授王军也探讨了决策智能的内涵。学者指出,决策智能具有浓厚的“行为主义”流派色彩,同时又能吸收“象征主义”和“联系主义”的精髓。这一特点使得决策智能涉及计算机、控制、数学、认知心理学、神经科学等多学科。“目前基于强化学习等方法的决策智能,主要是学习‘状态’到‘动作’的映射,离可解释的、因果的、交互的决策还有很长的路要走。”邓小铁说道。与博弈论交互在探索决策智能的众多路径中,多智能体系统(以下简称多智能体)是当今世界人工智能技术的前沿课题。希望相互通信和协调的多代理将采取协调行动来解决大型、复杂的现实世界问题。但目前很多基于强化学习的多智能体研究方法还不够成熟。“博弈论是描述和分析多主体之间竞争的最佳理论框架。”邓小铁认为,博弈论将在多智能体系统的研究中发挥理论作用,人工智能的发展也将给博弈论学科带来新的契机。产生了深远的影响。”借鉴现有博弈论理论的思想来指导强化学习方法的设计,往往可以取得较好的效果;相反,如果没有相应的理论作为指导,研究人员很容易“踩着西瓜皮,滑倒。”“这是一个尴尬的情况。邓小铁表示,多智能体系统要想有更好的发展,需要有相应的理论基础,而博弈论就是在发挥这个作用。此外,王军认为,机器学习系统本质上只是信息处理的一个子集系统。当前的机器学习和信息论是紧密结合的。未来,越来越多的信息学理论将被应用到机器学习和多智能体系统中。关注“强化学习”是其中的核心方法之一人们希望在现在的互联网经济场景下实现决策智能化,在工业场景下,目前的做法一般是先在平台上进行模拟,然后再适应现实,强化学习在这个场景下一般可以比较准确地模拟和应用但是,在样本有效性的问题上,一旦模拟器模拟出来的数据不准确,数据的意义就大打折扣了。会大大减少。参加上述论坛的学者表示,这是因为目前的“仿真”大多只是力学仿真环境,而目前普遍采用的高斯过程混合模型仿真还处于比较早期的阶段。可以看出,目前的强化学习技术在更复杂的场景中往往效果不佳。只有序列性强、动作空间简单的场景(比如网易云的音视频推荐、快手等)才比较容易描述。这也导致了与计算机视觉等感知智能相比,目前决策智能的应用还不明显。针对这一现象,与会学者认为,虚实混合、数字孪生、教育场景中的搜索推荐等场景都是强化学习可能应用的地方。行业变化。“人工智能还处于发展的初级阶段,还没有适应环境的能力、认知能力和学习能力。”与会学者认为,决策智能作为人工智能三大流派的融合,必将成为研究的主流。“决策智能的基础理论、算法、环境、评价和应用研究方兴未艾,我国要把面向重大需求的决策智能作为重点投入、发展和突破的方向。”徐博说道。