当前位置: 首页 > 科技观察

【人工智能】人机对抗智能技术综述

时间:2023-03-16 23:06:05 科技观察

1引言人工智能从诞生之日起(著名的图灵测试),就一直在与人类智能进行比较。人机对抗技术作为人工智能研究的前沿方向,一直是国内外人工智能研究的热点。以人机对抗形式进行的人工智能研究,为探索机器智能的内在成长机制和关键技术原理提供了极好的契机。测试环境和验证方法。整个过程不仅可以让机器更加智能地为人类服务,将人类从一些繁杂的工作中解放出来,而且人类可以从机器智能的发展过程中学习,提高自身的智能水平,更加深刻地理解和掌握智能化的内在本质和机理,进而推动整个社会从信息化向智能化发展。2发展历史自人工智能之父艾伦·图灵于1936年提出著名的“图灵测试”以来,人与机器的智能对抗就成为衡量机器智能发展水平的最重要标准。从最初的简单智能的实现到不断演化为更复杂的智能,交锋贯穿了人工智能中的计算、感知和认知三个阶段(图1)。从某种意义上说,它就像人类和自然环境。机器与人类的对抗促进了人类的进化,机器与人类的对抗也将导致机器智能的不断发展和进化。图1人机对弈的发展历程3内涵与机制尽管人机对抗智能技术受到了极大的关注,并在不同的应用领域展现出应用前景,但其理论和相关技术尚未得到系统的阐述。本文将从内涵和机理上进行阐述,并在此基础上介绍相关模型和关键技术。3.1人机对抗的内涵人机对抗是以机器与人的对抗和博弈学习为核心技术,实现机器智能快速学习和进化的研究方向。作为“图灵测试”的重要手段,人机对抗是验证机器智能的“试金石”。为探索机器智能内部生长机制和关键技术验证提供了有效的测试环境和评价标准,具有重要的科研意义和应用价值。价值。3.2人机对抗机制人机对抗机制研究对抗的要素及其相互关系,以及相互作用的运行规律和原则。和条件等),根据人-机-物的三要素分析法,三要素相互作用,分别形成一要素博弈、二要素博弈和三要素博弈。人机对抗智能的科学问题可以概括为博弈学习的建模性、可计算性和可解释性。4人机对抗模型及其关键技术不同于感知智能。人机对抗通常侧重于更复杂的时序决策等认知智能,其过程建模是一个高度复杂的问题。因此,认知决策建模是整个人机对抗中的核心关键环节。本文将强对抗环境下人机对抗的决策过程概括为感知、推理、决策和控制,将人机对抗的关键技术概括为对抗空间表示和建模。、态势评估与推理、策略生成与优化、行动协调与控制等4个部分;通过对抗态势解读和理解、认知预测、战略决策和行动执行,局部整体不断迭代增强,自主提升对抗能力。人机对抗涉及的关键技术如图2所示。图2人机博弈的过程建模与关键技术4.1对抗空间的表示与建模构建有效的知识表示模型,准确描述决策的组成对抗空间中的元素、属性特征以及元素之间的相互作用,是实现人机博弈对抗基础的关键。巨复杂、高动态、高对抗环境具有海量、高维决策要素、要素影响高度耦合、关键决策信息不完备等特点,使得对抗空间的量化表征极具挑战性。该领域可开展的研究包括:(1)对抗空间元素的实体关系表示,研究对抗空间中的各种实体、??实体属性及其相互关系,构建决策元素表示模型;(2)对比空间特征张量化表示学习,分析实体属性关系耦合和结构拓扑对个体和群体对抗能力的影响,构建对抗空间的可解释高维张量描述;(3)层次聚合算法规则建模,融合经验表示和数值计算,定义多因素、层次对抗态势和对抗能力聚合演算规则,形成环境-我方-对手多重耦合的可计算表示体系;(4)基于异构信息网络的抽象通用空间表示,基于能力演算规则,研究对抗要素的抽象态势表示,缓解对抗场景依赖带来的噪声和数据稀疏效应。4.2对抗态势评价与推理对抗态势是指对立双方通过实力对比、部署和行动所形成的状态和趋势。对态势的评估和推理为后续对抗策略的生成和优化提供了依据。我们面临的挑战是:(1)用于训练态势感知和预测模型的高水平对抗数据往往非常有限;(2)对手的信息往往杂乱不全,仅根据对手的部分信息进行全局评估的准确性较差;(3)复杂的对抗环境导致可用于态势评估的信息量大,难以有效整合形成多角度、层次化的态势。可能的研究包括:(1)生成高质量的对抗数据,通过自主博弈或生成对抗网络生成高质量的人机对抗数据,用于人机对抗的建模和分析;(2)小样本学习,研究在数据较少的情况下,通过迁移或自适应的方法对对抗态势的直接评估;(3)对手信息估计,研究历史信息与当前对抗环境的结合,实现对手的行动估计、意图识别和自下而上的识别策略估计;(4)情境层次认知,研究结合多源异构信息对情境进行多角度的层次评价和推理。4.3对抗策略的生成与优化对抗策略主要涉及多智能体协调的任务规划,解决群体和单体行动规划问题。技术挑战在于:(1)不完全信息导致对手的位置、行为、意图无法被完全知晓,对手行为概率模型未知导致策略选择保守,需要在不完全信息下进行博弈策略选择;(2)宏观决策收益反馈滞后,使得宏观决策的效果需要较长时间才能体现,决策行为与收益之间难以形成有效映射;(3)行动能力与环境深度耦合,忽视局部环境因素可能导致策略分析严重偏差,过多的细节分析难以缩小对抗空间。针对策略生成和优化的挑战,以星际争霸等策略游戏为平台进行研究是国际公认的方法。可能的研究包括:(1)宏观策略生成,针对面向任务的全局博弈对抗问题,构建层次化的任务分解和任务协调机制,实现复杂群体博弈对抗问题向低维空间的降维;(2)微观策略生成,针对局部博弈对抗问题,构建微群局部策略自适应机制,实现微群强大的博弈对抗能力和环境迁移能力;(3)策略优化方法,针对策略能力需要自主提升的问题,构建博弈策略评价机制和学习策略进化机制,实现博弈策略的自主进化和能力提升。4.4对抗动作协调和控制策略的执行需要多个智能体的动作协调。各智能体在自身信息获取和初步认知的基础上,使用资源贡献、信息连接、元素融合、虚拟协作、智能辅助等功能。、多单元虚拟协同,形成一体化的群体行动协调控制。多智能体协作的难点包括:多智能体学习目标、个体奖励与团队奖励的关系、每个智能体在学习过程中的作用和影响、联合状态和联合动作的获取、扩展状态空间和动作空间引起的维度灾难等问题。目前,相关研究工作主要集中在多智能体协作和学习上。可能的研究包括:(1)从协同过程的角度来看,可分为顺序策略表示、协同机制优化、异构多智能体协同、多协同融合;(2)从协同任务的类型来看,可以分为同一任务的智能协同。、不同任务资源协调等;(3)理论上突破去中心化、通信中断的默契协作方式,任务涵盖系列化任务、多层次任务、多领域任务等,实现场景类型全覆盖,协作方式多样,提供高-用于培训的质量协同策略。5应用与挑战人机对抗智能技术的应用领域涉及棋牌游戏、即时战略游戏、战棋推演等,在很多领域,机器智能已经达到并超越了该领域的人类顶尖选手,不断刷新的游戏对抗记录,展现了新一轮人工智能技术在认知决策方面的鲜明特征。5.1棋牌策略游戏vs棋牌策略游戏一直被作为检验计算机智能发展水平的参考标准。这些游戏因其简单的规则和丰富的游戏玩法而受到全世界粉丝的喜爱。也由于其规则的确定性,加上博弈环境可控、信息不完备等特点,引起了人工智能领域的不断研究。DeepMind提出的AlphaGo技术在1对1无限注德州扑克围棋人机对抗中获胜;DeepStack成为第一个击败职业玩家的德州扑克AI程序;由卡内基梅隆大学的研究人员提出的名为Libratus的德州扑克AI算法也击败了许多顶级职业德州扑克玩家。5.2即时战略游戏对战即时战略游戏是另一个常用来评估机器智能的平台。与棋牌游戏相比,整个对抗过程是实时进行的。通常,这类游戏包括资源收集、基地建设、科技开发等几个要素。玩家需要平衡不同的因素,控制单个或多个被控制的单位来完成对抗。经典的即时战略游戏有星际争霸和Dota2等。得益于国际人工智能竞赛和企业与学术界的友好合作,即时战略游戏人工智能取得了长足的进步。星际争霸AI程序AlphaStar以10:1击败人类职业选手。相关AI算法包括基于多智能体强化学习实现受控单元间的微操作控制、基于深度神经网络模型的宏观作战决策、基于状态机模型实现对抗过程的演化,等等,虽然深度强化学习技术在很多比赛中表现不俗,但是如何提高模型的稳定性和性能打败人类顶尖选手,以及如何实现模型的可解释性来支持学习的可信建模,仍然需要不断改进人工智能算法。突破。5.3军事模拟推演对抗由于具有战略意义,军事模拟推演长期以来一直受到国家层面的关注,其对抗演练具有重要的实用价值。随着游戏对抗规模的扩大,对抗空间呈指数级增长,多兵种协同和环境耦合问题凸显。战争系统具有强非线性、高动态性等复杂特性。在最优策略的解析计算和随机逼近方面存在巨大挑战。人机对抗需要发展对手行为意识建模和协同进化的博弈策略,以不断提高对抗能力。空战智能游戏人机对抗系统(ALPHA),拉开了无人装备对抗有人装备的序幕,在政治、经济、文化、军事等诸多方面发挥着重要作用。人机对抗技术还将在信息获取、传递、分析、理解、推理、决策等环节发挥作用,促进感知和认知智能的发展。总结与展望人工智能,特别是机器学习和类脑计算领域的发展,为机器智能和自主进化带来了机遇。人类智能高效协作机制在人机对抗的理论、技术和应用方面取得重大突破,推动了人类社会经济、政治、金融、生活等诸多领域的智能化进程。