当前位置: 首页 > 科技观察

ChatGPT爆发带来的AI网络安全思考

时间:2023-03-14 18:33:24 科技观察

1。人工智能的发展轨迹人工智能(AritificialIntelligence)的概念最早由约翰麦卡锡于1956年在达茅斯学院夏季研讨会上提出,人类一直在机器替代人类繁重重复劳动的道路上不断探索。1882年2月,尼古拉·特斯拉完成了困扰他五年的交流发电机构想,并欣喜若狂地惊呼:“从今以后,人类将不再被繁重的体力劳动所奴役,我的机器将解放他们。整个世界都会变成这样。”1936年,为了证明数学中存在不可判定的命题,艾伦·图灵提出了“图灵机”的思想。1948年,他在论文《 INTELLIGENT MACHINERY》中描述了联结主义的大部分内容,随后于1950年发表《COMPUTING MACHINERY AND INTELLIGENCE》,提出了著名的“图灵测试”。同年,马文·明斯基和他的同学邓恩·埃德蒙建造了世界上第一台神经网络计算机。1955年,冯·诺依曼应邀到耶鲁大学做西利曼讲座,讲座内容后来被编成一本书《THE COMPUTER AND THE BRAIN》。人工智能从1956年提出到今天,经历了三个发展高潮。第一次发展高潮:从1956年到1980年,以专家系统和经典机器学习为代表的符号主义占主导地位。符号主义也被称为第一代人工智能,它提出了一种基于知识和经验的推理模型,模拟人类的推理、规划、决策等理性智能行为。因此,在机器中建立知识库和推理机制,模拟人的推理和思维行为。象征主义最具代表性的成就是IBM的国际象棋程序深蓝在1997年5月击败了世界冠军加里·卡斯帕罗夫。成功有三个要素:第一个要素是知识和经验。深蓝分析了70万场人类高手的对局。棋局和所有5-6残局可以概括为下棋的规则。然后通过师傅与机器的博弈,调整评价函数中的参数,充分吸取师傅的经验。第二个要素是算法。深蓝使用Alpha-Beta剪枝算法,速度非常快。第三个要素是计算能力。IBM当时使用的是RS/6000SP2机器,每秒可以分析2亿步,平均每秒预测前进8-12步。象征主义的优点是可以模仿人类推理和思考的过程,与人类思考问题的过程相吻合,可以举一反三,因此具有可解释性。但是象征主义也有很严重的缺陷。首先,专业知识非常稀缺且昂贵。其次,需要通过人工编程将专家知识输入机器,费时费力。三是有很多知识难以表述,比如中医专家的脉象。这种体验是难以表达的,所以象征主义的应用范围非常有限。第二次发展高潮:1980-1993年,以象征主义和联结主义为代表;第三次发展高潮:1993年到1996年,深度学习借助计算能力和数据取得巨大成功,联结主义变得非常流行;深度学习通过深度神经网络的模型模拟人类的视觉、听觉、触觉等感知。深度学习有两个优点:第一个优点是不需要领域专家知识,技术门槛低;第二个好处是升级后的网络规模越大,可以处理的数据量就越大。深度学习最典型的例子之一就是围棋程序。2015年10月以前,用符号法即知识驱动法编制的围棋程序达到了业余五段的最高水平。到2015年10月,围棋程序击败了欧洲冠军,到2016年3月击败了世界冠军。到2017年10月,AlphaGo击败了AlphaGo。AlphaGo利用深度学习实现了围棋程序水平的三级跳,从业余到专业,从专业到世界冠军,从世界冠军到世界冠军。超越世界冠军。AlphaGo在两年内实现了三级跳,其成功主要来自三个方面:大数据、算法和计算能力。AlphaGo学习了现有的3000万局棋,又和自己下了3000万局棋,一共下了6000万局棋。使用蒙特卡洛树搜索、强化学习、深度学习等算法,总共使用了1202个CPU和280个GPU进行计算。深度学习也有很大的局限性,如不可解释、不安全、难以泛化、需要大量样本等。比如一张人脸图片,稍加修改就可能被识别为狗。人类无法理解为什么会这样。这就是莫名其妙。2016年,以强化学习为代表的行为主义(Actionism)在AlphaZero诞生后备受关注,被誉为通向通用人工智能的必由之路。以逻辑推理为代表的符号主义以知识驱动智能,以深度学习为代表的联结主义以数据驱动智能。两者都存在很大缺陷,应用范围有限。以强化学习为代表的行为主义综合利用知识、数据、算法和计算能力四大要素,引入人脑的反馈、横向连接、稀疏放电、注意机制、多模态和记忆等机制,有望克服前面的问题。两代人工智能的缺陷被广泛使用。2.人脑的几种机制【预测与反馈机制】大脑通过一段时间的生命观察世界,建立记忆模型;在日常生活中,大脑会在潜意识中自动对比之前的记忆模型,预测下一步。发生了什么。当它检测到与预测情况不符的情况时,就会引起大脑的反馈。脑细胞之所以能够交流,是因为它们有神奇的触角——树突和轴突。树突短,脑细胞可以接收来自其他脑细胞的信息,而轴突长,脑细胞可以将信息传递给其他脑细胞(如下图所示)。信息在脑细胞之间不断传递,形成人的感情和思想。整个大脑是一个脑细胞相互连接的大网络,如下图所示:在机器学习领域,要想得到这样一个人工神经网络,首先必须指定一个神经网络结构。有多少个神经元以及它们是如何连接的。接下来,需要定义一个误差函数。误差函数用于评估网络当前的执行情况以及应如何调整其中的神经元连接以减少误差。突触强度决定神经活动,神经活动决定网络输出,网络输出决定网络误差。目前,“反向传播”是机器学习领域最常用和最成功的深度神经网络训练算法。经过反向传播训练的网络一直是最近机器学习浪潮的中流砥柱,在语音和图像识别、语言翻译等方面取得了不错的成绩。同时,它也推动了无监督学习(unsupervisedlearning)的进步,在图像和语音生成、语言建模和一些高级预测任务中成为不可或缺的。结合强化学习,反向传播可以完成许多控制问题,例如精通Atari游戏以及在围棋和扑克中击败顶级人类玩家。反向传播算法将误差信号馈入反馈连接,以帮助神经网络调整突触强度,在监督学习领域非常常用。但大脑中的反馈连接似乎工作方式不同,大脑中的大部分学习都是无监督的。那么,反向传播算法能否解释大脑的反馈机制呢?目前没有确定的答案。【大脑连接】人脑神经元之间的特殊连接方式是研究人脑的一个重要方向。磁共振成像是这项研究的关键工具,这项技术可以在不打开头骨的情况下可视化从神经元延伸并连接不同大脑区域的长纤维。这些连接像电线一样在神经元之间传输电信号。所有这些连接统称为连接组,它们提供了大脑如何处理信息的线索。假设每个神经细胞都连接到所有其他神经细胞,这种一对多的连接组是最有效的。但是这个模型需要大量的空间和能量来容纳所有的连接并保持它们的功能,所以它肯定行不通。另一种模式是一对一连接,其中每个神经元仅连接到一个其他神经元。这种连接的难度较低,但效率也较低:信息必须踩在垫脚石上,通过大量的神经细胞才能从A点到达B点。“现实生活介于两者之间,”说特拉维夫大学的YanivAssaf,他发表了对《自然·神经科学》中123种哺乳动物的连接组的调查。研究小组发现,在不同物种的大脑中,将信息从一个位置传递到另一个位置所需的垫脚石数量大致相等,所使用的连接也相似。然而,不同物种在大脑中实现连接布局的方式存在差异。对于连接大脑两个半球的长距离连接很少的物种,每个半球往往有更多的短距离连接,并且半球中相邻的大脑区域通信频繁。【记忆】人脑中有数十亿个神经细胞,它们通过突触相互作用,形成极为复杂的相互联系。记忆是大脑神经细胞之间的相互作用,有的是短暂的,有的是持久的,有的介于两者之间。大脑神经元之间有四种基本的相互作用形式:简单激发:一个神经元激发,另一个与之相连的神经元也激发。简单抑制:一个神经元的兴奋会增加与之相连的另一个神经元的感觉阈值。正反馈:一个神经元的兴奋会激发相邻的另一个神经元,后者又直接或间接地降低前者的兴奋阈值,或将信号传回前者的感觉突触。负反馈:一个神经元的兴奋会刺激另一个相邻神经元的兴奋,进而直接或间接地提高前者的兴奋阈值,降低前者的兴奋性。人脑中有多种活动不同的神经元细胞,分别负责短期、中期和长期记忆。活泼的神经元细胞负责短期记忆,数量少,决定了人的短期反应能力。当细胞受到神经信号的刺激时,感觉阈值会暂时下降,但突触一般不会增生,感觉阈值下降只能持续几秒到几分钟,然后就会恢复到正常水平.中性神经元细胞负责中期记忆,数量居中,决定了人的学习能力和适应能力。当这种细胞受到适量的神经信号刺激时,就会发生突触增生,但这种突触增生缓慢,需要多次刺激才能形成明显的变化,增生状态只能持续几天到几个星期。更容易退化。惰性神经元细胞负责长期记忆,数量多,决定了人积累知识的能力。这种细胞在受到大量重复的神经信号刺激时,会发生突触增生。这种突触增生非常缓慢,需要多次反复刺激才能形成显着变化,但增生状态可持续数月至数十年,不易退化。当一个脑神经元细胞受到刺激而兴奋时,其突触会增生或感知阈值下降,而经常反复受到刺激和兴奋的脑神经元细胞,其突触数量会比其他脑神经元细胞的信号发送和信号接收能力更强.当两个具有相邻突触的神经元细胞同时受到刺激和兴奋时,这两个神经元细胞的突触会同时增殖,从而增强它们之间相邻突触对之间的相互作用,当这种同步刺激是重复多次,两个神经元的相邻突触对之间的相互作用达到一定强度(达到或超过一定阈值),则它们之间就会发生兴奋传播现象,即当任一神经元细胞受到刺激而兴奋时,它会引起另一个神经元细胞的兴奋,从而在神经元细胞之间形成一种相互回声的联系,这就是记忆联系。因此,记忆是指记忆,取决于神经元细胞间连接的顺畅程度,即神经元细胞间的连接强度大于感知阈值,形成神经元细胞间的主导连接,这就是大脑记忆的本质.【注意机制】人脑在阅读时,并不是严格的解码过程,而是接近于模式识别。大脑会自动忽略低概率、低价值的信息,会根据上下文信息自动将阅读内容修正为“大脑认为正确的版本”。这就是所谓的人脑注意力。“注意力机制”是机器学习中仿生人脑注意力的一种数据处理方法,广泛应用于自然语言处理、图像识别、语音识别等各类机器学习任务中。例如,机器翻译经常使用“LSTM+Attention”模型,而LSTM(LongShortTermMemory)是RNN(循环神经网络)的一种应用。可以简单理解为每个神经元都有输入门、输出门和遗忘门。输入门和输出门将LSTM神经元首尾相连,遗忘门弱化或遗忘无意义的内容。将“注意力机制”应用到LSTM的遗忘门上,让机器阅读更接近人类的阅读习惯,也让翻译结果具有语境性。[多模态神经元]十五年前,Quiroga等人。发现人脑中存在多模态神经元。这些神经元响应围绕高级主题的抽象,而不是对特定视觉特征的抽象。其中最著名的是“哈莉·贝瑞”神经元,它只对美国女演员“哈莉·贝瑞”的照片、素描和文字做出反应。这个例子在《科学美国人》和《纽约时报》[11]中都被使用过。OpenAI发布的CLIP使用多模态神经元实现了可与ResNet-50的表现力相媲美的通用视觉系统。在一些具有挑战性的数据集上,CLIP的性能超过了现有的视觉系统。机器学习引入多模态神经元,是指对文本、声音、图片、视频等多模态数据和信息进行深层次、多维度的语义理解,包括数据语义、知识语义、视觉语义、语音语义等。-语义集成和自然语言语义等语义理解技术。例如,视觉语义可以使机器从清晰的视觉中理解视频,并提取结构化的语义知识。3.智能系统的基本组成自动驾驶系统是一个典型的智能系统。美国SAE自动驾驶分类标准将自动驾驶系统按照自动化程度分为五个等级:等级名称定义L0无需自动驾驶者执行所有操作任务,如转向、制动、加速或减速等。L1驾驶者辅助驾驶员仍然可以在车辆自动驾驶系统的辅助下处理所有加速、制动和对周围环境的监控。2级半自动化自动驾驶系统可以协助转向或加速功能,并让驾驶员从他们的一些任务中解脱出来。驾驶员必须随时准备好控制车辆,并且仍然负责大多数安全关键功能和所有环境监控。L3conditionalautomation车辆自动驾驶系统本身控制对环境的所有监控。在此级别上,驾驶员注意力仍然很重要,但可以从制动等“安全关键”功能中解脱出来。4级高度自动化的车辆自动驾驶系统将在驾驶员将车辆切换到该模式之前,先在条件安全时通知驾驶员。它无法判断更动态的驾驶情况,例如交通堵塞或并入高速公路。车辆的自动驾驶系统能够转向、制动、加速、监控车辆和道路、响应事件、确定何时变道、转弯和使用信号。L5级全自动自动驾驶系统控制所有关键任务,监控环境并识别独特的驾驶条件,例如交通拥堵,无需驾驶员注意。我们从汽车自动驾驶系统的分级可以看出,智能系统的L0级完全是人的决策,L1~L2级是机器根据全量数据进行数据整理分析,而人进行推理判断和决策,这就是所谓的数据驱动模式。L3~L4是基于全量数据进行组织、分析、逻辑推理、判断和决策的机器,但在适当的时候需要人为干预。L5是完全不需要人为干预的智能机器,也就是所谓的智能驾驶模式。机器要智能,也就是让机器成为智能系统,它至少要具备下图所示的组成部分:感知、认知、理解、决策和行动。感知组件的作用是对环境进行监测和收集数据,输出的是数据。本质是将物理空间数字化,将物理空间完全映射到数据空间。认知部分的功能是对数据进行组织和总结,提取有用的信息。理解成分的作用是对提取的信息进行进一步提炼和归纳,从而获得知识。人类理解的知识是用自然语言表达的,而对于机器来说,是通过基于代表问题空间的数据集训练得到的“模型”来表达的。决策组件的作用是根据知识进行推理和判断。对于机器来说,就是利用训练好的模型在新的数据空间中进行推理和判断,生成针对目标任务的策略。动作组件的作用是根据策略与环境交互,对环境产生影响。反馈组件的作用是在动作作用于环境后形成反馈,反馈促使感知系统感知更多的数据,从而不断获取更多的知识,对目标任务做出更好的决策,形成连续的闭环迭代进化。4.智能安全人工智能与网络安全的结合始终具有两个维度和四个象限[9]:纵向上,一端是为智能提供安全,一端是为安全提供智能;横向来看,一端是攻击视角,另一端是防御视角。如下图所示,四个象限代表了两者结合的四个功能:智能本身的安全包括智能技术本身引入的可利用漏洞和智能技术本身的漏洞引入的安全问题。主要包括使用人工智能的业务安全、算法模型安全、数据安全、平台安全等。算法模型的安全问题主要包括模型训练完整性威胁、测试完整性威胁、模型鲁棒性不足、模型偏差威胁,如旁路攻击(通过对抗样本操纵模型决策和结果)、中毒攻击(注入恶意数据降低模型的可靠性和准确性)、推理攻击(推断特定数据是否用于模型训练)、模型提取攻击(暴露算法细节)通过恶意查询命令)、模型反转攻击(通过输出数据推断输入数据)、重编程攻击(改变AI模型用于非法目的)、归因推理攻击、木马攻击、后门攻击等。基于梯度更新的模型输出和数据泄漏;平台安全包括硬件设备安全问题和系统及软件安全问题。针对人工智能这些不安全问题的防御技术主要包括算法模型自身安全增强、AI数据安全与隐私泄露防御、AI系统安全防御。算法模型自安全增强技术包括面向训练数据的防御(如对抗训练、梯度隐藏、分块可迁移性、数据压缩、数据随机化等)、面向模型的防御(如正则化、防御蒸馏、特征压缩、等)压缩、深度收缩网络、隐蔽防御等)、特异性防御??、鲁棒性增强、可解释性增强等;人工智能数据安全和隐私泄露防御技术主要包括模型结构防御、信息混淆防御和查询控制防御。赋予智能安全是指智能技术本身带来的新漏洞,可以被攻击者利用,也可能给防御者带来新的安全风险。赋予安全智能意味着攻击者可以利用智能技术进行攻击,防御者可以利用智能技术提高安全防护能力。主要体现在安全响应的自动化和安全决策的自主化。目前提高安全响应自动化的主流方法有两种:SOAR,SecurityOrchestration,AutomationandResponse,安全编排,自动化和响应;OODA,Obeserve-Orient-Decide-Act,observe-adjust-decision-action,IACDAdapttothenetworkdefenseframework)就是使用OODA作为框架。下图是一个以SOAR为中心的自动响应工作流的示意图:1994年,认知科学家StevenPinker在《The Language Instinct》中写道“对于人工智能来说,难的问题很容易解决,容易的问题是无法理解的。”“简单复杂问题”是指问题空间是封闭的,但问题本身具有较高的复杂性。例如,下围棋是一个简单而复杂的问题。“复杂简单问题”是指问题空间是无限开放的,但问题本身并不是很复杂。例如,网络安全问题既复杂又简单,因为安全攻击的技术和方法是不断变化的,不可能面面俱到,但具体到具体的网络攻击,往往是有迹可循的。如今的智能技术在“简单问题和复杂问题”领域往往比人类强,但对于“复杂问题和简单问题”,人工智能往往在泛化边界引起的空间爆炸时失败。不幸的是,网络安全问题是复杂的简单问题,人工智能在网络安全问题空间中的应用面临挑战。尤其是莫拉维克悖论(人工智能和机器人学者发现的一种违背常识的现象。与传统假设不同,人类特有的高阶智能能力只需要很少的计算能力,比如推理,但无意识的技能和直觉需要巨大的计算能力。)这在网络安全方面表现得最为明显。人工智能技术应用于网络安全存在以下挑战:问题空间不封闭、样本空间不对称、推理结果不准确或无法解释、模型泛化能力下降、交叉挑战-领域思维整合。1.问题空间不封闭如上图所示,网络安全的问题空间包括已知和未知。known包括knownknown,如已知漏洞,和unknownknown,如已知且已暴露的安全漏洞,尚未被发现;unknowns包括knownunknowns,比如软件系统一定存在安全漏洞,unknownunknowns,比如根本不知道风险或威胁是什么。2.样本空间不对称未知未知是网络安全无法回避的困境,使得网络安全问题空间不封闭,导致负面数据(如攻击数据、风险数据等)严重缺失,导致特征空间的不对称性。结果,特征空间不能真正代表问题空间。模型是关于现有数据空间中世界的假设,并用于在新数据空间中进行推理。当今的人工智能技术已经能够解决输入和输出之间的非线性复杂关系,但是对于样本空间相对开放的问题空间却严重不对称。3、无法解释的推理结果人工智能的应用旨在输出决策判断。可解释性是指人类能够理解为什么做出决策的程度。人工智能模型的可解释性越高,人类就越容易理解为什么做出某些决定或预测。模型可解释性是指对模型内部机制的理解以及对模型结果的理解。在建模阶段,协助开发人员理解模型,比较选择模型,必要时对模型进行优化调整;在投入运行阶段,向决策方解释模型的内部机制,解释模型结果。在建模阶段,人工智能技术中存在决策准确性与决策可解释性之间的矛盾。神经网络的决策准确率高,但可解释性差。决策树的可解释性强,但准确率不高。当然,已经有办法将两者结合起来,在一定程度上达到两者的平衡。在投入运行阶段,向决策方解释模型的内部机制和决策结果的解释,涉及数据隐私和模型安全方面的伦理困境。4.泛化能力下降1960年代,贝尔-拉帕杜拉安全模型(Bell-LaPadula)指出“当系统以安全状态启动,永远不会陷入不安全状态时,就是安全的”。人工智能技术使用模型来表示问题空间。然而,由于安全的本质是资源与智能的对抗,安全问题空间永远不会封闭。在训练集上表现良好的模型,对于大规模的真实环境,一上线就可以使用。不断对抗,然后不断陷入失败状态,模型泛化能力下降。5.智能安全自治模型知识和推理是人类智能的基础。计算机要实现推理和决策,需要解决三个问题:知识表示和推理形式、不确定性知识表示和推理、常识表示和推理。纸牌是一种不完全信息的游戏,计算机玩纸牌比下棋要难得多。2017年,人工智能在6人无限注德州扑克中击败了人类。卡片是概率和确定性的问题,而真实环境是完全不确定的,甚至是对抗环境的,所以复杂环境下的自主决策是非常具有挑战性的。对抗场景中自主决策的挑战主要有两个:环境的动态和任务的复杂性。环境的动态性包括不确定条件、不完全信息、动态变化的情况和实时博弈;任务的复杂性包括信息收集、攻击、防御、侦察、骚扰等。对抗场景中的自主决策通常使用常识和逻辑推演来弥补信息的不完整性,然后通过融合人域生成计划知识和强化学习结果,以协助做出正确的决定。复杂环境下的自主决策也需要解决如何适应环境变化并做出相应的决策变化的问题。例如,自动驾驶识别物体并建立模型,并据此进行实时驾驶规划,但难以应对突发事件。因此,自动驾驶也需要驾驶知识和经验,需要在与环境不断交互的过程中学习这些经验知识,即强化学习。因此,智能赋能的安全系统威胁检测与防护的自主决策能力是衡量其智能程度的关键指标之一。参照自动驾驶系统的分类,构建智能安全自主模型。级别名称定义L0没有自主防御,对抗完全靠安全专家人工进行。L1级安全专家辅助防护系统,对已知攻击威胁进行检测和防御,优化准确率、漏报率、误报率,其他威胁研判、溯源等工作需要安全人工完成专家。自主防护系统L2部分对已知攻击和威胁进行检测和防护,也可以感知未知威胁,但正确率、误报率和误报率的优化、威胁研判和溯源都需要人工完成由安全专家。L3条件自主保护系统检测和保护已知和未知的攻击和威胁。它还可以不断优化准确率、漏报率和误报率,以抵抗自主学习和升级。但是其他的威胁研判、溯源、响应等需要安全专家手动完成。L4高度自治的防护系统完成所有攻击和威胁的检测、决策、防护、研判和溯源,过程中安全专家的少量干预和响应。L5级全自主防护系统独立完成所有攻击威胁的检测、决策、防护、研判、溯源,全程无需安全专家介入和响应。