当前位置: 首页 > 科技观察

您的AI和机器学习项目的安全性如何?

时间:2023-03-21 21:16:58 科技观察

人工智能和机器学习带来了好处,也带来了新的漏洞。本文介绍了几家公司如何将风险降至最低。当企业采用新技术时,安全通常会被边缘化。尽快以最低的成本向客户和内部用户提供新产品或服务似乎更为重要。良好的安全性可能既缓慢又昂贵。人工智能(AI)和机器学习(ML)不仅存在与早期技术进步??相同的漏洞和错误配置机会,而且还具有其独特的风险。随着企业着手人工智能驱动的数字化转型,这些风险可能会变得更大。BoozAllenHamilton的首席科学家EdwardRaff说:“这不是一个很好的领域。”与其他技术相比,AI和ML需要更多数据和更复杂的数据。数学家和数据科学家开发的算法来自研究项目。“我们最近才开始从科学的角度理解人工智能的安全问题,”拉夫说。容量和处理要求还意味着云平台通常还会继续处理工作负载,这又增加了一个层次的复杂性和脆弱性。毫不奇怪,网络安全是人工智能采用者最担心的风险。根据德勤2020年7月发布的一项调查,62%的受访者认为网络安全风险是一个主要或极端的问题,但只有39%的人表示他们准备解决这些问题。使事情进一步复杂化的是,网络安全也是人工智能最重要的功能之一。德勤技术、媒体和电信中心执行董事JeffLoucks表示,越有经验的组织与AI打交道,他们就越担心网络安全风险。此外,企业,即使是更有经验的企业,也没有可遵循的基本安全实践,例如对所有AI和最大语言项目进行全面盘点或进行审计和测试。“公司目前在执行这些措施方面做得不好,”Loucks说。AI和ML的数据需求带来的风险AI和ML系统需要三组数据:?用于构建预测模型的训练数据?用于评估模型运行情况的测试数据?模型运行时的实时业务或运营数据投入工作实时业务或运营数据显然是宝贵的公司资产,但也很容易忽视包含敏感信息的培训和测试数据池。许多用于保护其他系统中数据的原则也可以应用于AI和ML项目,包括匿名化、令牌化和加密。第一步是询问是否真的需要这些数据。在准备AI和ML项目时,可能很想收集所有可能的数据,然后看看可以用它做什么。关注业务成果可以帮助公司将他们收集的数据限制在需要的范围内。“数据科学团队可能非常需要数据,”为教育机构分析学生数据的Othot首席技术官JohnAbbatico说。“当我们处理学生数据时,我们明确表示不需要高度敏感的PII[个人身份信息],也不应将其包含在提供给我们团队的数据中。”当然,错误确实会发生。例如,客户有时会提供敏感的个人信息,例如社会安全号码。此信息不会提高模型的性能,但会产生额外的风险。Abbatico说他的团队有一个程序来识别PII,将其从所有系统中清除,并通知客户错误。“我们不认为这是安全事件,但我们的方法让它看起来像是。”人工智能系统还需要情境化数据,这会大大增加公司的风险敞口。假设一家保险公司想要更好地了解其客户的驾驶习惯。它可以购买购物、驾驶、位置和其他可以轻松关联和匹配客户账户的数据集。这个新的、呈指数增长的丰富数据集对黑客也更具吸引力,如果遭到破坏,对公司声誉的损害更大。AI在线文件共享平台Box的安全设计是一家需要保护大量数据的公司。Box正在使用AI提取元数据以改进搜索、分类等。“例如,我们可以从合同中提取条款、续订和定价信息,”Box的CISOLakshmiHanspal说。“我们的大多数客户来自一个内容分类法要么由用户定义,要么完全被忽略的时代。他们坐拥堆积如山的数据,这些数据可能对数字化转型有用——如果内容可以分类、自我意识,而不需要等待人类的话语来行动的话。”Hanspal说,保护数据是Box的一个关键支柱,同样的数据保护标准也适用于人工智能系统,包括训练数据。“在Box,我们相信我们建立信任、出售信任并维持信任。我们坚信,这需要融入我们为合作伙伴和客户提供的产品中,而不是捆绑在一起。”这意味着所有系统,包括新的AI项目,都应该围绕核心数据安全原则构建,包括加密、日志记录、监控、身份验证和访问控制。“数字信任是我们平台固有的,我们需要将其付诸实践,”Hanspal说。Box为遗留代码和新的AI和ML驱动系统提供安全的开发过程。“我们在开发安全产品方面符合ISO行业标准,”Hanspal说。“设计的安全性是内置的,并且存在制衡,包括渗透测试和红队测试。这是一个标准流程,AI和ML项目不会有任何不同。”编写AI的数学家和数据科学家在使用ML算法代码时,通常不需要担心潜在的漏洞。在构建人工智能系统时,公司会借鉴可用的开源算法,使用商业“黑匣子”人工智能系统,或者从头开始构建自己的系统。使用开源代码,攻击者有可能绕过恶意代码,或者代码包含漏洞或弱依赖性。专有商业系统也使用开源代码,加上企业客户通常看不到的新代码。反向攻击是一个主要威胁AI和ML系统通常是开源库和非安全工程师创建的新编写代码的组合。此外,在编写安全的AI算法时,也没有标准的最佳实践。鉴于安全专家和数据科学家的短缺,他们的数量将会更少。AI和ML算法面临的最大潜在风险之一,也是BoozAllenHamilton的Raff最担心的长期威胁之一,是训练数据泄露给攻击者的可能性。“通过逆向攻击,你可以让AI模型为你提供有关自身及其训练内容的信息,”他说。“如果它是在PII数据上训练的,你可以让模型把这些信息泄露给你。实际的PII可能会暴露出来。”Raff说,这是一个研究活跃且潜力巨大的领域。痛点。有些工具可以保护训练数据免受反向攻击,但它们太昂贵了。“我们知道如何防止这种情况发生,但这样做会使模型的训练成本增加100倍,”他说。“这并不是我在夸大其词。训练模型的成本和时间将增加100倍,所以没有人会去做。”你无法保护你无法解释的东西另一个研究领域是可解释性。如今,许多人工智能和移动计算系统——包括许多主要网络安全供应商提供的系统——都是“黑匣子”系统。“供应商还没有建立可解释性,”YLVentures的常驻CISOSounilYu说。“在安全方面,能够解释发生的事情是一个基本组成部分。如果我无法解释为什么会发生,我该如何解决?”对于可以构建自己的AI或ML系统的公司,当出现问题时,他们可以返回训练数据或使用的算法并修复问题。“如果你从别人那里构建它,你甚至不知道训练数据是什么,”Yu说。需要保护的不仅仅是算法一个人工智能系统不仅仅是一个自然语言处理引擎,或者只是一个分类算法,或者只是一个神经网络。即使这些部分是完全安全的,系统仍然需要与用户和后端平台进行交互。系统是否使用强认证和最小权限原则?与后端数据库的连接是否安全?与第三方数据源的连接如何?用户界面是否可以抵御注入攻击?另一个与人有关的不安全感来源是AI和AI项目所独有的:数据科学家。“他们不是无缘无故被称为科学家的,”Othot的Abbatico说。“优秀的数据科学家能够使用数据进行实验,从而产生有洞察力的模型。然而,当涉及到数据安全时,实验可能会导致危险的行为。”他们可能会尝试将数据移动到不安全的位置或删除示例数据集。Othot很早就投资获得SOCII认证,这些控制有助于在整个公司实施强大的数据保护实践,包括在移动或删除数据时。人工智能机构UrvinAI的产品经理、国际非营利安全研究机构ISECOM的联合创始人PeterHerzog表示:“事实上,全球大多数AI模型面临的最大风险并不在于AI。”他说,问题在于人。“没有任何AI模型可以避免安全问题,因为是人决定如何训练它们,决定要包含哪些数据的人,决定他们想要预测什么的人,以及决定公开多少信息的人。”AI和ML系统独有的另一个安全风险是数据中毒,攻击者将信息输入系统,迫使其做出不准确的预测。例如,攻击者可以通过向系统提供具有与恶意软件相似指标的合法软件示例来欺骗系统认为恶意软件是安全的。拉夫说,这是大多数组织高度关注的问题。“目前,我还没有发现任何人工智能系统在现实生活中遭到攻击,”他说。“这是一个真正的威胁,但攻击者今天用来逃避防病毒的经典工具仍然有效,所以他们不需要再花哨了。”当AI和ML系统用于企业安全时避免偏差和模型漂移(例如,用户偏差和模型漂移在分析行为、监控网络流量或检查数据过滤时也会带来潜在风险)。低估特定攻击或快速过时的训练数据集会使组织变得脆弱,尤其是在防御越来越依赖人工智能的情况下。“你需要不断更新你的模型,”拉夫说。“你需要让它成为一个连续的东西。”在某些情况下,训练可以是自动的。例如,使模型适应不断变化的天气模式或供应链交付时间表可以帮助它随着时间的推移变得更加可靠。当信息源涉及恶意行为者时,需要仔细管理训练数据集以避免中毒和操纵。公司已经在处理引起道德问题的算法,例如在进行面部识别时或招聘平台歧视女性或少数族裔时。当偏见渗入算法时,它还会产生合规性问题,在自动驾驶汽车和医疗应用的情况下,甚至会导致死亡。正如算法可以将偏差注入预测一样,它们也可以用来控制偏差。例如,Othot正在帮助大学实现优化班级规模或实现财务目标等目标。Othot的Abbatico说,在没有适当约束的情况下创建模型很容易产生偏差。“考虑偏差需要更加勤奋。添加与多样性相关的目标将有助于对目标进行建模,并消除如果不将多样性目标作为数据接纳的约束条件,则很容易捕捉到的偏差。”包含。”人工智能的未来是阴云密布的。AI和ML系统需要大量数据、复杂算法和强大的处理器才能在需要时进行扩展。所有主要的云提供商都致力于提供一个数据科学平台,将一切都放在一个方便的地方。这意味着数据科学家无需等待IT为他们提供服务器。他们只是上网,填写一些表格,然后就走了。根据德勤的AI调查,93%的企业在云端使用某种形式的AI。“这让起步变得更容易,”德勤的Loucks说。这些项目随后变成了操作系统,随着规模的扩大,配置问题成倍增加。有了最新的服务,集中式、自动化的配置和安全管理仪表板可能不再可用,公司必须自己编写或等待供应商填补空白。当使用该系统的人是公民数据科学家或理论研究人员时,这可能会成为一个问题,因为他们没有强大的安全背景。此外,供应商历来首先推出新功能,然后才是安全性。当快速部署系统然后更快地扩展时,这可能会成为一个问题。我们已经在物联网设备、云存储和容器中看到了这一点。Raff说,AI平台供应商越来越意识到这种威胁,并从错误中吸取了教训。“鉴于历史上‘安全第一’的心态,我认为将安全纳入其中的计划比我们预期的更为积极,”他说。“ML社区也更关心这一点,滞后时间可能会更低。”德勤首席人工智能联席主管IrfanSaif对此表示赞同,尤其是在支持大型企业人工智能工作负载的主要云平台方面。“我会说,是的,就网络安全能力的发展而言,它们可能会比以前的技术更加成熟。”AI项目的安全清单以下清单有助于确保AI项目的安全,来自德勤企业人工智能现状第3版:?维护所有AI实施的正式清单?使AI风险管理与更广泛的风险管理工作保持一致?有一个执行人员负责AI相关风险?进行内部审计和测试?使用外部供应商进行独立审计和测试?培训从业者如何识别和处理AI道德规范?与外部各方合作建立领先的AI道德规范?确保AI供应商交付的系统是没有偏见?制定政策或董事会来指导AI伦理