当前位置: 首页 > 科技观察

RSA创新沙盒清单-CapePrivacy-基于加密机器学习的多方数据协作和隐私保护解决方案

时间:2023-03-12 04:17:39 科技观察

RSAConference2021将于旧金山时间5月17日举行。以创新沙盒(Sandbox)竞赛形式举办的大会,作为“安全界的奥斯卡”,每年都备受瞩目,已成为全球网络安全行业技术创新和投资的风向标。不久前,RSA官方公布了最终入选创新沙盒的十大初创公司:WABBI、Satori、AbnormalSecurity、Apiiro、AxisSecurity、CapePrivacy、Deduce、OpenRaven、STARATA、WIZ。绿盟科技将从背景介绍、产品特点、评论分析等方面为大家介绍入围前十的厂商。今天我们要介绍的厂商是:CapePrivacy。一、公司介绍CapePrivacy成立于2018年1月,总部位于美国纽约。目前融资总额已达2500万美元,其中最新一轮2000万美元A轮融资,由EvolutionEquityPartners领投,TigerGlobalManagement、RidgelinePartners、VersionOneventures、Radicalventures等投资公司跟投[1]。其创始人兼CEO是ChéWijesinghe,拥有丰富的网络安全经验和管理背景。曾任Datalogue(被耐克收购)、OmniSci、CompositeSoftware(被思科收购)等公司高管;团队的其他一些成员,来自美国、英国和法国各个国家,包括DavidBesemer、MortenDahl和BenDecoste,具有密码学、数据科学和计算机领域的技术背景[2]。公司利用机器学习和密码学技术,致力于构建和实现企业级的多方数据协同和隐私保护SaaS平台,旨在解决隐私监管下的敏感数据共享问题。今年入围2021RSA创新沙盒的十家公司中,就有3家数据安全公司。除了本文介绍的CapePrivacy,还有OpenRaven和Satori,后两者专注于敏感数据发现/分类、数据泄露监控和数据安全治理。在去年2020年的创新沙盒大赛中,很多人表示,Securiti.ai的胜利很大程度上是商业原因和运气。而后,回归到以技术为主导的创新,CapePrivacy作为加密机器学习、密码学等先进技术的集大成者,实现了多方数据协同和隐私保护解决方案。像它这样同时拥有创新技术和商业条件的公司,能否一举夺得今年RSACInnovationSandbox的冠军呢?值得期待!二。背景欧盟于2018年5月25日正式颁布《通用数据保护条例》(GeneralDataProtectionRegulation,GDPR),实施至今已近三年时间,众多企业的巨额罚单相继开出。据GDPR执法追踪网站统计,截至目前,自2018年以来,欧盟成员国共开出616起罚单,罚款总额约2.79亿欧元[3]。其中就包括备受关注的谷歌罚款事件——作为一家大型国际互联网公司,谷歌先后被欧盟两个国家罚款:2019年1月,因法律原因被法国罚款5000万欧元。执法人员认为谷歌谷歌的隐私政策并未充分体现GDPR公开、透明、明确的原则;2020年3月,因谷歌未完全履行GDPR授予的数据“遗忘权”,被瑞典罚款700万欧元。以GDPR为风向标,世界各国纷纷实施新的数据安全和隐私立法,并趋于更加严格。根据联合国贸易和发展组织(UNCTAD)目前的统计[4],在全球194个国家中,共有132个国家制定了与数据隐私相关的法律,包括欧盟、美国、中国、俄罗斯和印度、澳大利亚、加拿大和日本等国家,占所有国家总数的66%。其中,美国加州作为科技创新企业的聚集地,于2020年初实施了《加利消费者隐私法案》(CaliforniaConsumerPrivacyAct,CCPA),并公开了?(CaliforniaPrivacyRightsAct,CPRA)到2020年底,这被认为是CCPA的加强。版本,在CCPA的基础上增加了更严格的规定。近日,我国的《数据安全法》和《个人信息保护法》通过了二审稿阶段,这两个重量级法规之间的距离越来越近。无论是国外还是国内,这些法规无疑给企业(无论巨头还是中小企业)带来了巨大的合规压力和挑战。随着数字化转型和人工智能战略的推进,机器学习、深度学习等先进技术在各行各业的数字化领域得到广泛应用和推广。但随着GDPR、CCPA等法规的实施,人工智能的应用,尤其是跨企业的应用,合规风险越来越高。例如,GDPR对个人数据的处理和共享施加了很高的限制,CCPA条款明确规定,未经消费者同意不得与第三方共享用户数据。然而,数据的价值在数据流动的过程中得到最大化,企业间数据共享、计算、交换的场景和需求越来越多,这对企业数字化转型和企业战略价值的发挥构成了巨大障碍。人工智能。如何确保在数据共享中实现数据价值挖掘,确保数据安全并满足合规性是一个关键问题。CapePrivacy号称打造更强大的人工智能解决方案,企业可以在不泄露任何机密数据的情况下实现协同机器学习,从而在对敏感数据的安全可信访问中获取数据价值。这是应对数据共享中合规性挑战的答案吗?接下来,我们对CapePrivacy的产品和应用进行分析和解读。3、公司产品及应用CapePrivacy的开发团队从2018年到2020年用了两年的时间推出了公司产品的Alpha版本——Cape平台beta版。根据最近的采访,该公司CEO声称该产品在2021年有了很大的改进和完善,可以在部分场景下商用[3]。值得一提的是,初创公司通过项目开源和社区的模式推动产品孵化。不仅有CapePrivacy公司的员工搭建框架贡献代码,还会有??一些外部开发者加入贡献代码。本章首先解读了CapePrivacy的产品——Cape平台,然后介绍了该公司产品的应用场景,最后介绍了CapePrivacy主导的几个具有代表性的和产品相关的Github开源项目。3.1Cape平台Cape平台是一个基于加密机器学习的多方数据协作平台。它使用先进的密码学、隐私保护和机器学习技术来确保企业组织中共享数据的安全,并改进数据模型以提升商业价值。如图1所示,A、B、C公司希望通过数据共享实现联合建模。例如,三个不同的银行希望整合大量数据样本,共同构建信用评分风控模型。然而现实是,出于客户隐私和法律合规的原因,三家银行不能直接共享这些敏感数据,这似乎有些矛盾。而Cape平台可以通过加密机器学习技术(如同态加密、秘密共享、无意传输、混淆电路等密码学技术)对原始敏感数据进行加密,并对加密数据进行计算和联合建模。原始数据不出本地,即A、B、C三公司流出加密,不暴露敏感信息,实现免解密计算学习(workwithprotecteddatawithoutdecryptit),实现“可用不可见”的效果。图1Cape平台多方敏感数据共享框图具体而言,Cape平台目前提供以下三个核心组件:1)Cape云服务(也称为“Cape”),用户可以在其中创建新的数据科学项目与其他组织协作。该服务还包括CapeProxy,它允许用户轻松安全地连接到云服务。2)CapeWorkers,用户管理和运行加密学习任务,例如使用CapeWorkers访问本地数据,使用安全多方计算等技术对本地数据进行加密,连接并传输给Cape代理。3)Python库pycape,通过使用pycape,用户可以与自己的Cape项目进行交互,查看和更新??项目的详细信息,可以对数据集进行操作或将数据集加密上传到Cape。从以上三个核心组件可以看出,Cape平台实际上是一个云本地计算架构。由于原始数据和中间计算状态是加密的,计算任务是在加密数据中进行的,所以云服务可以是第三方,即公有云。据官方介绍,目前支持部署在AmazonCloudS3上。这与CapePrivacy的愿景一致——为客户提供安全可用的支持加密机器学习的企业SaaS平台。由于Cape平台是一个多方数据协作平台,Cape云服务支持为不同的参与方分配不同的角色,以满足不同的权限和生产需求。这些角色可以分为两类:组织级角色和项目级角色[6]。具体权责如下:1)Organizational-LevelRoles,分为三种类型:Administrator:管理员对Cape上的所有功能具有完全权限。是需要与其他用户协同工作的超级管理员担任的角色,在Cape上拥有最高级别的权限。拥有对组织的完全权限,包括:可以在组织中添加或删除人员,可以更改组织中任何成员的角色,可以删除组织。此外,它还具有后面介绍的项目级管理员的所有权限。Operator:Operator控制组织的token,负责部署、运行和监控CapeWorkers。他们能够撤销令牌并查看组织的所有项目和项目活动。权限包括:可以查看所有组织项目和工作/项目活动,可以颁发/撤销组织令牌,可以安装和下载CapeWorkers。用户:Cape用户可以查看自己所属的项目,也可以加入和离开受邀的项目。他们只能查看和加入Cape组织或项目管理员邀请的项目。权限包括:组织或项目管理员邀请我加入和离开项目,可以查看项目页面和日志,但不能更改数据视图/任务,批准或拒绝任务。2)项目级角色(Project-LevelRoles),有3种类型:项目级管理员(Project-LevelAdministrator):项目管理员对他们在Cape上的组织项目拥有完全权限,并且可以对他们所在的项目属于添加和编辑参与者,并执行必要的项目操作,例如添加和删除数据视图或批准和运行加密学习任务。组织所属所有项目的完整权限,包括:可以在所有项目中添加或编辑贡献者,可以添加和删除所有项目的数据视图,可以批准和运行所有项目的加密学习任务,如图2所示。图2项目级管理员的任务管理(需要同意、运行、完成)数据科学家(DataScientist):数据科学家可以添加、删除、编辑数据视图,以及创建、运行、拒绝、批准加密学习项目的任务。他们只能查看和加入Cape组织或项目管理员邀请的项目。数据科学家权限包括:组织或项目管理员邀请我加入和离开项目,可以添加和删除己方参与项目的数据视图,可以为自己参与的项目创建、批准和运行加密学习任务己方参与,如果己方组织是模型所有者的组织可以访问作业的指标和模型权重。用户:项目级用户与组织级用户具有相同的权限(如上所述)。除了在加密数据中学习和计算、多方参与各种角色的特点外,Cape平台还具有以下功能特点:1)加密机器学习模型的训练速度更快。CapePrivacy优化了加密机器学习的底层加密协议,能够在没有过多计算开销和延迟的情况下使用加密数据,也提高了机器学习的成功率。2)多方数据协同训练过程支持可视化如图3所示,多方数据协同训练过程可视化。图3Cape平台多方数据协同可视化3)技术安全性通过同行评审认可。CapePrivacy的基本核心价值观是尊重、合作和信任。如何保证隐私保护技术是值得信赖和安全的。CapePrivacy对隐私保护新技术的研究采用公开发布和同行评审机制,部分技术成果将发表在会议期刊论文中。同时,产品孵化由开源项目和社区模型驱动,部分底层算法库公开透明。3.2应用场景Cape平台产品可应用于以下三种场景:1)金融服务加密机器学习允许金融机构与其他第三方合作消除数据集的偏差并确定一些基本事实。2)生命科学通过跨组织使用机器学习,使用个人医疗信息(PHI)、健康和临床试验数据来解决有偏见或不准确的数据和模型。3)政府对位置或其他个人信息进行加密,以消除潜在的数据滥用并促进公共安全。3.3开源项目CapePrivacy在Github上开源了多个加密机器学习相关项目,下面介绍三个具有代表性的项目。1)pycapeCape平台的三大核心组件之一是用Python编写的模块,可以实现与Cape云服务组件的数据交互。该项目在过去一年中一直在积极更新。具体来说,通过pycape模块,可以在Cape云服务中创建和查询数据视图,或者在加密机器学习模型训练过程中指向需要的数据位置。提交和跟踪作业,可以将其视为计算会话,其中包含有关如何训练模型的说明。URL:https://github.com/capeprivacy/pycape2)CapePython是一个支持数据转换和隐私保护策略(例如不同的脱敏方法,包括散列、替换、近似)的Python库,可用于Pandas和一个基于ApacheSpark的数据科学项目。URL:https://github.com/capeprivacy/cape-python3)TFEncrypted是一个构建在TensorFlow之上的Python库,供研究人员和从业者试验隐私保护机器学习。它封装了一些密码学底层协议和库,只提供了类似TensorFlow的接口。目的是让这项技术可以随时调用,而不需要研究人员和开发人员成为密码学和隐私保护方面的专家。TFEncrypted针对基于张量的应用程序进行了大量优化,并且依赖于TensorFlow后端意味着运行时性能与运行独立的TensorFlow框架相当。URL:https://github.com/tf-encrypted/tf-encrypted四、技术解读从Capeprivacy官网和开源项目的介绍可以看出,它提供了一个企业级SaaS平台的核心用于多方数据协作和隐私保护的技术是安全多方计算和同态加密的核心技术。事实上,Cape平台支持多方联合机器学习建模和训练,这与近年来数据安全领域的创新技术——“联邦学习”所达到的效果几乎一致,因此也可以视为作为联邦学习解决方案。下面通过一个简单的例子对联邦学习(加密机器学习)进行直观的认识,然后全面概述其原理和发展。4.1示例简单理解Cape平台不需要对密文数据进行解密,即可以在加密数据中实现数据处理和机器学习训练,它采用了同态加密、秘密共享、混淆电路、无意传输等先进的加密技术.官网给出了同态加密技术如何构建加密机器学习(联邦学习)解决方案的简单示例。首先,考虑一个普通的算法,比如a+b=c,如果你输入2和3,函数产生5。现在考虑一个特殊的加密函数,比如Enc(a)+Enc(b)=Enc(a+b)=Enc(c),调用这个性质是为了满足“加法同态加密”性质,比如Paillier加密系统。如果输入Enc(2)和Enc(3)并对其执行Enc(2)+Enc(3)操作,将生成Enc(5)。然后,在此过程中,无需解密即可将两个数字相加以产生输出。结果输出仍然是加密的,只能由使用密钥的人解密,这表明答案是5。同样的方法可以应用于加密的机器学习模型,例如线性回归是加法和矩阵乘法:aX+b=Y;加密线性回归为:Enc(aX)+Enc(b)=Enc(Y),在加密数据上运行加密线性回归模型将产生加密的Enc(Y)结果。这允许用户在加密数据中训练和预测机器学习模型,而无需公开或读取数据,如图4所示。这意味着数据科学家可以使用该技术协作和共享来自多方的数据,以提高其模型的准确性.图4一个简单的加密线性回归模型示例4.2联邦学习概述联邦学习(FederatedLearning,FL)的概念最早由谷歌于2016年提出,最初用于解决大规模Android终端的隐私保护问题协作分布式机器学习。它是一个有机地融合了机器学习、分布式通信、隐私保护等技术和理论。随着全球隐私法规的加强和对数据利用的强烈需求,联邦学习的概念自提出以来,受到学术界和工业界的广泛关注并得到快速发展。联邦学习可以使多个参与者(如企业和用户移动设备)在不交换原始数据(也表达为“敏感数据不在本地”)的情况下,实现联合机器学习建模、训练和模型部署。联邦学习根据参与各方使用数据集的场景不同,可以分为三类:水平联邦学习、垂直联邦学习和联邦迁移学习。按照联邦学习算法的类型,可以分为联邦线性回归、联邦boosting树、联邦神经网络等。目前联邦学习亟待解决的问题,如算法效率、准确率、通信机制、以及参与者的诚信。联邦学习有两类场景应用:B2C场景——移动设备的隐私数据采集和机器学习,比如Google和Apple在Android和iOS设备上的应用;B2B场景——企业组织间的敏感数据共享和机器学习,例如多家银行共同建立风控模型。在具体的行业应用方面,国内外多家公司进行了探索,并实现了一些商业实施案例。例如谷歌将联邦学习应用到安卓手机的新闻推荐中,并开源了TensorFlowFederated框架;Intel将TEE(TrustedExecutionEnvironment)技术与联邦学习相结合;国内微众银行为代表,将联邦学习应用于保险定价、图像检测等领域,并开源了FATE联邦学习框架;此外,百度、腾讯、京东等厂商也推出了联邦学习相关产品和应用。关于联邦学习技术的具体介绍可以参考文章《十种前沿数据安全技术,聚焦企业合规痛点》和相关研究报告。五、总结与点评无论是欧盟GDPR、美国CCPA,还是我国未来实施的《数据安全法》和《个人信息保护法》两条法规,都存在国内外企业无法回避的紧迫安全问题——遵循数据安全合规性。为了应对挑战,从目前的合规产品和应用市场来看,笔者将其分为三类:第一类是满足明确合规要求的相关产品和工具,比如Securiti.ai提供的合规性以及用于安全检查的OneTrustCollaboration平台,用于用户数据权限(访问权限、修改权限、限制处理权限等)的请求-响应自动化工具(参考《RSA2020创新沙盒Securiti.ai—解决隐私合规痛点的一站式自动化方案》);敏感数据的“识别-保护-评估”是基础系统的数据安全治理方案,比如BigID提供的敏感数据识别产品,微软和IBM的数据脱敏产品,还有国内分类分级,数据脱敏产品,这个方向的技术和市场都比较成熟;第三类是支持跨企业敏感数据共享和传输的合规技术和产品。这类产品的吸引力在于满足合规要求并获得巨大的商业价值。国内外隐私法均明示和暗示地指出,企业一般不得与第三方共享隐私数据,但一般也会直接或间接给出两条路径:一是征求所有用户的同意,二是征求所有用户的同意。是针对原始个人数据的处理,达到了“信息匿名化”的客观效果。显然,CapePrivacy提供的基于加密机器学习的多方数据协同和隐私保护方案属于第三类。公司产品Cape平台,通过将先进的密码学和隐私保护与机器学习(联邦学习技术)相结合,确保跨企业多方数据共享的安全性,在提升商业价值的同时改进数据模型。值得一提的是,2019年RSAC创新沙盒亚军Duality也属于第三类。通过定制硬件和算法优化,将同态加密技术商用化(《RSA2019创新沙盒Duality:基于同态加密的数据分析和隐私保护方案》)。如果说2019年是第三类创新技术的首次商业应用,那么经过两年的快速发展,这类技术凭借其可观的商业价值逐渐在数据安全领域形成了新的赛道,CapePrivacy驱动开源项目、经过严格审查的新技术、更多的场景应用、云服务模型等,这些都表明这个领域取得了长足的进步,技术研究开始走向产业生态,商业模式也逐渐形成。在Gartner的2020年预测报告中,同态加密、安全多方计算、机密计算(TEE)等技术被称为隐私增强计算(PrivacyEnhancedComputation)技术,与Operationanywhere和人工智能工程相关的2021年技术。2019年有六大重要战略技术趋势,其技术价值在未来仍有巨大的研发空间。从2018年到2021年连续四年,数据安全一直是RSAC创新沙盒大赛的重点,每年至少选出一家数据安全初创公司。今年更是火爆,相关的公司有3家——CapePrivacy、OpenRaven、Satori。其中,OpenRaven专注于云资产发现、敏感数据发现/分类、数据泄露监控,Satori专注于敏感数据发现/分类、访问控制策略和数据脱敏,按照前面的划分原则,它们都属于第二类,是降低合规风险的数据安全治理相关产品。前三年创新沙盒大赛,BigID获得2018年(第二组,数据安全治理)冠军,2019年Duality(第三组,同态加密技术商业应用)亚军,2020年Securiti.ai冠军(第一类满足GDPR/CCPA的明确合规性)。CapePrivacy致力于通过加密机器学习(联邦学习)技术构建和实现企业级多方数据协作和隐私保护SaaS平台,旨在解决隐私监管下的敏感数据共享问题。从技术创新角度看,技术具有足够的创新性和新颖性;从商业价值来看,由于数据共享和机器学习业务,特别是在金融、医疗等敏感领域,价值回报可观;从技术团队来看,公司CEO拥有多家成功创业公司的管理经验,团队其他部分成员具有密码学、数据科学和计算机领域的技术背景。有趣的是,他们的技术团队来自美国、英国和法国,有着天然的“分布式”基因。基于以上分析,笔者继续看好2021年RSAC创新沙盒的3家数据安全公司,认为CapePrivacy夺得今年冠军的可能性更大。