LabsforPrivacyandSecurityComputing随着人工智能时代的兴起,数据资源成为维持相关产业的基础原材料,获取相关海量数据的能力成为制约其发展的重要因素。工业的发展。然而,由于数据安全问题、竞争关系等因素,数据在各个行业乃至企业中都以“数据孤岛”的形式存在。法律法规,在社会层面,用户越来越重视个人隐私数据。过去,科技巨头提供基于云端的AI解决方案和API,以获得大量优质的业务和个人数据模型,这在未来的发展中可能会受到很大限制。因此,如何解决数据孤岛问题,在保护隐私和安全的前提下实现数据共享的研究越来越突出。隐私计算受到极大关注,联邦学习应运而生。作者:聂文静单位:中国移动研究院业务研究所近年来,“数据隐私”成为网络热词。大数据时代,数据的流通共享为社会发展创造了巨大价值,但个人隐私也大量泄露。人们对企业的信任度越来越低……那么有没有一种技术可以让企业在安全合规、保护用户隐私的前提下,让数据“隐形”,用数据创造价值、提供高效服务呢?可以两者兼而有之吗?隐私计算可能是一个答案分布式机器学习、密码学(同态加密、差分隐私等)、安全多方计算以及联邦学习等诸多技术。机器学习是研究计算机如何模拟或实现人类的学习行为以获取新知识或技能,并重组现有知识结构以不断提高其性能的学科。它是人工智能的核心,是计算机实现智能化的根本途径。分布式机器学习是一种机器学习框架,参数服务器将数据存储在分布式工作节点上,通过中心调度节点分配数据和计算资源。与中心化的机器学习框架相比,提高了计算效率,更适合大规模数据建模。多方安全计算是一种机器学习框架,它满足了在没有可信第三方的情况下,在保护各自隐私信息的前提下,互不信任的各方之间进行协作建模的需要。该框架可以同时保证输入的隐私安全和计算的正确性。同态加密是一种具有特殊性质的加密方法。与一般的加密算法相比,同态加密不仅可以实现基本的加密运算,还可以实现密文之间的各种计算功能,即先计算再解密,可以等同于先解密再计算。差分隐私是密码学中的一种方法。简单来说,就是在保留统计特征的同时,通过添加噪声和去除个体特征来保护用户隐私。联邦学习,又称联邦机器学习、联合学习、联合学习,由谷歌于2016年首次提出,最初用于解决Android手机终端用户在本地更新输入法中频繁词模型的问题。其设计目标是在保证大数据交换过程中的信息安全、保护终端数据和个人数据隐私、确保合法合规的前提下,在多个参与者或多个计算节点之间进行高效的机器学习。主要要解决的问题是,在数据拥有者不走出本地的前提下,建立共享模型。联邦学习可以从技术上解决数据孤岛问题,让每个参与者交换私有数据而不交换原始数据,只交换加密的模型参数即可完成模型建立的框架。可用于联邦学习的机器学习算法包括逻辑回归、神经网络、随机森林等,有望成为下一代人工智能协同算法和协同网络的基础。隐私计算相关技术之间的关系可以看下面的示意图:Part02联邦学习技术特点与分类-技术特点各方数据保存在本地,不泄露隐私,不违反法律法规;在联邦学习系统下,每个参与者具有相同的身份和地位;联邦学习的建模效果和在一个地方对整个数据集建模的效果是一样的,或者相差不大;每个参与者结合数据建立一个虚拟的共同模型和一个互惠互利的系统。-技术分类1.横向联盟各方业务场景相似,用户重合度低,特征重合度高。2、垂直联盟各方特征重合度低,用户重合度高,用户重叠度低Part03联邦学习技术应用场景根据联邦学习的应用领域和面向服务的受众,联邦学习的典型应用场景可以分为:面向个人用户(2C),面向行业用户(2B)。针对个人用户,主要是基于个人终端隐私数据保护下的数据共享和协同应用场景,如谷歌输入法采用的分布式建模应用。针对行业用户,主要关注企业内部、跨公司、跨行业的数据联合建模应用场景。【本文为专栏作家《移动实验室》原创稿件,转载请联系原作者】点此阅读更多本作者好文
