本文经AI新媒体量子比特(公众号ID:QbitAI)授权转载,转载请联系出处。没有人愿意随便交出自己的隐私。当苹果正式推出“AppTrackingTransparency”隐私保护功能时,只有16%的用户选择允许App跟踪他们的活动。但正如Apple提醒您的那样,有时您必须为了方便和服务质量而牺牲隐私数据。因此,根据数据分析公司Adjust的数据,一年后的今天,这一数字又回升至25%。也就是说,更多的用户重新认可了接收个性化内容对自己的价值。有没有什么办法可以做到两全其美,让互联网平台在严格保护用户隐私的前提下,依然能够为用户提供优质的服务呢?真的有。目前最主流的解决方案之一是联邦学习,一种用于构建机器学习模型的算法框架。在联邦学习的框架下,用户自己的数据自始至终都停留在用户自己的手机、汽车、各种物联网设备中。同时,训练机器学习模型所需的信息将通过加密、噪声或拆分等方式进行保护,并聚合到云端的服务器进行模型更新,云端将更新后的模型推送到云端。用户终端。通过这样一个交互迭代的过程,服务提供者既可以训练出高性能模型为用户提供服务,又可以保护用户的数据隐私。联邦学习于2016年由Google首次提出,此后逐渐成为热门的研究领域。在学术上,发表的论文数量增长迅速。△来自清华大学的开源框架,也汇集了国内外众多厂商。△来自Github仓库Awesome-Federated-Machine-LearningGoogleTensorflow-Federated是水平联邦学习的代表:本地和云端模型特征共享,样本数据不共享,更适合同一企业在同一平台上的情况C端为多个用户提供服务。杨强教授领衔的微众银行FATE框架是垂直联邦学习的代表:模型特征不一致,样本数据有重叠,更适合B端,比如两家公司共享一组客户但专注关于不同的特征。更进一步,还有联邦迁移学习,它兼顾了上述两者的特点,适用于参与者之间特征和样本几乎没有重叠的情况。就在近日,又一位重量级选手悄然入局:FederatedScope,阿里达摩学院全新开源的联邦学习框架。△https://federatedscope.io问题也随之而来:新框架和之前的框架有什么区别和竞争优势?为什么达摩院会选择在这个时候入局?我们先来看看联邦学习领域的现状和FederatedScope框架本身的特点。现在需要什么样的联邦学习框架?随着5G、物联网、云计算等技术的发展,联邦学习所涉及的设备应用场景越来越多样化。异构性已经成为传统联邦学习面临的最大挑战。不同设备在计算能力、存储能力、通信能力等方面的差异称为系统资源异构性。每个设备的本地数据不是独立同分布的,会导致数据异构。不同的应用场景会带来异构的行为。这些异构性对联邦学习提出了新的要求:首先,联邦学习参与者之间传递的信息形式将更加丰富,不再局限于模型参数或梯度等同质信息。例如,联邦学习是对金融和电信行业常用的图数据进行的,节点的嵌入式表示等信息也在参与者之间传递。△来自《Federated Graph Learning - A Position Paper》的丰富信息类型需要联邦学习框架灵活支持不同类型的信息传递。其次,跨设备联邦学习不能再拘泥于传统的“服务端负责聚合,客户端负责本地训练”的模式。服务器端往往需要对模型进行压缩以满足终端设备的运行需求。终端设备还负责对接收到的模型进行微调,以达到更好的效果。多样化参与者的行为要求联邦学习框架能够灵活支持多种自定义行为。跨设备也会带来各参与方响应速度和可靠性参差不齐的问题。联邦学习框架有必要让开发者根据实际情况采用不同的异步训练策略。甚至跨设备参与者也使用不同的后端环境,例如一些设备使用PyTorch,而其他设备使用TensorFlow。这就要求联邦学习框架需要有更好的兼容性,支持跨平台建立联邦学习,避免需要用户费时费力地适应所有参与者的环境。最后,随着联邦学习逐渐从研究前沿走向工业应用,联邦学习框架需要为单机仿真和分布式部署提供统一的算法描述和接口,以满足研究人员和开发人员的不同应用需求,并降低从模拟到部署的迁移难度的成本。达摩院智能计算实验室的全新开源联邦学习框架FederatedScope就是为解决这些新挑战而诞生的。对于消息类型和自定义行为,FederatedScope将联邦学习视为参与者之间发送和接收消息的过程。这样,可以通过定义消息类型和消息处理行为来描述联邦学习过程,同时用户可以通过添加额外的消息类型和处理行为来进行自定义。FederatedScope将联邦过程(如协调不同的参与者)和模型训练行为(如训练数据采样、优化等)解耦,使开发者可以专注于定制参与者的行为。与现有的联邦学习框架相比,FederatedScope无需从顺序执行的角度考虑如何将不同的参与者串联起来,降低了开发的复杂度和所需的代码量。△经典联邦学习△FederatedScope模式对于异步训练,FederatedScope采用事件驱动的编程范式来支持,并借鉴分布式机器学习的相关研究成果,融合异步训练策略,提高训练效果。后端跨平台支持,FederatedScope对训练模块进行抽象,使核心框架不依赖于任何深度学习后端,兼容不同设备运行环境,大大降低了部署联邦学习的难度和成本。真实场景。除了解决这些挑战,FederatedScope还非常注重框架对不同场景的适用性和开发者的易用性。在这方面,FederatedScope集成了多种功能模块,包括参数自动调优、隐私保护、性能监控、终端模型个性化等。同时支持开发者通过配置文件方便的调用集成的模块,也允许通过注册的方式添加新的算法实现和对这些模块的调用。例如,通过使用注册准备的新数据集和模型架构,您可以轻松地将经典的联邦学习应用于不同的下游任务,而无需修改其他细节。为了让即使是联邦学习新手也能快速上手,FederatedScope提供了详细的教程、文档和运行脚本。同时,FederatedScope还包括了常用的模型架构实现,以及对部分基准数据集的统一预处理和封装,以帮助用户方便的进行实验。隐私保护计算发展到什么阶段?综上所述,不难看出达摩院对联邦学习框架的考虑更侧重于便捷性和广泛应用。之所以会出现这样的情况,其实取决于整体环境的变化。去年以来,隐私保护计算行业日趋火爆。据IDC日前发布的报告显示,2021年中国隐私保护计算市场规模将突破8.6亿元大关,未来增速有望超过110%。Gartner预测,到2025年,约60%的大型企业有望应用至少一种隐私保护计算技术,达摩院2022年十大技术趋势也将隐私保护计算列为重要趋势。量子比特智库估计,截至今年3月,国内可能已有约150家厂商开展隐私保护计算相关业务。整个赛道呈现出第三方初创公司、互联网大公司、AI软件开发商、转型公司、甲方自研参与的“乱局”。在市场蓬勃发展的同时,国家和社会也越来越重视隐私保护计算。2020年,除土地、劳动力、技术等传统要素外,国家还将数据纳入生产要素;2021年,《中华人民共和国数据安全法》《中华人民共和国个人信息保护法》《汽车数据安全管理若干规定(试行)》将陆续实施。可以看出,近两年来,政府在加快相关法规建设的同时,也在大力培育数据化资源市场。社会层面对隐私保护计算的需求也在增长。尤其是近两年,健康码、人脸识别等应用让大众看到了数据流通带来的价值,但因隐私泄露引发的安全事件也层出不穷。这导致社会对隐私数据的合理、合规使用的需求越来越大,从而对隐私保护的计算行业产生了更多的需求和场景。事实上,根据量子比特智库的分析,隐私保护计算行业中很重要的一层价值来自于为社会提供生产力。量子位智库分析,隐私保护计算的价值分为三层:第一层:产业自身发展,第二层:产业协同发展,第三层:促进流通数据元素和提高社会生产力。行业总市场规模将达到1134亿元。其中,第三层占比最高,可达62%;第一层和第二层分别占11%和27%。另一方面,近两年学术界的研究更加关注联邦学习和隐私保护计算。去年7月,Gartner预测,在2021-2025年的周期中,联邦学习将发挥主流作用,引领隐私保护计算的商业化。清华大学人工智能研究院联合发布的《2021 联邦学习全球研究与应用趋势报告》也提到,联邦学习和科学研究的发展总体呈逐年递增的趋势。研究论文产出量和受理专利申请量均由中国和美国主导。2016-2020年,我国共发表联邦学习论文666篇,居世界同期第一。联邦学习的半数高被引论文来自中国和美国,全球该领域的学者主要聚集在这两个国家。显然,科研与产业之间存在协同发展的趋势。△来自清华大学《2021联邦学习全球研究与应用趋势报告》在这样的背景下,也就不难理解达摩院为何在这个时候以开源平台进入隐私保护的算盘了。但为什么选择从底层技术入手呢?我们找到了达摩院的技术专家,直接请教思路和答案。一方面,来自于达摩院自身的属性。作为科技圈的大咖,达摩院自然更加关注前沿科技本身的价值和前瞻性。另一方面,也源于达摩院对隐私保护计算的长期洞察。丁柏林,达摩院智能计算实验室高级技术专家,在隐私保护计算领域拥有十余年的研究经验。他在与我们的交谈中提到,近两年联邦学习方面的科研成果开始密集涌现。作为一名技术人员,自然而然会想到从工具入手,以更快地推动这波研究浪潮。“我们也希望开源一个轻量级、易用的平台,让大家可以在上面实现更多的科研合作,从而产生更多的学术成果,进一步推动产业创新。”比如现在很多服务商都需要申请用户隐私数据权限,但是每个人对隐私保护的要求不一样。当不是所有人都愿意提供数据时,如何保证产品能够持续优化?这需要学术界和工业界的共同探索。FederatedScope开源平台可以为此提供模拟环境,支持多方联合开发。对于最终探索的结果,达摩院也会以开源框架工具的形式进行修复,避免后续开发者的重复劳动。李亚良,达摩院智能计算实验室高级技术专家,负责FederatedScope的开源。他表示,当前版本的开源平台主要是为技术开发提供助力,下一阶段将更多关注产业部署方面的考量。除了联邦学习,达摩院还在隐私保护计算的其他领域(如多方安全计算、可信执行环境等)进行布局。达摩院智能计算实验室一直密切关注数据安全和隐私保护的技术发展,重点研究数据采集、数据共享和数据呈现阶段的用户隐私和安全保护问题,并在同时注重减少数据丢失和提高数据分析能力等方面的研究。如何填补技术与监管之间的鸿沟?值得一提的是,在与达摩院两位技术专家的对话中,“合规”一词被提及20余次。相关内容并不是技术的发展在法规的压力下受限,而是在法规的推动下蓬勃发展。在隐私计算领域拥有十余年研发经验的丁柏林提到,隐私计算技术的首要价值在于促进合规。这是任何隐私保护计算服务的设计和开发阶段的首要考虑因素。也就是说,在合规条件下实现技术创新,实现数据流通价值的最大化,是隐私保护计算技术的初衷之一。那么,什么是合法的?技术的边界在哪里?这个标准答案让业界期待已久。事实上,我国近年来不仅颁布了多项与数据隐私相关的法律和政策,而且在立法的严格程度上也处于世界领先地位。这在一定程度上促进了起步较晚的我国隐私保护计算市场的快速发展。丁柏林认为,应该厘清的边界包括几个层面:“哪些数据是严禁采集的”、“哪些数据可以通过技术方案安全采集和应用”、“哪些技术方案可以模型校验,在哪些方面场景可以使用”。近年来出台的条例逐渐明确了一级的边界,二级和三级的边界还有待政府部门和产学研界共同探索。其中,学术界需要提供最核心、最前沿的技术进展,产业界需要从实际技术应用中提取案例研究,共同为边界的细化提供参考。而当边界更加清晰,技术探索和产业发展的步伐将加快,将持续推动数据隐私保护技术的进步,实现数据应用价值的最大化。最后,回到文章开头:对于“隐私与便利能否兼顾”这个问题,你怎么看?FederatedScope开源地址:https://github.com/alibaba/FederatedScope
