内容来源:华为开发者大会2021HMSCore6AI技术论坛,主题演讲《MindSpore联邦学习框架解决隐私合规下的数据孤岛问题》。演讲嘉宾:华为MindSpore联邦学习工程师众所周知,人工智能的发展离不开广泛的数据支持。数据是基础,也是关键。但行业规模中小、碎片化,难以获得大规模、高质量的数据,涉及工程、监管、隐私合规等诸多方面。这也导致了人工智能行业数据孤岛的挑战。例如,企业获取用户数据越来越难,企业内部不同部门数据难以协同,同行业企业数据难以共享,难以最大化利用等。跨行业数据的价值。联邦学习:打破数据孤岛,构建新一代技术生态面对数据孤岛,人工智能该如何发展?联邦学习是确保数据隐私合规性和模型性能的有效解决方案。联邦学习最早由谷歌于2016年提出。一方面,它是一种机器学习框架,可以有效帮助多个组织进行数据使用和机器学习建模,同时满足用户隐私保护、数据安全和政府法规的要求。另一方面,联邦学习也是一种商业模式,更像是一种“共同繁荣”战略,可以驱动跨领域的企业级数据合作,催生基于联合建模的新业态和新模式。通常,业界将联邦学习分为三种类型:水平联邦学习、垂直联邦学习和联邦迁移学习。横向联邦学习适用于用户重叠较少,数据特征重叠较多的场景。例如,谷歌首先应用于智能手机输入法的联合建模;垂直联邦学习适用于用户重叠较多,数据特征重叠较少的场景。比如一些业务垂直性强的行业;对于用户重叠和数据特征重叠比较小的场景,我们可以使用联邦迁移学习来建模。那么,联邦学习在实现企业级应用时一般会遇到哪些挑战呢?首先是隐私和安全。目前,联邦学习还存在很多安全隐患,如中毒攻击、对抗攻击、隐私泄露等。二是模型精度。安全业务中存在的样本不均衡、数据标签缺失等问题会导致联邦聚合的效果不理想。此外,自动驾驶、医疗等行业的应用对模型精度提出了更高的要求。另一个是沟通效率。当面对千万级的大规模异构终端部署时,需要应对网络不稳定、负载突变等复杂场景。上传大量本地模型更新会给通信网络带来巨大的带宽负担。虽然压缩算法可以显着降低通信数据量,但会严重影响模型精度。通信效率和模型精度之间的平衡成为一个很大的挑战。MindSpore联邦学习框架:端云协同,全场景统一架构2021年6月,联邦学习框架开源。MindSpore联邦学习框架专注于横向联邦学习,支持千万级大规模异构终端部署场景,提供高性能、高可用的分布式联邦聚合计算。在隐私和安全方面,无需离开设备即可完成本地训练。在模型参数上传之前,我们也会提供多方安全计算和加密。在提高联邦效率方面,我们提供了两种联邦模式:同步和异步。此外,MindSpore联邦学习框架灵活易用,一行代码即可切换单机训练和联邦学习模式。下面,我将从三个维度详细介绍MindSpore联邦学习框架的核心技术——1.安全算法增强隐私保护。传统联邦学习框架的数据虽然没有公开,但在模型文本的分享上仍然存在隐私泄露的风险。MindSpore联邦学习框架支持基于多方安全计算和差分隐私的高效联邦安全聚合,增强隐私保护能力。目前这两种算法各有优势,开发者可以根据具体的应用场景进行选择。2、混合联邦训练方案提高准确率。在实际应用场景中,用户数据往往没有在客户端进行标注,影响最终模型训练的准确性。对此,我们提供了一种混合联邦训练方案,分为水平半监督学习和细粒度参数分解两种。前者将无监督学习和监督学习与水平联邦学习相结合,解决端侧无标签数据痛点,同时保护用户隐私;后者根据模型和优化器的参数函数和规模将参数分解成不同的部分。然后使用不同的交付和培训策略和方法来减少高通信开销的问题。3.限时通讯器解决长尾效应。在大规模并行场景下,跨设备联邦学习的客户端数量多且不可靠,因此每次训练迭代都存在客户端响应不及时甚至“落后”的长尾效应,进而影响联邦学习性能的整体训练。为此,我们提供限时通讯设备。在每一轮训练迭代中加入计时装置,保证计时窗口内的请求能够正常处理,消除长尾效应,减少等待时间,提高训练效率。另外,时间窗口可以根据实际情况动态调整。MindSpore联邦学习框架的两种应用场景MindSpore联邦学习框架适用于终端广告的个性化推荐场景。传统的广告投放场景会面临很多问题和挑战。比如在用户画像方面,云端无法获取到手机端更丰富的特征;在隐私耦合方面,由于GDPR等法律对用户数据的管控,数据无法上传到中心服务器,导致传统链接无法打开;在推荐效率上,从广告请求到最终的广告展示有很多环节,需要强大的工程框架来提高服务的时效性和稳定性。MindSpore端云协同解决方案中的跨设备联邦学习框架,可以打破用户与广告平台之间的数据壁垒,实现不上云的联合建模。同时,我们采用小样本学习算法,充分利用端的用户特征数据和资源,优化PCVR预测模型,提高广告转化率。在隐私合规的前提下,我们还支持端云协同联合建模,实现用户标签挖掘;基于广告定向,我们在设备端进行二次推荐,提高广告的转化效果。MindSpore联邦学习框架适用于企业采集和上传大量图片、视频数据的场景。假设某公司的城市综合管廊项目需要在工地部署一些摄像头用于安全监控。传统的方式是将摄像机采集的视频数据上传到分控中心。分控中心完成数据预处理后,传输给总控中心。这个过程中可能会遇到两个问题:上传大量数据会造成很大的带宽开销,成本也会增加;数据中往往包含人脸、车辆等敏感信息,存在数据泄露风险。如何解决问题?MindSpore端云协同解决方案的Cross-silo联邦学习框架可以在每个站点进行本地模型训练和推理,既可以保证用户数据安全,又可以控制带宽成本。最后,希望开发者能够持续关注MindSpore联邦学习框架,与我们一起共建联邦学习生态技术,谢谢!更多详情>>访问华为开发者联盟官网获取开发指导文档华为移动服务开源仓库地址:GitHub、Gitee关注我们,第一时间了解HMSCore最新技术资讯~
