当前位置: 首页 > 科技观察

阿里妈妈开源CurvatureSpaceLearningFramework和FederatedLearning解决方案,向社会开放AI技术共同进步

时间:2023-03-19 19:07:20 科技观察

9月15日,阿里妈妈宣布将同时开源CurvatureSpaceLearningFramework和FederatedLearning两项AI技术解决方案。两项最新技术成果的开源,将助力行业提升数据隐私保护能力,有望降低80%的存储消耗,提升15%的用户请求匹配精度。上述技术还可以应用于互联网工业计算领域以外的各种科学研究。据了解,CurvatureLearningFramework(简称CLF)是国内首个经过工业级场景验证的曲率空间深度学习框架;ElasticFederatedLearningSolution(简称EFLS)一种跨企业协作的联邦学习解决方案。用户即日起可在全球最大的开源网站GitHub上搜索“Curvature-Learning-Framework”,9月30日后搜索“Elastic-Federated-Learning-Solution”即可查看两个项目的开源文件。“AI技术是新一代的生产力,基于巨大的工业级场景应用成熟后,我们选择将这些技术能力向社会开放,最大化分享AI技术红利,共同进步。”阿里妈妈CTO郑波表示。CurvatureSpaceLearningFrameworkOpenSource:AI改变轨道,登上CurvatureSpaceshipCurvature是对空间曲率的度量。曲率越接近零,空间越平坦。在科幻小说《三体》中,人类利用空间曲率的变化建造曲率宇宙飞船。AI所需要的海量数据和计算往往基于零曲率的欧氏空间,这潜在地限制了表达能力。阿里妈妈的技术团队发现,曲率空间可以更准确地对图的数据结构进行建模。开源的曲率空间学习框架包括流形、算子、模型和黎曼优化器的完整深度学习过程。用户可以很方便地将模型迁移到曲率空间,从而为人工智能的发展开辟了一条新的道路。将曲率空间建模想象成“吹气球”。假设一个放气的气球表面有十亿个节点,这将是一个非常密集的状态。随着气球逐渐膨胀变大,气球的表面也越来越“弯曲”,节点分离得越多,形状越立体,我们就越能观察和分辨这些节点。曲率空间就像膨胀的气球的表面。与同等大小的欧几里德空间相比,它可以容纳更多的数据,可以更全面、更准确地展示树木、年轮等几何性质。基于图数据Cora的实验证明,该模型通过将欧氏空间替换为曲率空间,可以提高约8%的预测精度。阿里妈妈技术人员表示,该技术在阿里妈妈业务中展现出很高的应用潜力。基于淘宝搜索广告场景,曲率空间可以精准建模亿级商家与用户之间的交互,利用空间曲率变化实现数据的“定向放大”和“精准分割”。系统全面上线后,存储消耗降低80%,用户端请求匹配准确率相对提升15%。该技术有望广泛应用于其他行业,引领新一轮人工智能落地浪潮。业内专家表示,曲率空间可以模拟地球表面云层的运动轨迹、航??空和航海航线等,还可以表示物流运输图和资源流向图。从更及时的天气预报、更准确的地图导航,到更高效的物流运输,以及更公平的社会资源分配,这项新技术实际上可以改善人们的生活。联邦学习解决方案开源:包容、开放、共建的联邦学习是谷歌在2016年提出的在保护终端隐私的前提下进行机器学习,帮助广告主实现跨公司、多设备投放的解决方案。通俗地说,联邦学习就像几个师傅联合培养一个徒弟。师傅各有所长,却又互相提防,不能共享,而徒弟们则不拘一格,融会贯通,集各门之长,终有所长。据了解,阿里妈妈开源的联邦学习解决方案更加注重隐私保护和加密计算,并在此基础上建立APP孤岛的信息链接,构建机器学习模型,结合高并发、加密、易用性和提供更好地支持产品化等方面,促进多方联邦学习在超大规模稀疏场景下的合作与实践。具体来说,联邦学习方案具有以下特点:1.大规模高可用:云原生实现支持百亿规模的数据交集;多种验证方式保证最终结果的完整性和正确性;精简的训练交互协议高效的底层实现保证了分布式训练的高吞吐量;精细的状态恢复和模型验证保证了分布式容灾的正确性。2.加密保护隐私:通过数据安全和计算安全保护用户隐私,支持多种隐私保护方案,提供安全和性能的最佳平衡。3.更强大更便捷:首次开源基于水平聚合和层次聚合的两种模型,通过可视化的Web界面方便开发、匹配、调度和管理任务流程,极大地提高迭代效率。依托联邦学习解决方案,阿里妈妈的Unidesk产品已经帮助宝莱雅、卡姿兰、薇诺娜、花西子、秀正等多家企业实现了品牌和业务的双丰收。据了解,花西子采用Unidesk产品后,运营效果明显提升。短短两个月时间,品牌ROI提升了15%,成交量也在逐渐增加。未来该技术可扩展到金融、医疗共建等场景,普适性高。将开源进行到底本次开源是阿里妈妈“将开源进行到底”一贯做法的延续。2015年以来,阿里妈妈技术团队将大规模深度学习、图学习、强化学习等多项AI技术深度应用到业务中,引领AI在互联网广告领域的探索和规模化应用,并沉淀多项行业领先的LeadingAI工程系统。2018年11月,阿里妈妈开源了业界首个面向高维稀疏场景的大规模工业级训练引擎XDL,同时开源了DeepInterestNetwork(DIN)、DeepInterestEvolutionNetwork(DIEN)、和深度树匹配(TDM),包括多种工业级创新算法。在GitHub上,XDL项目在开源一个月内获得了1000多个星点赞,目前已经有4000多个星点赞,被复制使用近1000次。2019年1月,阿里妈妈面向图的大规模深度学习框架Euler正式开源,在业界引起了极大反响,也引起了学术界的关注。2021年4月,欧拉2.0发布,进一步提升通用性和灵活性。在GitHub网站上,Euler项目现在已经有超过2500个赞和500份拷贝。