本文转载自雷锋网。如何高效地训练大规模数据一直是机器学习系统面临的重要挑战。在当前的互联网时代,数十亿用户每天都在产生数百亿的数据。作为人工智能炼金术的底层燃料,这些海量数据至关重要。然而,由于训练数据和模型规模的增加,机器之间的通信成本更高,机器学习系统经常出现高延迟和低负载的问题。2004年,Google首次提出并行算法Mapreduce。通过将大规模数据分发到网络上的每个节点,实现了超过1TB的计算量。后来,AI科学家李牧提出了异步可扩展的ParameterServer算法,基本解决了大规模数据分布式训练的问题。然而近年来,以BERT为代表的预训练模型不断突破其体量的极限。拥有数百万甚至数亿参数的超大型模型使得传统的分布式机器学习系统越来越难以高效运行。基于此,业界普遍认为去中心化(Decentralized)的分布式训练方式将成为下一个“最优解”。陆宇成告诉AI科技评论,随着机器学习的应用越来越多样化,中心化分布式系统的局限性会越来越明显,比如“中心节点过载”、“容错性差”、“数据安全”等问题。如果节点间的协议设计得好,去中心化的算法将有助于大大提高系统的健壮性。卢玉成是康奈尔大学计算机科学系的博士生。主要研究大规模机器学习系统,侧重于随机和并行算法。近日,他发表的研究论文《Optimal Complexity in Decentralized Training》获得了ICML2021OutstandingPaperHonorableMentionAward。在这篇论文中,他主要研究了分散算法的理论极限,推导出了随机非凸环境下迭代复杂度的最优下界,并进一步提出了DeTAG算法来证明该理论下界是可以实现的。ICML组委会一致认为,该研究成果在理论层面推动了分布式机器学习系统的发展。1去中心化:机器学习系统的最优解《虽然不如NLP那样受到媒体追捧,但在‘精炼大模型’浪潮的推动下,去中心化成为了机器学习领域的热门话题机器学习系统研究方向”。陆煜城说道。去中心化并不是一个新概念,它已经广泛应用于金融、移动互联网、云计算等领域。直到最近五年才逐渐在人工智能领域布局。例如应用于金融服务的区块链技术,采用了去中心化的思想;用于优化计算机网络负载和容量的点对点拓扑结构也依赖于去中心化的思想。在机器学习系统中,中心化意味着一个节点管理所有计算机机器之间的数据交互和同步。去中心化则强调所有节点都是平等的,不围绕任何一个节点进行中心化设计。实验证明,不同节点之间的信息交互也可以达到类似集中交互的效果,甚至可以训练出无损的全局模型。谷歌2017年推出的FedAvg算法就是典型的去中心化联邦学习架构。它以中心节点为服务器(server),各分支节点为本地客户端(device)。其运行方式是在每个分支节点使用本地数据训练模型,然后将训练好的模型合并到中心节点,得到更好的全局模型。在不需要用户发送信息的情况下,在本地训练移动数据是数据层去中心化的典型应用。分布式机器学习系统可以看作是一个栈结构,包括数据、应用、协议、网络拓扑等不同层次。这些层可以通过不同的去中心化设计来适应不同的应用场景。D-PSGD是扩展随机梯度下降(SGD)最基本的算法之一,也是典型的应用于协议层的去中心化算法,可以实现线性并行加速。虽然学术界有一些成熟的去中心化算法,但工业级去中心化系统的实现还处于起步阶段。Facebook的Pytorch、Google的TensorFlow、Amazon的MXNet等传统机器学习框架仍然采用ParameterServer或AllReduce等集中式解决方案;但是,一些初创公司(例如Openmined)已将去中心化作为其机器学习系统的核心。部分。陆宇成认为,未来几年,不同层次的去中心化设计将成为扩大机器学习/深度学习在不同场景应用的关键因素。原因在于三点:1.在数据中心和集群模型训练中,去中心化的设计提供了良好的容错性和鲁棒性,降低了不同机器之间的带宽需求;2.去中心化可以为AI在更多场景落地提供可能。比如近几年终端设备学习的不断发展,就是应用层去中心化的典型设计;3.去中心化在分布式系统领域有很多协议和安全。研究为其在机器学习领域的发展奠定了理论基础。从已有的研究成果来看,卢玉成认为,很多类似D-PSGD的分布式算法在收敛速度上还存在理论上的差距,尤其是在随机非凸环境下,其迭代复杂度的极限还未知。对这个问题的讨论为他赢得了ICML2021杰出论文提名奖,并为机器学习系统的理论发展做出了贡献。2TheoreticalLowerBound:TheLimitofIterativeComplexity论文地址:https://arxiv.org/abs/2006.08085卢玉成团队在该论文中为去中心化分布式系统提供了一个最优的理论下界,并通过DeTAG两种算法,DeFacto和事实上,证明下界是可以实现的。通信复杂度和网络延迟是衡量机器学习模型在训练过程中效率的重要指标。两者表示去中心化系统运行过程中各节点的迭代次数和收敛速度,下界代表这一点。迭代复杂度的理论极限,即分散系统在处理任何任务时所需的最小迭代次数。在卢玉成看来,任何最优算法的设计都需要理论下界的指导。“没有下界的指导,我们其实不知道现有算法的改进空间在哪里,只有明确一个极限,不断逼近极限,才能设计出接近最优的算法。”正因为如此,本研究论文更加关注机器学习系统优化的理论创新。DeTAG算法是一个堆栈结构,包括应用层、协议层和网络拓扑层。陆宇成表示,他们在算法设计过程中使用了一些常见的去中心化技术,例如梯度跟踪、阶段性通信和加速Gossip协议。基于这些技术,他们最大的贡献是发现了一个最优的理论下界,并提出了一个可以分析分散算法复杂性的理论框架。实验证明,DeTAG算法只需要一个对数区间即可达到理论下限。在论文中,陆宇成团队将DeTAG与D-PSGD、D2、DSGT和DeTAG等其他分布式算法在图像分类任务上进行了比较。结果表明,DeTAG比基线算法具有更快的收敛速度,尤其是在不同质量的数据和稀疏网络中。1.异构数据的收敛在很多应用场景中,节点之间的数据往往不服从同一种分布。实验中,当不同节点之间的数据完全同质时,除了D-PSGD收敛速度稍慢外,其他算法几乎相同;当不同节点间的数据同质性为50%-25%时,DeTAG算法DSGT的收敛速度最快,而D-PSGD即使微调超参数也无法收敛;当数据的同质性??为零时,DSGT比D2获得更稳定的性能。图注:0%、25%、50%、100%代表不同程度的同质化2.与baseline相比,不同的稀疏通信网络在不同的控制参数(κ=1、0.1、0.05、0.01)下收敛性不同,DeTAG收敛速度更快;此外,当网络变得稀疏时,即参数K减小时,DeTAG具有更稳健的收敛性。卢玉成表示,DeTAG算法通过优化不同节点的通信过程,在一定程度上实现了负载均衡,提高了系统的容错率。同时,也验证了去中心化算法在优化分布式机器学习系统方面的潜力——机器学习的范围不再局限于云端或大规模集群,而是可以从更广范围的数据中适配更多终端。3ICML获奖者陆玉成是康奈尔大学计算机科学系的三年级博士生,师从ChrisDeSa教授。主要研究如何优化分布式机器学习系统,重点关注系统性能、通信压缩、去中心化、采样算法等方向。学生在博士期间获得顶级学术会议奖项的情况很少见,尤其是ICML、CVPR、ACL等主流会议。作为机器学习领域最热门的会议,ICML2021共收到有效投稿5513份,录用1184份,录用率仅为21.48%。本次会议共颁发优秀论文奖1项,优秀论文honourablemention4项,其中陆玉成(第一作者)是唯一获此殊荣的华人博士生。另一位获奖的华人学者是FacebookAI科学家田远东。卢玉成就读于上海交通大学,后赴康奈尔大学攻读博士学位。博士毕业后,他的研究方向开始集中在去中心化算法上,接触到一些更具挑战性和影响力的课题。在微软和AWSAILab实习期间,他从采样和通信压缩的角度探索了如何优化分布式训练算法。一般来说,博士阶段的研究更适合从小而具体的课题入手,以培养科研信心,为后续研究逐渐积累经验。谈到当初为什么选择时下流行的去中心化算法时,陆宇成表示,从个人角度来说,第一篇论文是从简单易产的研究开始的。树立自信心是非常必要的,但同时我们也应该有意识地逐步增加自己研究的难度,拓展问题的主线。此外,与计算机视觉、自然语言处理等更偏向于工业的研究不同,优化算法领域的工作通常更注重基础理论。工业界和学术界的研究需求是不同的。除了理论层面,一些主题也可以从非算法的角度进行探索。
