近日,字节跳动应用机器学习团队开源了大模型训练框架veGiantModel,主要用于自然语言领域处理大模型训练最多可将大模型训练性能提升6.9倍,大大减轻训练系统的压力。目前,字节跳动旗下企业级技术服务平台VolcanoEngine已在其机器学习平台上原生支持veGiantModel,并处于公测阶段。自然语言处理是人工智能研究的一个重要领域,旨在帮助计算机理解、解释和使用人类语言。近年来,自然语言处理在应用上取得了重大突破,这主要得益于Bert、GPT、GPT-3等预训练语言模型的普及。可以说,预训练语言模型已经成为人工智能领域的基础设施。由于大模型算法的优越性能,预训练语言模型近年来呈现出向大模型快速发展的趋势。然而,模型规模的快速增长也给现有的训练系统带来了不小的挑战,主要体现在内存压力、计算压力和通信压力上。针对现有训练体系在大模型训练场景下的上述挑战,字节跳动应用机器学习团队提出了大模型训练框架veGiantModel。veGiantModel中文名称为VolcanoEngineLargeModelTrainingFramework,是基于开源深度学习框架PyTorch和Megatron、DeepSpeed两大开源主流训练框架的高性能大型模型训练框架。veGiantModel可同时支持三种分布式并行策略:数据并行、算子切分、流水线并行,并支持自动化和定制化的并行策略;基于自主研发的高性能异步通信库ByteCCL,veGiantModel的训练任务吞吐量相较于其他主流开源框架有1.2~3.5倍的提升,并提供更友好灵活的pipeline支持,减少所需人力用于模型开发迭代;此外,veGiantModel可以在GPU上高效地支持数十亿到数千个模型。亿级参数的大模型对网络带宽要求较低,私有化部署时对RDMA没有强依赖。与Megtraon和DeepSpeed的对比测试表明,veGiantModel性能最好,受网络带宽影响最小。与以上两者相比,在TeslaV100上有1.2~3.5倍的提升,在AmpereA100上最高提升6.9倍。veGiantModel开源地址:https://github.com/volcengine/veGiantModel火山引擎机器学习平台公测地址:https://www.volcengine.com/product/ml-platform
