霸占GitHub热搜榜多日,Colossal-AI正式版发布Colossal-AI是一个大规模并行AI训练系统,以深度学习框架为核心设计,帮助用户轻松实现AI部署效率最大化同时最小化部署成本。开源地址:https://github.com/hpcaitech/ColossalAIColossal-AI自开源以来就受到了广泛关注,在Python方向连续多日登上GitHub热榜榜首.国内外关注!经过开发者的不断努力,Colossal-AI经过几个月的密集测试,迎来了正式版!此版本包含300多个提交。本次正式版更新重点优化了分布式训练的性能和开发者的易用性。主要亮点包括:重构ZeRO以提高性能和易用性;添加细粒度的ProfilerTensorBoard监控插件,在训练过程中监控内存和网络更灵活的检查点策略,可扩展的流水线模块;开源蛋白质预测FastFold等丰富的行业解决方案;添加中文教程、MOE、BERT等示例,开放用户社区和论坛。近年来,随着深度学习的兴起和大模型席卷各大性能榜单,前沿AI模型的规模在短短几年内增长了万倍,远超硬件缓慢增长的数倍。前沿的AI大模型不仅远远超过单个GPU的能力,而且需要单个GPU运行数百年甚至数千年。因此,如何提高单个GPU的能力,如何高效利用分布式技术,结合多个GPU以低成本实现并行训练加速,成为大型AI模型的关键痛点。Colossal-AI针对现有解决方案并行受限、效率低、通用性差、部署难、易维护等痛点,采用高效多维并行、内存优化、大规模优化库、细粒度监控,让用户只需少量修改,即可高效快速部署AI大模型训练。多维并行与现有解决方案相比,并行维度仅包括数据并行、一维张量并行和流水线并行。Colossal-AI进一步提供2/2.5/3维张量并行和序列并行,以及方便的多维混合并行解决方案。△当ViTtensorparallelbehavior为64时,batchsize可以提升14倍,训练速度可以提升5倍。其中,高维张量并行可以大大降低内存消耗,提高通信效率,使计算资源利用更加高效。△序列并行性帮助BERT将训练速度提升2倍,即序列长度的1.5倍。序列并行针对大图片、视频、长文本、长期医疗监测等数据,有助于突破原有机器能力的限制,直接处理长序列数据。显存优化Colossal-AI结合多项显存优化技术,包括多维并行、零冗余显存消除、CPU卸载、梯度检查点、自动混合精度(AMP)等前沿技术,帮助用户规避显存瓶颈并最大程度地减少培训硬件的需要。△GPT-2使用了Colossal-AI,在相同硬件下,可训练模型的尺寸增加了24倍,也就是训练速度的3倍。它灵活且易于使用。Colossal-AI的界面设计与PyTorch风格一致,降低了学习和使用成本,只需要少量修改,您可以将现有项目与Colossal-AI结合起来,轻松扩展到大规模并行。此外,系统还保持了良好的可扩展性,便于根据需求增加新的功能,兼容已有的功能模块。细粒度监控:细粒度的ProfilerTensorBoard插件,相对于PyTorch只能以迭代为单位记录训练过程,Colossal-AI可以监控迭代内的网络、通信、内存等状态,方便开发者进行准确的分析和调试。提高开发效率。大规模优化库:Colossal-AI提供大规模并行优化器LAMB、LARS等,首次将训练batchsize扩大到65536。Colossal-AI还兼容PyTorch自带的各种优化器,并不断探索和加入最新的前沿优化技术,以满足各种模型的需求。丰富的行业解决方案Colossal-AI在自动驾驶、云计算、零售、医药、芯片等领域与知名厂商达成合作,并与AI领域顶级开源组织HuggingFace建立合作领域。蛋白质结构预测加速方案:FastFoldAlphaFold因其强大的AI预测蛋白质结构能力,被Science与Nature评选为2021年度十大科学突破,但存在训练时间长、成本高等问题。△图片来源:https://arxiv.org/pdf/2203.00854.pdf基于Colossal-AI的加速程序FastFold,将GPU优化和大模型训练技术引入AlphaFold的训练和推理,成功超越谷歌和哥伦比亚大学的程序,将AlphaFold的训练时间从11天减少到67小时,总成本更低,在长序列推理中也实现了9.3到11.6倍的速度提升。△用一半GPU训练GPT-3的长序列推理性能对比对于GPT-3等超大型AI模型,与Nvidia的方案相比,Colossal-AI只需要一半的计算资源就可以开始训练;如果使用相同的计算资源,可以提高11%的速度,可以将GPT-3的训练成本降低超过100万美元。Colossal-AI专注于开源社区建设,提供中文教程,开通用户社区和论坛,针对用户反馈进行高效沟通和迭代更新,不断添加MoE等前沿应用。项目组Luchen技术团队核心成员来自美国加州大学伯克利分校、斯坦福大学、清华大学、北京大学、新加坡国立大学、新加坡南洋理工大学等国内外知名高校;拥有GoogleBrain、IBM、Intel、Microsoft、NVIDIA等知名厂商的工作经验。公司成立后即获得创新工场、真格基金等多家顶级VC机构的种子轮投资。△绿晨科技创始人游阳教授:博士。来自加州大学伯克利分校,IPDPS/ICPP最佳论文,ACM/IEEEGeorgeMichaelHPCFellowship,福布斯30岁以下精英(亚洲2021),IEEE-CS超级计算杰出新人奖,UCBerkeleyEECSLotfiA.Zadeh杰出研究生奖△LuchenCSOProf.JamesDemmel:加州大学伯克利分校特聘教授,ACM/IEEEFellow,美国国家科学院、工程院、艺术与科学院院士传送门论文地址:https://arxiv.org/abs/2110.14883项目地址:https://github.com/hpcaitech/ColossalAI文档地址:https://www.colossalai.org/
