近日,蚂蚁集团AI创新研发部门NextEvo全面开源AI Infra技术,助力大模型千卡训练占更多份额95%以上的有效时间,可以在训练过程中实现“自动驾驶”,促进AI研发效率。
图:蚂蚁集团的自动化分布式深度学习系统DLRover现已完全开源。
该技术框架名为DLRover,旨在使大规模分布式训练变得智能化。
目前很多企业的训练作业都是在混合部署集群中运行,运行环境复杂多变。
无论“地势多么崎岖”,DLRover都能“轻松出行”。
近年来大比例模型技术的发展带来了工程实践的爆发式增长。
如何管理数据、提高训练和推理效率、最大化利用现有算力成为关键环节。
要完成千亿参数的大型模型,比如GPT-3,一张卡训练一次需要32年,所以训练时算力的利用就显得尤为重要。
一种方式是更好地利用可用的计算能力,比如进一步压榨购买的GPU的性能;二是利用以前无法使用的计算能力,比如CPU、内存等,这需要异构计算平台来解决。
DLRover 的最新集成是闪存检查点 (FCP) 解决方案。
在训练模型时,一般需要进行检查点,以便在中断时能够恢复到最近的状态。
目前的传统方法存在耗时长、高频检查点容易减少可用训练时间以及恢复过程中低频检查点损失过大等缺点。
。
新方案FCP应用于千卡千亿参数模型的训练后,Checkpoint造成的训练时间浪费减少了约5倍,其中持久时间减少了约70倍,有效训练时间从90%提高到95%。
同时还集成了三项新的优化器(Optimizer)技术。
作为机器学习的核心组件,优化器用于更新神经网络参数以最小化损失函数。
其中,Ant的AGD(Auto-switchable optimizationr with Gradient Difference of Next Steps)优化器在大型模型预训练任务中比传统AdamW技术快1.5倍。
AGD已在Ant内部的多个场景中使用,并取得了显着的效果。
效果,相关论文已被NeurIPS '23收录。
在大型模型预训练任务中,AGD相比AdamW可以加速1.5倍。
作为自动化的分布式深度学习系统,DLRover 的“自动驾驶”功能模块还包括: Atorch,PyTorch 分布式训练扩展库,拥有千亿参数的模型,训练的算力利用率可达60%,帮助开发者进一步压榨硬件算力。
DLRover使用“ML for System”的概念来增强分布式训练的智能性。
旨在用一个系统让开发者完全摆脱资源分配的束缚,专注于模型训练本身。
在没有任何资源配置输入的情况下,DLRover 仍然可以为每个训练作业提供最优的资源配置。
据了解,蚂蚁集团持续在人工智能领域进行技术投入。
近期,蚂蚁集团内部成立了AI创新研发部门NextEvo,负责蚂蚁AI所有核心技术研发,包括百灵大模型所有涉及AI算法的研发工作。
、AI工程、NLP、AIGC等核心技术,以及在多模态大模型、数字人等领域布局的技术研发和产品创新。
与此同时,蚂蚁集团还加快了开源步伐,填补了国内相关技术空白,推动了人工智能产业的快速发展。