当前位置: 首页 > 科技赋能

大幅提升GPU可用显存量,蚂蚁集团与上海交通大学技术成果入选顶级国际会议

时间:2024-05-19 16:50:23 科技赋能

近日,我们从蚂蚁集团获悉,蚂蚁集团与上海交通大学合作的技术成果大学入选计算机体系结构四大顶级会议之一。

ASPLOS二十四受。

据悉,这项名为《GMLake: Efficient and Transparent GPU Memory Defragmentation for Large-scale DNN Training with Virtual Memory Stitching》的研究成果针对业界大模型训练内存效率的通病,提出了一种高效的动态内存组合技术VMS(Virtual Memory Stitching),可将可用GPU内存提升高达33倍。

%,使得显存使用更加高效,从而缓解“内存墙”问题。

ASPLOS会议推动了多核处理器、深度学习处理器等计算机系统领域的核心创新,在学术界和工业界产生了重大影响。

以ChatGPT为代表的生成式大模型正在引领当前人工智能的发展。

为了训练如此高效的大型模型,需要强大而昂贵的基础计算能力。

目前制约高效训练的因素中,除了计算能力之外,显存容量也非常关键,这就是“内存墙”问题。

业界已经做了很多优化工作,包括模型和框架层的改造,甚至为此牺牲模型精度。

此外,业界广泛使用的训练框架,如PyTorch,也存在显存管理效率低下、显存资源碎片化的问题。

即显存存在很多漏洞,难以有效利用分散的显存资源,尤其是在使用业界多种显存资源时。

优化后,碎片问题更加突出,造成本已稀缺的显存资源的严重浪费。

对此,蚂蚁集团和上海交通大学提出了一种名为GMLake的高效动态内存组合技术框架。

该框架利用虚拟和物理两层指针将碎片化的显存灵活拼接在一起,从而实现一个整体。

GMLake对GPT、GLM、Vicuna等典型大型模型进行了详细评估,将可用显存扩展了高达33%左右,这意味着在80GB AGPU上节省了约25GB显存,训练吞吐量提高了最多 4 次。

据了解,GMLake 非常人性化,并且已经集成在 PyTorch 框架上。

对上层模型代码和框架代码完全透明,这意味着无需修改任何代码即可使用模型,真正做到开箱即用。

目前,GMLake的代码已经开源到GLake项目中。

GLake是蚂蚁集团自研的GPU内存+传输优化开源项目。

它在训练推理框架底层和系统层融合了内存和传输优化,更好地应对“内存墙”和“传输墙”的挑战。