当前位置: 首页 > 科技赋能

浪潮信息彭震:加快智能计算系统创新,有效解决大规模模型算力“买不起、建不了、计算不好”的问题,

时间:2024-05-19 16:56:27 科技赋能

,生成式人工智能的爆发带来了历史性的产业机遇,正在逐步改造和重塑社会、经济、文化等各个领域。

GPT-4、LLaMA2、文心、袁等大型模型在写文章、对话、规划、绘画、编码等多个领域表现出了惊人的创造力。

未来,AIGC与数字经济、实体经济深度融合,将创造更多颠覆性的社会经济价值。

生成式人工智能蓬勃发展的背后,算力尤其是AI算力成为驱动大型模型进化的核心引擎。

算力就是生产力,智能算力就是创新。

这已成为行业共识。

大模型时代的算力供应和云计算时代的算力供应有很大的区别。

大模型训练采用并行计算技术,将多台服务器组成计算集群,长时间完成单一、海量的计算任务。

这和云计算有很大的技术区别,云计算需要把一台机器拆分成很多容器。

目前,大型模型研发已进入万卡时代。

从事大规模模型研发的企业和团队普遍面临“买不起、建不了、算不好”的困境。

为了解决这一困境,需要通过算力基础设施改善算力供给,推动普惠算力,通过算力工程指导完善算力系统最佳实践,提高算力效率,使用模型训练降低模型训练门槛,推动全栈智能计算系统创新,通过“三化”融合互补促进产业链各环节协同,加速释放大模型生产力,为人工智能产业创造良好的发展环境。

算力的基础设施供应缓解了“买不起”的困境。

大型模型,特别是具有千亿参数的涌现和泛化能力的大型模型,是通用人工智能的核心。

然而,大型模型对海量计算资源的消耗,大幅提高了进入门槛。

按照ChatGPT在PF天的总算力消耗计算,自建、自研的大型模型往往需要数亿到数十亿的IT基础设施投资。

这使得大型模型不仅是一个技术密集型产业,也是一个资本密集型产业。

资本的力量在大产业发展中发挥着越来越重要的作用。

较高的资金门槛,让有技术能力的初创公司和团队面临“承受能力”的问题,发展困难。

创新。

为了解决这一困境,除了通过政策引导、政策补贴等方式降低企业融资成本外,还应大力发展普惠性、普惠性的智能计算中心,通过建设智能计算中心,使智能算力成为城市的公共基础资源。

的计算能力基础设施。

供用户按需使用,充分发挥公共基础设施的普惠价值。

用户可以选择自建计算集群,也可以使用智能计算中心提供的计算服务来完成大型模型的开发。

通过大力发展智能计算中心新型基础设施,中美大模型产业的发展呈现出截然不同的发展路径。

在美国,算力私有化决定了大规模模型产业技术只能掌握在少数公司手中。

中国大力推进的算力基础设施供应,为大规模模型的创新发展提供了沃土,这将使整个产业呈现“百倍”的增长。

模特大赛秀新格局。

计算效率工程解决“无法构建”大型模型计算系统的问题。

即使解决了算力供给问题,一般大型车型的开发仍然是一项极其复杂的系统工程,就像F1赛车的调校一样。

F1赛车的性能非常高,但是如何调整这辆车,使其既能跑出比赛中最快的圈速,又能保证比赛的完成,对整个车队的能力要求非常高。

大型模型训练需要大规模的AI计算系统来完成长时间的海量计算任务,算力效率非常重要。

算力效率越高,训练大型模型所需的时间就越少,可以赢得更多的时间窗口,降低更多的成本。

目前,大型模型的训练集群效率普遍较低。

例如,GPT3的集群训练效率仅为23%,相当于四分之三以上的计算资源被浪费了。

大型模型不应该是简单粗暴的“暴力计算”,算力系统的构建也不是算力的简单积累,而是一个复杂的系统工程,需要从多个方面进行系统的设计和架构。

首先是解决如何实现算力的高效率,这涉及到系统的底层驱动、系统层的优化、以及适应大模型的优化;二是解决如何保持算力系统的线性扩展性并在单机上获得。

算力效率高之后,还需要使算力系统能够在数百个服务器节点、数千个卡的大规模集群环境下高效运行,并保持相对线性的性能扩展比。

这是在整个算力集群系统的设计中。

以及并行策略设计,需要考虑的重要因素;三是计算系统长期稳定训练的问题。

大型模型的训练周期可以持续数周甚至数月。

硬件故障很常见,导致小规模训练,例如训练中断和梯度爆炸。

不会遇到的问题,以及缺乏工程实践,使得企业很难实现模型质量的快速提升。

因此,解决“无法构建”大型模型问题的根本原因在于提高算力效率。

但目前业界的开源项目主要集中在框架、数据、神经网络甚至模型等软件和算法层面。

硬件优化方法由于集群配置的差异,难以复用,一般都是封闭的。

这就需要有大模型实践的企业将其集群优化经验进行工程化,通过硬件开源项目、技术服务等方式帮助更多企业解决计算效率低下的问题。

使用模型训练工具来解决“计算能力差”的问题。

系统建成后,大型模型由于开发链条冗长,在训练过程中仍然面临着“计算能力差”的挑战。

从PB级数据的爬取、清洗、过滤,到大规模预训练的算法设计、性能优化、故障管理;从指令微调数据集的设计到人为反馈强化学习训练的优化……大模型训练不仅依赖于高质量的数据还必须解决算法收敛、断点续训、参数优化等问题模型微调。

数据质量、代码优化、执行效率等与训练质量相关的因素至关重要。

如果这些问题解决不好,就很难生产出商用的、高质量的大模型产品。

解决“坏计算”问题,必须从根本上保证大模型的长期、高效、稳定的训练。

例如,如果大模型训练过程失败,大模型训练将被中断,模型必须从最新的检查点重新加载才能继续训练。

这个问题目前是不可避免的。

提高计算系统的可持续性不仅需要更多的机械设计,还依赖大量自动化、智能化模型工具的支持。

基于模型训练工具的保障方法,可以有效减少断点续训时消耗的资源,这意味着大大降低训练成本,提高训练任务的成功率,让更多的企业和团队参与到大型模型创新中。

早在大模型热潮到来之前,浪潮信息就在2016年开始了参数量达亿级的Source 1.0的开发,通过亲身实践,洞察了大模型开发演进的需求和技术挑战。

目前,浪潮信息已经建立了大模型应用场景的整体解决方案。

特别是基于当前大模型算力建设、模型开发和应用实现的实际需求,开发了全栈、全流程的智能计算软件栈OGAI。

提供完整的工程和自动化工具软件栈,帮助更多企业成功跨过大模型研发应用门槛,充分释放大模型创新生产力。

快速发展的人工智能正展现出越来越强的泛化能力,但技术进步的不可预测性也越来越大。

为此,我们所能依靠的就是不断创新。

通过政策驱动、应用导向、产业建设等多种手段相结合,不断夯实大模型基础能力和原始创新能力,主动适应人工智能快速迭代和产业变革,有效提升大模型基础能力和原始创新能力。

有效解决大模型算力“买不起、建不了、计算不好”的问题。