当前位置：首页 > 科技赋能

浪潮信息彭震：加快智能计算系统创新，有效解决大规模模型算力“买不起、建不了、计算不好”的问题，

时间：2024-05-19 16:56:27 科技赋能

，生成式人工智能的爆发带来了历史性的产业机遇，正在逐步改造和重塑社会、经济、文化等各个领域。

GPT-4、LLaMA2、文心、袁等大型模型在写文章、对话、规划、绘画、编码等多个领域表现出了惊人的创造力。

未来，AIGC与数字经济、实体经济深度融合，将创造更多颠覆性的社会经济价值。

生成式人工智能蓬勃发展的背后，算力尤其是AI算力成为驱动大型模型进化的核心引擎。

算力就是生产力，智能算力就是创新。

这已成为行业共识。

大模型时代的算力供应和云计算时代的算力供应有很大的区别。

大模型训练采用并行计算技术，将多台服务器组成计算集群，长时间完成单一、海量的计算任务。

这和云计算有很大的技术区别，云计算需要把一台机器拆分成很多容器。

目前，大型模型研发已进入万卡时代。

从事大规模模型研发的企业和团队普遍面临“买不起、建不了、算不好”的困境。

为了解决这一困境，需要通过算力基础设施改善算力供给，推动普惠算力，通过算力工程指导完善算力系统最佳实践，提高算力效率，使用模型训练降低模型训练门槛，推动全栈智能计算系统创新，通过“三化”融合互补促进产业链各环节协同，加速释放大模型生产力，为人工智能产业创造良好的发展环境。

算力的基础设施供应缓解了“买不起”的困境。

大型模型，特别是具有千亿参数的涌现和泛化能力的大型模型，是通用人工智能的核心。

然而，大型模型对海量计算资源的消耗，大幅提高了进入门槛。

按照ChatGPT在PF天的总算力消耗计算，自建、自研的大型模型往往需要数亿到数十亿的IT基础设施投资。

这使得大型模型不仅是一个技术密集型产业，也是一个资本密集型产业。

资本的力量在大产业发展中发挥着越来越重要的作用。

较高的资金门槛，让有技术能力的初创公司和团队面临“承受能力”的问题，发展困难。

创新。

为了解决这一困境，除了通过政策引导、政策补贴等方式降低企业融资成本外，还应大力发展普惠性、普惠性的智能计算中心，通过建设智能计算中心，使智能算力成为城市的公共基础资源。

的计算能力基础设施。

供用户按需使用，充分发挥公共基础设施的普惠价值。

用户可以选择自建计算集群，也可以使用智能计算中心提供的计算服务来完成大型模型的开发。

通过大力发展智能计算中心新型基础设施，中美大模型产业的发展呈现出截然不同的发展路径。

在美国，算力私有化决定了大规模模型产业技术只能掌握在少数公司手中。

中国大力推进的算力基础设施供应，为大规模模型的创新发展提供了沃土，这将使整个产业呈现“百倍”的增长。

模特大赛秀新格局。

计算效率工程解决“无法构建”大型模型计算系统的问题。

即使解决了算力供给问题，一般大型车型的开发仍然是一项极其复杂的系统工程，就像F1赛车的调校一样。

F1赛车的性能非常高，但是如何调整这辆车，使其既能跑出比赛中最快的圈速，又能保证比赛的完成，对整个车队的能力要求非常高。

大型模型训练需要大规模的AI计算系统来完成长时间的海量计算任务，算力效率非常重要。

算力效率越高，训练大型模型所需的时间就越少，可以赢得更多的时间窗口，降低更多的成本。

目前，大型模型的训练集群效率普遍较低。

例如，GPT3的集群训练效率仅为23%，相当于四分之三以上的计算资源被浪费了。

大型模型不应该是简单粗暴的“暴力计算”，算力系统的构建也不是算力的简单积累，而是一个复杂的系统工程，需要从多个方面进行系统的设计和架构。

首先是解决如何实现算力的高效率，这涉及到系统的底层驱动、系统层的优化、以及适应大模型的优化；二是解决如何保持算力系统的线性扩展性并在单机上获得。

算力效率高之后，还需要使算力系统能够在数百个服务器节点、数千个卡的大规模集群环境下高效运行，并保持相对线性的性能扩展比。

这是在整个算力集群系统的设计中。

以及并行策略设计，需要考虑的重要因素；三是计算系统长期稳定训练的问题。

大型模型的训练周期可以持续数周甚至数月。

硬件故障很常见，导致小规模训练，例如训练中断和梯度爆炸。

不会遇到的问题，以及缺乏工程实践，使得企业很难实现模型质量的快速提升。

因此，解决“无法构建”大型模型问题的根本原因在于提高算力效率。

但目前业界的开源项目主要集中在框架、数据、神经网络甚至模型等软件和算法层面。

硬件优化方法由于集群配置的差异，难以复用，一般都是封闭的。

这就需要有大模型实践的企业将其集群优化经验进行工程化，通过硬件开源项目、技术服务等方式帮助更多企业解决计算效率低下的问题。

使用模型训练工具来解决“计算能力差”的问题。

系统建成后，大型模型由于开发链条冗长，在训练过程中仍然面临着“计算能力差”的挑战。

从PB级数据的爬取、清洗、过滤，到大规模预训练的算法设计、性能优化、故障管理；从指令微调数据集的设计到人为反馈强化学习训练的优化……大模型训练不仅依赖于高质量的数据还必须解决算法收敛、断点续训、参数优化等问题模型微调。

数据质量、代码优化、执行效率等与训练质量相关的因素至关重要。

如果这些问题解决不好，就很难生产出商用的、高质量的大模型产品。

解决“坏计算”问题，必须从根本上保证大模型的长期、高效、稳定的训练。

例如，如果大模型训练过程失败，大模型训练将被中断，模型必须从最新的检查点重新加载才能继续训练。

这个问题目前是不可避免的。

提高计算系统的可持续性不仅需要更多的机械设计，还依赖大量自动化、智能化模型工具的支持。

基于模型训练工具的保障方法，可以有效减少断点续训时消耗的资源，这意味着大大降低训练成本，提高训练任务的成功率，让更多的企业和团队参与到大型模型创新中。

早在大模型热潮到来之前，浪潮信息就在2016年开始了参数量达亿级的Source 1.0的开发，通过亲身实践，洞察了大模型开发演进的需求和技术挑战。

目前，浪潮信息已经建立了大模型应用场景的整体解决方案。

特别是基于当前大模型算力建设、模型开发和应用实现的实际需求，开发了全栈、全流程的智能计算软件栈OGAI。

提供完整的工程和自动化工具软件栈，帮助更多企业成功跨过大模型研发应用门槛，充分释放大模型创新生产力。

快速发展的人工智能正展现出越来越强的泛化能力，但技术进步的不可预测性也越来越大。

为此，我们所能依靠的就是不断创新。

通过政策驱动、应用导向、产业建设等多种手段相结合，不断夯实大模型基础能力和原始创新能力，主动适应人工智能快速迭代和产业变革，有效提升大模型基础能力和原始创新能力。

有效解决大模型算力“买不起、建不了、计算不好”的问题。

上一篇：第三届北京致远大会开幕，全球最大智能模型“启蒙2.0”发布

下一篇：腾讯亮相2023世界人工智能大会，展示“科技向善”新成果

浪潮信息彭震：加快智能计算系统创新，有效解决大规模模型算力“买不起、建不了、计算不好”的问题， 相关文章