,生成式人工智能的爆发带来了历史性的产业机遇,正在逐步改造和重塑社会、经济、文化等各个领域。
GPT-4、LLaMA2、文心、袁等大型模型在写文章、对话、规划、绘画、编码等多个领域表现出了惊人的创造力。
未来,AIGC与数字经济、实体经济深度融合,将创造更多颠覆性的社会经济价值。
生成式人工智能蓬勃发展的背后,算力尤其是AI算力成为驱动大型模型进化的核心引擎。
算力就是生产力,智能算力就是创新。
这已成为行业共识。
大模型时代的算力供应和云计算时代的算力供应有很大的区别。
大模型训练采用并行计算技术,将多台服务器组成计算集群,长时间完成单一、海量的计算任务。
这和云计算有很大的技术区别,云计算需要把一台机器拆分成很多容器。
目前,大型模型研发已进入万卡时代。
从事大规模模型研发的企业和团队普遍面临“买不起、建不了、算不好”的困境。
为了解决这一困境,需要通过算力基础设施改善算力供给,推动普惠算力,通过算力工程指导完善算力系统最佳实践,提高算力效率,使用模型训练降低模型训练门槛,推动全栈智能计算系统创新,通过“三化”融合互补促进产业链各环节协同,加速释放大模型生产力,为人工智能产业创造良好的发展环境。
算力的基础设施供应缓解了“买不起”的困境。
大型模型,特别是具有千亿参数的涌现和泛化能力的大型模型,是通用人工智能的核心。
然而,大型模型对海量计算资源的消耗,大幅提高了进入门槛。
按照ChatGPT在PF天的总算力消耗计算,自建、自研的大型模型往往需要数亿到数十亿的IT基础设施投资。
这使得大型模型不仅是一个技术密集型产业,也是一个资本密集型产业。
资本的力量在大产业发展中发挥着越来越重要的作用。
较高的资金门槛,让有技术能力的初创公司和团队面临“承受能力”的问题,发展困难。
创新。
为了解决这一困境,除了通过政策引导、政策补贴等方式降低企业融资成本外,还应大力发展普惠性、普惠性的智能计算中心,通过建设智能计算中心,使智能算力成为城市的公共基础资源。
的计算能力基础设施。
供用户按需使用,充分发挥公共基础设施的普惠价值。
用户可以选择自建计算集群,也可以使用智能计算中心提供的计算服务来完成大型模型的开发。
通过大力发展智能计算中心新型基础设施,中美大模型产业的发展呈现出截然不同的发展路径。
在美国,算力私有化决定了大规模模型产业技术只能掌握在少数公司手中。
中国大力推进的算力基础设施供应,为大规模模型的创新发展提供了沃土,这将使整个产业呈现“百倍”的增长。
模特大赛秀新格局。
计算效率工程解决“无法构建”大型模型计算系统的问题。
即使解决了算力供给问题,一般大型车型的开发仍然是一项极其复杂的系统工程,就像F1赛车的调校一样。
F1赛车的性能非常高,但是如何调整这辆车,使其既能跑出比赛中最快的圈速,又能保证比赛的完成,对整个车队的能力要求非常高。
大型模型训练需要大规模的AI计算系统来完成长时间的海量计算任务,算力效率非常重要。
算力效率越高,训练大型模型所需的时间就越少,可以赢得更多的时间窗口,降低更多的成本。
目前,大型模型的训练集群效率普遍较低。
例如,GPT3的集群训练效率仅为23%,相当于四分之三以上的计算资源被浪费了。
大型模型不应该是简单粗暴的“暴力计算”,算力系统的构建也不是算力的简单积累,而是一个复杂的系统工程,需要从多个方面进行系统的设计和架构。
首先是解决如何实现算力的高效率,这涉及到系统的底层驱动、系统层的优化、以及适应大模型的优化;二是解决如何保持算力系统的线性扩展性并在单机上获得。
算力效率高之后,还需要使算力系统能够在数百个服务器节点、数千个卡的大规模集群环境下高效运行,并保持相对线性的性能扩展比。
这是在整个算力集群系统的设计中。
以及并行策略设计,需要考虑的重要因素;三是计算系统长期稳定训练的问题。
大型模型的训练周期可以持续数周甚至数月。
硬件故障很常见,导致小规模训练,例如训练中断和梯度爆炸。
不会遇到的问题,以及缺乏工程实践,使得企业很难实现模型质量的快速提升。
因此,解决“无法构建”大型模型问题的根本原因在于提高算力效率。
但目前业界的开源项目主要集中在框架、数据、神经网络甚至模型等软件和算法层面。
硬件优化方法由于集群配置的差异,难以复用,一般都是封闭的。
这就需要有大模型实践的企业将其集群优化经验进行工程化,通过硬件开源项目、技术服务等方式帮助更多企业解决计算效率低下的问题。
使用模型训练工具来解决“计算能力差”的问题。
系统建成后,大型模型由于开发链条冗长,在训练过程中仍然面临着“计算能力差”的挑战。
从PB级数据的爬取、清洗、过滤,到大规模预训练的算法设计、性能优化、故障管理;从指令微调数据集的设计到人为反馈强化学习训练的优化……大模型训练不仅依赖于高质量的数据还必须解决算法收敛、断点续训、参数优化等问题模型微调。
数据质量、代码优化、执行效率等与训练质量相关的因素至关重要。
如果这些问题解决不好,就很难生产出商用的、高质量的大模型产品。
解决“坏计算”问题,必须从根本上保证大模型的长期、高效、稳定的训练。
例如,如果大模型训练过程失败,大模型训练将被中断,模型必须从最新的检查点重新加载才能继续训练。
这个问题目前是不可避免的。
提高计算系统的可持续性不仅需要更多的机械设计,还依赖大量自动化、智能化模型工具的支持。
基于模型训练工具的保障方法,可以有效减少断点续训时消耗的资源,这意味着大大降低训练成本,提高训练任务的成功率,让更多的企业和团队参与到大型模型创新中。
早在大模型热潮到来之前,浪潮信息就在2016年开始了参数量达亿级的Source 1.0的开发,通过亲身实践,洞察了大模型开发演进的需求和技术挑战。
目前,浪潮信息已经建立了大模型应用场景的整体解决方案。
特别是基于当前大模型算力建设、模型开发和应用实现的实际需求,开发了全栈、全流程的智能计算软件栈OGAI。
提供完整的工程和自动化工具软件栈,帮助更多企业成功跨过大模型研发应用门槛,充分释放大模型创新生产力。
快速发展的人工智能正展现出越来越强的泛化能力,但技术进步的不可预测性也越来越大。
为此,我们所能依靠的就是不断创新。
通过政策驱动、应用导向、产业建设等多种手段相结合,不断夯实大模型基础能力和原始创新能力,主动适应人工智能快速迭代和产业变革,有效提升大模型基础能力和原始创新能力。
有效解决大模型算力“买不起、建不了、计算不好”的问题。