“我们越来越不认为自己是硬件制造商。
”不久前,浪潮信息高层副总裁刘军向极客公园透露。
考虑到浪潮信息在国内服务器市场排名第一,这一观点有些出人意料。
此前,在今年的大机型创业浪潮中,浪潮信息也曾透露,内部大机型早在两年前就已在筹备。
这不可避免地引发猜测。
对于依赖硬件的浪潮信息来说,软件和大模型是否是一个新领域?作为全球领先的AI服务器供应商,浪潮信息看到了什么样的需求?近日,浪潮信息发布了大模型智能计算软件堆栈OGAI,又名“元脑生智”。
会上,浪潮信息高管就一系列话题进行了回应。
1、大模型时代的计算能力发生了变化。
浪潮信息董事长和彭震指出,大机型时代的算力供给和云时代的算力供给存在很大差异。
在云计算时代,客户可以购买云计算服务或设备,两种方式都是开放的,但财务投资模式不同。
然而,到了大模型时代,对算力的需求发生了很大的变化:大模型的研发往往达到10000KB。
作为大型模型研发单位,硬件设备投入超过数十亿。
在实际使用中,很多客户面临买不起、建不了、计算不好的困境。
对于市场的变化,浪潮信息AI架构总监曾比喻说,一个大型AI模型的算力集群就像一辆强大的法拉利,因为投资非常高,可能是上亿、上亿;但与此同时,人们还没有学会如何驾驭它。
这是当今市场上的一个常见问题。
当大量投资人工智能基础设施时,如何利用好它就成为一个非常大的挑战。
另一方面,对计算能力要求最高的大型模型开发场景也存在不少问题。
就连拥有强大AI能力的Meta,在训练千亿级大模型OPT时,也曾在工作日志中这样描述:我们不能连续训练超过1-2天。
有很多问题需要解决,浪费时间。
作为全球领先的AI服务器提供商,浪潮信息在看到不少一线用户存在类似上述需求和问题后,做出了自己的尝试。
事实上,在大模型热潮到来之前,浪潮信息就已经开始研发参数量达亿级的Source 1.0大模型。
浪潮信息董事长彭震表示,“两年前,浪潮信息构建大模型的目的其实是为了了解大模型技术在人工智能发展和演进过程中面临的挑战。
”浪潮信息人工智能与高性能应用软件部AI架构师Owen ZHU表示,开发“Source”大模型的团队遇到的第一个问题是如何快速部署包含数千颗GPU芯片的集群,以便能够快速投入使用。
进入商业领域?后来我们也遇到了大模型失效的问题。
在率先尝试训练具有强大生成式AI能力的大模型后,浪潮信息更加适应了大模型场景下算力的痛点,并逐步建立了训练大模型的全栈能力。
浪潮信息高级副总裁刘军表示,如何让算力更好地支持大模型的训练和开发,如何让更多的客户、更多的行业企业拥有开发和训练大模型的能力,从而使得(大模型)这个看似遥不可及的技术很快就进入了广泛采用的阶段,这充满了许多工程和软件系统的挑战。
现在,随着客户“+大机型”进程的加快,客户也会向浪潮信息反映各种问题,比如底层硬件、GPU、网络等无法使用、性能不佳等问题。
应用程序级别的性能较差。
因此,在提供硬件的基础上,浪潮信息选择进一步帮助客户解决大规模模型生产中可能遇到的问题。
基于自身探索“源头”大模型、服务客户的实践,浪潮信息建立了基于大模型的全栈能力。
不久前,浪潮信息推出了大模型智能计算软件堆栈OGAI(Open GenAI Infra),中文名为“元脑生智”。
OGAI为大型模型业务提供AI计算系统环境部署、算力调度保障和模型开发管理能力的全栈全流程智能计算软件栈。
2、定位释放算力、保障生产力的不仅仅是硬件厂商OGAI。
具体来说,OGAI是浪潮信息根据当前大模型算力建设、模型开发和应用实施的实际需求,秉承全栈全流程、充分释放算力、实际验证和应用的设计原则而打造的。
细化。
OGAI由5层架构组成,从L0到L4分别对应基础设施层的智能计算中心OS、系统环境层的PODsys、调度平台层的AIStation、模型工具层的YLink、模型工具层的MModel多模式管理层。
L0层智能计算中心操作系统:面向大模型算力服务的智能算力运维管理平台,满足基于裸机的多租户弹性AI算力运维需求。
其中,高效裸金属服务支持上千规模裸金属节点分钟级部署和按需弹性扩容,可一键获取异构计算芯片、IB、RoCE高速网络、高性能存储等环境,并实现计算、网络、数据隔离,保证业务安全。
L1层PODsys:开源、高效、兼容、易用的智能计算集群系统环境部署解决方案。
聚焦智能计算集群部署场景,全面覆盖从操作系统、驱动到系统监控可视化、资源调度等集群系统环境要素。
它选择最稳定、兼容广泛的软件版本,通过一系列脚本工具简化部署流程,缩短算力上线周期。
,并可为企业用户提供实施安装服务、集群性能校准的专家服务。
L2层AIStation:用于大模型开发的商用人工智能算力调度平台。
针对大模型训练中常见的训练中断问题,能够快速定位训练异常并自动断点恢复训练:通过快速定位芯片、网卡、通讯设备的异常或故障,实现全局训练的暂停和维持,热备算力可自动灵活更换。
,健康节点的快速检查点读取可以在断点处自动继续训练。
L3层YLink:用于大模型数据管理、预训练和微调的高效工具链。
专注于数据治理、预训练、微调等大模型的开发流程,集成了浪潮信息在大模型开发方面的自研工具和开源工具,如数据处理工具包(Y-DataKit)、大模型训练工具包(Y-TrainKit)和大模型微调工具包(Y-FTKit)等,通过这些多样化且齐全的工程和自动化工具,加速大模型的训练和开发效率。
L4层MModel:管理平台,提供多模型接入、服务、评估等功能。
核心组件包括数据集管理、模型管理和评估,可以方便开发者和研究人员更好地管理多版本、多类型的基础大模型和任务模型,并通过多样化的评估数据集和评估任务,综合评估多个模型根据生成精度、推理延迟、推理稳定性等指标进行评估。
浪潮信息资深副总裁、AI&HPC总经理刘军表示:“OGAI提供了完整的工程和自动化工具软件栈,将帮助更多企业成功跨过大模型研发应用门槛,充分释放大模型创新生产力”。
他说:“我们越来越不认为自己是一家硬件制造商。
”这背后是客户需求的驱动力,“当然我们的硬件是我们的强项,但如何进一步将这个硬件业务转化为生产力价值,我们必须了解客户的应用需求,了解客户的痛点,帮助客户解决问题。
浪潮信息不仅在硬件方面,而且在系统、软件、算法方面都有非常强大的团队和能力,这是帮助客户用好系统和硬件的非常重要的保证。
“事实证明,购买服务器就像购买手机或电脑一样。
只需购买并自己使用即可。
现在,随着对计算能力的需求不断增加,这个问题变得非常复杂。
通过智能计算系统软硬件的高度协作实现调度已成为新的需求。