当前位置: 首页 > 科技赋能

工业互联网浪潮下,浪潮AI的选择

时间:2024-05-20 01:06:16 科技赋能

如今的AI、物联网、5G正处于“混合”状态,创新不断加速。

5G已经成为推动万物互联的核心,很多应用场景将依赖AI的发展。

除了算法、数据、芯片之外,AI产业发展的关键要素还需要外部生态、金融、市场等支持。

2007年以来,越来越多的大公司和创业者把业务突破点和增长点放在To B赛道上,甚至深入垂直行业寻找商业化场景。

人工智能作为通用技术,在To B领域、工业互联网也有着广泛的应用场景。

人工智能围绕技术创新和产业应用稳步推进。

智领未来,仍需洞悉趋势、脚踏实地。

近日,浪潮AI首席算法架构师张清接受媒体采访,解读浪潮AI事业部发展及战略。

以下为部分采访实录,经编辑整理: 记者:我想问你一个问题。

浪潮此次展示的三款服务器以及AI超算服务器和极限计算密度AI服务器的相关方面目前有哪些应用?张清:因为浪潮想给我们提供一个AI方面的全阵列计算平台,加速AI训练算法的创新,然后深度学习训练模型算法完成后,我们会去推论实际应用来推理这个平台。

因此,这个训练和推理平台是比较完善的。

如果我们在这次会议上展出的话,其中三个是比较有代表性的。

所以在这三个型号中,我们的AGX-2是世界上密度最高的服务器。

它在两个空间中有八个GPU用于计算和加速。

此外,我们的高扩展性可以支持20个T4集群进行云计算。

它被称为 NFM5。

我们主要推荐的另一个是AGX-5,它在单机上的最大性能为两个千万亿次浮点运算。

16张GPU卡加速。

那么这些平台目前正在为互联网用户进行人、车辆和物体检测的视觉图像处理。

也有一些金融用户通过自己的私人数据平台和线下培训中心进行操作。

算法训练计算。

它还在其实际云上进行推理加速计算,对于已经定居在那里的用户来说还是非常(实用)的。

记者:我们最近和百度达成了人工智能合作。

双方在人工智能领域均拥有较强的技术能力。

两者有何交叉点和互补性?张清:其实百度在AI技术和算法方面应该有非常深厚的技术储备,比如人脸识别、OCR等,这些算法都有自己完整的算法库,所以浪潮其实现在我们说从角度来说说到AI计算,我们知道了AI的三大要素。

算法是一方面,第二是数据,第三是比较强大的计算能力。

所以浪潮将在计算端重新定位。

在计算方面,浪潮肯定会有一些相应的数据优势资源,一些政府数据什么的。

我们和百度的合作,首先可以使用百度的算法及其应用场景。

当我们具体落到一些特定的行业或者用户的时候,他可能会有这样的场景,比如一些人脸识别。

对于OCR的需求,就像金融领域的OCR一样,有很多OCR的场景需求。

通过他的算法和浪潮的计算平台,我们可以很好的整合解决方案,为我们这样的垂直用户提供最快的赋能方式。

因此,浪潮与百度的合作应该是优势互补。

这些优势还是很好的,有互补的作用。

从它的技术和我们计算对接的角度来说,我们当然在生态方面也有一些合作。

他们的Paddle桨可以说是中国自主研发的AI计算框架。

目前,下载量非常大。

这个框架也包含在我们整个AI工作站里面,占整个解决方案的比重。

我们也在进行合作推广。

生态。

记者:我看到人工智能技术可以应用到医疗卫生领域,具体如何落地。

据说还会开发一些医疗服务的应用。

这对于现实生活中的医疗过程有什么意义,或者说是关于什么的?我们能提供什么帮助?张清:现在人工智能已经应用于医疗领域。

还有更多场景。

可能主要是在科学研究的探索上。

当然,有些场景已经实现了。

比如一些医院可以有智能巡更,医院智能化。

对于巡逻来说,AI机器人可能会扮演医疗向导的角色。

这方面已经有一些相应的开发商和软件提供商。

他们先把AI技术搬进去,然后让它变得智能化,在一些巡逻场景中代替人。

这就是我们所看到的。

当然,也有一些场景。

例如,我们谈到了这些病变。

通过检测这些病变的位置,我们可以识别它们是良性还是恶性。

那么行业内很多科研机构包括医院研究机构都在这方面进行探索。

未来这个领域会引入一些AI技术,将会有大量的CT图像数据和核磁数据。

我们使用人工智能技术进行培训。

他可以在数据中找到这些,从而准确判断自己的病变是良性还是恶性,起到辅助诊断的作用。

AI辅助诊断可以在一定程度上代替医生的部分工作量。

这里还有另一个问题。

考虑到安全性,应作为辅助使用。

最终的决定还是由医生来做,所以目前还有很多医学方面正在探索中。

记者:有人说算力就是生产力,AI计算可能就是所谓的新生产力。

那么,在整个AI计算系统的设计和优化过程中,浪潮是如何将其部署到你背后的大架构上的呢?张清:从部署上来说,我们实际上有两个部分。

一是围绕用户培训的平台,利用相应的高速互联网网络将各个节点串联起来。

然后为了能够支持他们的训练任务,在这个训练架构上,我们会做一个单节点GPU内垂直扩展的优化,从8卡到16卡。

在横向方面,我们也会在架构方面。

比如本次综合训练中网络(拓扑)可能使用了10G网络互联,已经达到上限。

现在可以使用这种双IB。

G以上,达到G,训练模型速度更快。

所以目的就是我们需要制作大型的复杂网络和复杂的模型。

它可以在大型 GPU 平台上进行训练。

如果整个计算架构没有整体优化的话,即使给用户这么大的平台,这个平台的利用率也可能很低。

扩容效率较低。

所以我们正在考虑计算的水平扩展。

也为用户提供了一个比较大的平台。

第二个方面就是让他的在线推理能够跑起来,提高效率,扩大效率。

就是这样了。

在推理方面,我们更关注它的延迟吞吐量和功耗。

因为推理平台其实有很多。

如果我们发展了大规模的互联网用户,他们就会把他们的服务部署在云上。

因此,如果这个平台给了我们一些互联网用户,如果我们优化推理平台,就需要使用能源消耗。

较低的,比如FPGA。

我们的下端是比GPU功耗更低的计算架构来构建推理模型,所以浪潮会重点关注计算架构的功耗和延迟吞吐量来提高其性能。

优化这个系统并将其提供给我们的用户。

另一方面我们也在优化整个系统的配置,比如我们的AIStation资源管理平台。

至于这个平台,在我们早期,比如很多金融用户可能是分散的。

不同的GPU节点,这个工作组做图像识别,那个工作组做语音识别。

然后整个资源被分配和利用。

它的计算效率并不是最好的。

我们通过管理平台整合其全部资源,实现统一调度、管理、监控。

GPU的效率可以得到极大的提升。

记者:在今天早上的宣传视频中我说过,这个行业是一个非常大的生态系统,不是一家公司能够建成的。

我刚刚查了一下你提到的五个关键决策,里面好像提到了生态合作。

我想问一下,从浪潮开始,你们现在做得怎么样,包括与大企业的融合,促进大中型企业的发展。

人工智能行业为何特别强调生态协作?张清:首先,人工智能本身是一个相对开放、开源的环境。

当你看到这些模型时,如果它们来自大学或者一些公司,他们就会开放。

这样的话,开源出来之后,就会有更多的用户使用他的模型,更多的数据就会进来,然后他的算法就会被迭代,进一步更新优化。

嗯,整个技术,包括一些工具,都可以在我们开发的社区中找到。

人工智能对中国来说是一个很好的机会,可以继承和应用一些现有的(社区)技术。

它是一个可以实现弯道超车的技术,所以它包括了浪潮自己做的一些工具,我们也实现了像(TF2)这样的开源工具。

我们之前做的是Caffe-MPI,我们的框架也已经开源了,包括百度的paddlepaddle。

如果这个工具只是你家人使用的话,可以预见它的生命周期不会很长,因为它的技术迭代会非常快。

因此,我们需要影响更多的用户使用它。

从这个角度来说,我们需要多做开放和开元工作,促进合作。

所以对于浪潮来说,我们整个计算平台,我们需要更多的围绕计算平台来构建,从通用产品到处理整个数据,到整个标签,在整个训练和推理,其实这里面有很多环节,而且软件的很多部分也是在这里设计的。

浪潮可能不会说所有组件都要做好。

我们需要和我们的合作伙伴以及元脑有比较强的合作,这样才能构建一个比较适合用户的场景,为用户提供他所需要的整体解决方案。

所以这个机制是最快的,因为AI的迭代速度也很快。

如果我们等待一家公司完成这个软件的开发,那么我们认为我们的价值对于用户来说肯定会消失。

还有一个时效性问题。

因此,需要更多的用户和生态系统共同打造整体解决方案。

所以从这些方面来说,我们需要和生态伙伴加强合作。

这也是为了更快地为我们的用户提供支持。

记者:您认为此次人工智能大赛在山东举办的优势和挑战是什么,浪潮希望在其中扮演什么角色?张清:在山东,我们看到山东的环境,比如工业环境,比如制造业、高端制造以及我们所说的AI服务器,其实涉及到很多工业方面,比如谈到质检,包括生产线上的缺陷检测,其实这些传统的生产应用可能还是更多的依靠手工作业。

所以如果人工智能技术进来的话,在这类检查方面还是比较成熟的。

该技术目前的验证结果非常好。

山东对制造业的需求比较旺盛,人工智能技术可以很快结合和融合。

也就是说,在山东这个大的产业背景下,我认为AI有很大的发挥作用的空间,这是它的产业优势。

因为目前很多AI算法还处于黑匣子的形式,不具备可解释性。

所以对于一些需要特殊安全性的应用,比如医疗和自动驾驶,它们的实施会适得其反。

会比较慢,所以AI可以快速应用到提高生产效率、降低成本的场景。

我觉得这是在山东,那里的产业机会非常好。

这是第一个。

其次,山东在计算这样的AI产业上其实有着非常好的背景。

我认为这是由于在计算AI服务器和AI计算方面积累了一些优势,因此可以相应地激发更多的产业和机会。

进来吧,让我们一起发展AI产业。

记者:无论是在山东还是在省外,您能分享一下浪潮AI最具代表性的实施案例吗?张清:我们有几个。

我在这里简单提一下它们。

一是我们与平安科技在金融领域的深度合作。

平安科技实际上服务于其整个平安金融体系。

我们见过很多场景。

,您可能有一些汽车颠簸或划痕。

现在越来越多的数据可以直接传输到云端进行智能分析,然后再传输回来。

不一定需要交警去处理,所以这背后的原因是平安正在为一些AI场景提供支持。

平安有很多场景需要驱动。

浪潮正在与他合作,为他的场景提供计算支持。

我们跟他建立了伏羲的联合实验室,用我们的AGX-5,就是刚才提到的最强大的计算主机(训练)已经基于他云上的这些应用了。

这个平台是用来进行定制升级的,(从)他的云主机的训练平台来整合,所以这块我们也和他在这方面进行了合作,包括云计算平台,以及实验室的一些定制设计。

另外还有一加这样的手机用户,这意味着他们在这方面也有两个相应的合作。

一是跟我们计算平台的合作,第二方面就是刚才提到的资源管理平台(AI Station)的资源。

与管理平台合作就是一个典型案例。

记者:你们与平安的合作有哪些可以量化的方面?他所取得的成果有没有量化的指标?张清:我在这里举个例子,这不一定是安全的。

关于我们之前的AI站的效率,我们之前有一个安全用户。

他们原来的平台没有(引入并统一)我们的AI Station。

管理平台,它的整体资源使用效率只有40%,然后通过我们AI Station平台部署,对整个GQ资源进行统计和管理,经过调度后,整个利用率达到80%,这才是我们和他真正的区别根据具体情况进行定制,让我们的平台适应他们的场景,然后如何管理和使用他们的平台。

记者:您认为山东人工智能产业链从上游到下游的情况如何?哪个端或哪个领域更强,哪些方面还需要改进?张清:刚才我提到山东的时候,我觉得从场景方面来说,从AI场景的上层应用场景方面来说,我觉得就是我刚才说的。

有更好的环境,在这个应用场景或者背景下实现是可以预见的。

未来,应该有大量的企业将人工智能作为一个非常重要的战略方向。

他们的产品线和技术创新将引入人工智能,加速产品创新,增强竞争力。

我觉得从应用场景上来说,在这个细分领域已经具备了比较好的优势,能够发展并带动整个周边制造业。

现在转到最底层,就是基础设施计算层。

我认为以浪潮为龙头,我们也可以在整个计算领域拉领先。

基本上,浪潮可以打造一个大型共享计算平台,我们可以服务更多山东地区的企业用户。

政府可能牵头规划这么大的平台,我们可以合作建设整个平台。

记者:你们在建设这个大平台吗?嘉宾:有这样一个建议和想法,是围绕着计算基础的。

最底层的计算是IaaS层。

我们说它也有相应的技术优势。

然后转到这个方面,对应到中间的平台层,我们说平台层需要引入更多的合作伙伴来拉进来,然后包括一些相应的AI人才。

我们还需要做更多的补充或者一些相应的项目(开放)。

记者:您能分享一下浪潮AI团队在这方面业务所追求的目标吗?张清:商业目标。

事实上,我们的AI业务目前就在中国市场。

我刚才说了,它在中国市场已经占据了最大的份额,已经排在第一了。

我们希望能够在全球范围内发展。

未来,我们希望在全球业务上能够有更靠前的排名。

最后,我们浪潮未来的发展目标是在服务器领域。

要做到世界第一,我相信AI将会是我们整个服务器业务未来最大的驱动力。

我们说到AI,我们也希望做到世界领先。

记者:回顾过去,现在您更关注什么?张清:我目前关心的其实是从浪潮的角度来看。

第一,我们整个平台能够更好的在整个行业中使用,获得更好的应用效果,所以这个应用效果需要我们。

要做更多的工作,浪潮不仅在基础计算平台上为用户提供了一些硬件平台,我们希望从应用的角度来使用它。

现在人工智能只是冰山一角。

现在一些传统用户需要人工智能。

AI的能力,比如AI的应用算法能力,或者工具的提供,那么这方面还是需要很多的支持。

当然,我们会更好地从应用的角度结合用户的场景,帮助他从传统算法向AI算法的迁移和过渡,首先可以让他看到AI的效果,然后真正让他的场景AI化——喜欢(升级)。

记者:我有一个问题。

我有一个不太明白的概念,我想告诉你。

例如,IDC发布了一份关于中国人工智能基础设施的市场研究报告。

其中,我们的AI服务器市场份额超过一半。

这两者之中我觉得有一个概念上我不太理解的东西,AI服务器。

应该是服务器吧?也就是说,我们具备AI能力的服务器占据了一半以上的市场份额,但这份报告是一份关于AI基础设施的市场研究报告。

我认为AI基础设施可能会用在服务器上,但也可能是一个单独的业务。

这个行业或者这个报告对应的行业是怎么划分的?张清:其实你刚才问的问题是一个比较专业的问题,因为他没有提到基础设施。

服务器是基础设施,云也是基础设施。

基础设施可能有多种形式。

当时我们在跟踪IDC做报告的时候,其实是纳入统计的。

看统计份额,大概是浪潮、惠普、华为、联想。

事实上,他真正看到的维度还是那么几个。

服务供应商,你为什么问这个问题?这里面有一个云,因为可能在AI领域,即使我把它云化之后,它仍然使用专用服务器,所以这个份额实际上还是落在这些服务商身上,比如说基础设施方面,阿里云也提供它,但它提供基础设施服务。