当前位置: 首页 > 科技赋能

张鹏对话无问芯穹夏立雪:中国的Scaling Law是场景优势,异构算力解决大模型实现问题

时间:2024-05-19 16:41:36 科技赋能

Scaling Law已经成为大模型进化的“必由之路”。

参数数量越多,数据集规模越大,计算能力消耗越大,大模型的性能越好。

与海外大型模型公司相比,国内大型模型公司将面临更严峻的算力问题、资金、显卡购买限制等,让很多人质疑中国大型模型是否存在缩放法则?联合创始人&CEO夏立雪认为,“我认为规模化法则在中国可以有另一种解释,那就是应用场景的规模化法则。

”而他们推出的“MxN”架构“解决了一堆类似的大型模型如何能够在不同的卡上运行,最终以水、电、气等资源的形式被开发者使用。

”在他看来,“今年大模式的核心任务是落地,落地的症结在于成本效益。

” 4月10日,创始人&总裁张鹏与夏立雪在极客公园的现场对话中,讨论了大模型的缩放定律、国内算力问题以及大模型的实现,并试图提出一些建议。

01 CUDA是NVIDIA的壁垒,推理场景是未来算力的重点 张鹏:从您的角度来看,上个月的GTC有哪些值得关注的地方? 夏立雪:大概从2019年的GTC开始,大家都关注的焦点。

一直在NVIDIA最新的显卡上,包括这次发布的最新B系列显卡(Blackwell B),B系列还是有很多技术改进,比如显存增加了一倍;协议的使用;整个互连的带宽得到了很大的提升,这说明随着技术的发展,Nvidia仍然走在时代的前列,可以说是非常有决心做更大的系统项目。

因为这些升级确实是为了“构建更大的训练体系”。

但有些指标确实还有讨论的空间。

比如有的新闻会提到30倍的提升。

目前还没有找到明确的证据证明这一点。

我们推测这可能是某些特定场景下的数据。

例如,如果规模足够大,其原有的H系列显卡出现饱和度损失时,这个对比结果可能会实现30倍的提升。

目前我们看到的最核心的改进是,B系列在两块显卡叠加的情况下实现了大约两倍的性能,且没有明显的性能损失。

总体而言,这次发布会并没有出现什么夸张的“黑魔法”改进,但确实证明了NVIDIA在Scaling Law这件事上做出了一些扎实的系统级技术升级。

张鹏:前两天安科的杨猛分享了一个观点。

他认为,从长远来看,英伟达仍面临巨大的挑战和不确定性。

存储与计算的融合是未来的希望,而本次发布会上并没有相应的计划。

您是否有任何大家都忽视的非共识发现?夏立雪:其实英伟达能够持续领先的核心原因之一就是它目前拥有大量的用户,所以它能够看到未来的方向,然后将这个方向落实到自己的下一代产品中。

所以我们可以分析它的一些新特性,看看它在想什么。

在这次发布会上我看到的一件事是,B系列的功能指标中正式加入了4位(FP4)浮点数,这是之前H系列所没有的。

考虑到H系列的8位数字(如FP8)在训练中还没有广泛应用,这个4位数字一定不是为了训练大模型,而是为了如何推断大模型最终的实现,所以让更多开发者能够享受 NVIDIA 显卡带来的好处。

因此,NVIDIA也在考虑,除了帮助你制作更大规模的模型之外,是否还能帮助你在特定场景下更好地实现模型。

而且根据NVIDIA最新的财报可以推断,这个场景的营收占比已经接近40%,实际上已经超出了业界对其的预期。

此前,华尔街的预测训练和推理的比例是8:2,但现在英伟达单独做到了6:4。

因此,无论是从Nvidia已经获得的实际回报来看,还是从未来战略规划的角度来看,都会更加支持推理场景的使用。

张鹏:传统上有很多优秀的芯片公司,比如英特尔、AMD;包括现在,也有很多新锐企业不断涌现。

为何英伟达能达到今天如此伟大的高度?夏立雪:英伟达的核心竞争力在于,它始终知道下一代芯片会表现出什么指标,能够服务于下一个时代的任务。

那么它为什么知道这一点呢?然后我们来谈谈它的CUDA生态系统。

在AI领域,这是Nvidia最重要的障碍。

每一个硬件都有一个接口,接口就相当于一本使用说明书。

开发者通过“使用说明书”来使用其硬件。

NVIDIA很早就投入了大量的人力来构建自己的CUDA开发生态系统,使得这本手册非常容易阅读,让所有开发者都能轻松使用NVIDIA硬件。

所以基本上从上一个AI时代开始,所有最先进的模型和应用程序都运行在NVIDIA的CUDA上。

这样就形成了良性循环。

大家都会自发地在Nvidia的卡上开发自己的新功能,Nvidia就享受到了这样的红利。

与此同时,其竞争对手必须投入额外的人力将这些功能移植到自己的环境中。

这相当于英伟达什么都不用做,而它的竞争对手却做了两倍的工作。

这其实是NVIDIA的核心壁垒,也是其在硬件上无法产生代际领先地位的情况下能够维持“霸主地位”的核心原因。

当然,这件事也不是完全不可动摇的,因为大模型的出现。

上一个时代的AI模型需要针对每个场景进行一套软件优化。

例如,卷积神经网络是用于视觉的模型;递归神经网络是一种用于语言处理的模型……这样一来,大家必然会趋同,在同一个语言系统中完成自己的开发。

比如说,现在我用CUDA积累了一套东西,我自然会把里面的一些通用的东西转移到其他场景中。

这件事实际上构成了NVIDIA CUDA生态系统的厚度,但是大模型却使这个生态系统变薄。

由于大模型之间的结构差异并没有那么大,所以我不再需要培育大模型。

大家更追求的是算下来便宜不便宜。

从这个角度来看,其他硬件厂商还有更多的机会。

所以这就是为什么在大机型出来之后,AMD、Intel等都非常快的发布了自己的一些核心软件和产品,因为他们也看到了这一点。

02 中国的扩容法则是场景优势的张鹏:回望中国,我们仍然要面对算力天花板的问题。

前段时间,有朋友甚至提出了一个特别悲观的观点:中国真的存在缩放法则吗?因为缩放定律理论上需要无穷的算力来支持AGI,但在中国是有算力上限的。

最终或许没有办法真正享受到缩放法则的技术红利?对于这个观点你怎么看?夏立雪:这个词出现之前,它的来源是一篇OpenAI的论文。

那篇论文的核心是,当我们想要训练一个模型并做出最好的预测时,要遵循哪些规则?提到影响Scaling Law的因素其实有两个,不仅仅是算力,还有数据。

关于缩放法则的观点已经在 OpenAI 和 Llama 上发生过一次冲突。

OpenAI Scaling Law的逻辑是,使用更大的计算能力和数据可以更有效地获得好的大模型,这纯粹是从训练模型的成本效益的角度来看的。

Llama的想法是模型最终会被实现,所以在最终的模型推理阶段应该考虑性价比。

然后以推理为目标,将数据不断叠加到“差不多”规模的模型上,最终得到数据层面的Scaling。

法律。

这个场景似曾相识。

回顾互联网时代和移动互联网时代,一些技术起源于欧美,然后在中国爆发。

因为中国首先拥有最多的用户和场景数据,我们也有很多可以实现应用场景的公司和开发者。

所以我觉得Scaling Law在中国可以有另一种解释,就是应用场景的Scaling Law。

假设我们首先有一个模型,已经达到了基础水平,并且能够在各个行业中使用。

赋能千行百业,是否意味着每个行业都要积累高质量的数据?一旦您获得新的高质量数据并将其应用到模型中,您就可以快速转动数据飞轮。

可以说,算力缩放定律提高了一个行业本身的产值,而场景缩放定律解决的是渗透问题,即如何将大模型渗透到各行各业。

我们在这件事上有优势,可以对缩放法则有自己独特的定义。

张鹏:您对国内算力市场的长期判断是什么?夏立雪:首先,我们用脚投票。

这就是为什么我们要做“MxN”,因为我们相信NVIDIA并不是唯一的计算能力制造商。

当然,NVIDIA在国内算力市场依然占据主导地位,但是我们也看到很多厂商,无论是AMD还是我们合作的其他芯片厂商,都已经逐渐开发出了一定的能力来与NVIDIA进行比较。

但每个人都缺少的是所谓的下一个客户。

只是没人知道你能用,所以没人会大规模地用你,也没有人知道你能用。

那么如何解决这个问题呢?我们也告诉我们的模范伙伴不要同时做两件非常不确定的事情。

该模型属于您。

把算力的不确定性留给我吧。

您可以先在我们的 Infini-AI 上运营业务。

我可以向你证明,其他卡也可以让你把生意经营得好、快、省钱。

我们能和这么多芯片厂商保持良好的关系,因为他们也需要我们帮助他们证明自己的实力;他们还需要我们的优化能力来帮助他们做得更好;他们需要我们打通产业链。

回到最初的问题,我认为NVIDIA仍然领先市场,但未来肯定会有非NVIDIA的市场。

张鹏:什么是多异构计算能力?它为什么如此重要?夏立雪:本质上是因为国内特殊的生态。

如果有足够的NVIDIA芯片,如果大家都用NVIDIA就好了,但现在的问题是NVIDIA芯片不够。

那么为什么我们需要异质性呢?因为国内生态还比较分散,每个人都有自己的一亩三分地可以耕种。

因此,市场将在很长一段时间内持续处于这种状态:有很多选择供大家使用,而这些选择又比较分散。

不可能每个人都拥有足够的NVIDIA芯片,所以无论是大型模型厂商还是应用厂商,都需要适配很多芯片。

那么我们能否协调这些需求并最终将其转化为对每个人都有用的服务呢?相当于做了一件每个人都必须做的事情,但是我们为每个人做了。

原来大家要做MxN次的开发,但无问芯穹已经通过自己的平台连接了M类模型、应用和N类芯片,所以整个生态只需要做M+N次适配,不需要造成更多浪费。

这实际上是中国算力市场的独特情况所创造的机会。

03 推荐与训练一体化是未来,Transformer架构不会很快被颠覆。

张鹏:如何理解“推理即训练”这个概念?夏立雪:这是非常重要的一点。

我们如何了解人的核心能力?有人说是使用工具,但猴子也会使用工具;有人说是社会分工,其实蚂蚁也有社会分工。

因此,我明白一个人的核心能力就是不断学习,能够将智慧代代相传,不断迭代。

这是一个文明成长的基础。

我们目前训练模型的方法,基于现有的技术限制,是预先训练一个模型,然后在相应的场景中使用它。

返回的结果可以成为新的数据集,从而允许模型进行迭代。

就像软件升级一样,iOS13今天发布,明天就会升级到iOS14。

但事实上,人并不是这样的。

上午考试的一道题错了,下午就不会再犯同样的错误了。

所以一个理想的情况是训练和推理融为一体。

我们可以在持续使用的过程中实时向系统提供数据,然后系统会立即产生反馈。

这种模式在之前互联网时代的行业中其实已经得到了应用,那就是广告投放系统。

一旦您不点击该广告,下次它很可能不会向您发送类似的广告;一旦您点击广告,它就会立即知道您的偏好。

但这个系统在当时能够很快被使用,是因为它价格实惠,而且整个训练和推理的成本可以支持系统7x24的持续学习和运行。

现在大型号的成本太高了。

如果既有训练又有推理,则无法支撑全部成本。

所以这件事现在还处于一个目标的状态,但是我觉得是一个非常重要的方向。

张鹏:从某种程度上可以理解,如果你培养通用人工智能,没有明确的目标,那将是一件成本非常高的事情;但如果目标是强化某项能力的智力,目标非常明确,可能会有不同的路径。

其实这就是企业的作用。

过去,只要满足了业务需求,这部分技术就会快速发展。

因此,谁先创造了业务闭环,谁就可能在智能化方面发展得更快。

这种说法也是有道理的,而且不一定只取决于算力的绝对值。

张鹏:除了GPU之外,您认为还有哪些芯片解决方案值得关注?夏立雪:我认为首先,NVIDIA代表了一个方向,就是像GPU这样的大规模并行计算。

在Transformer的结构下,它是最高效的执行逻辑类型。

AMD包括一些国内厂商也在开发自己的类GPU架构。

我认为这绝对有一个很好的空间。

大型模型基于GPU架构而诞生,GPU又因大型模型的增长而快速发展。

Transformer的结构不会被快速、本质地颠覆。

它吸收了人类的大部分知识。

创造一个新的“神”并“对抗”它会更加耗时和昂贵。

所以现在没人有动力去完全构建一个新的架构来颠覆GPU。

沿着这条路看,除了GPU架构之外,还会有人做一些完全针对Transformer结构的硬件,这也值得期待。

张鹏:有人提到了SambaNOVA公司,就是按照你提到的思路,进一步强化Transformer,形成一个完整的体系。

你喜欢这样的公司吗?夏立雪:我们还是希望更多的人去探索,这有利于行业的健康发展。

但这里有一个非常核心的问题,那就是硬件的发展必须不断与场景结合,核弹不能悄无声息地造出来。

大家看硬件未来发展的时候,一定要看到它如何能够有规划的路径,能够不断吸收新的计算范式,实现硬件的不断迭代优化。

人工智能为软硬件联合优化提供了非常好的基础。

因为在之前的时代,很多任务的软件和硬件设计是分离的。

但由于人工智能模型是可调的,因此在设计过程中可以考虑硬件的结构,设计出既能满足任务又能达到最高计算效率的硬件。

这就是人工智能为软硬件联合设计提供的独特空间。

我想这在未来会有更大的价值。

04 无问芯穹致力于将算力、大模型转化为水、电等基础资源。

张鹏:无问芯穹这个名字从何而来?感觉很浪漫,不像你们理工科的风格。

夏立雪:吴字是清华电子系的简称。

由于电子系的前身是20世纪80年代的无线电系,所以电子系又称为吴系。

“无文”、“无琼”都是清华大学校歌中的歌词,与我们公司的理想愿景非常吻合。

不要问芯片和智慧的极限在哪里,只管探索。

所以我就选择了这样一个名字。

张鹏:在芯片领域,无问芯穹看到了哪些机遇,想要解决哪些问题?夏立雪:一方面,由于大模型统一了模型的结构,实现了更通用的任务,所以出现了新的需求,需要软硬件的联合优化。

另一方面,由于大模型削弱了CUDA的生态壁垒,加上国内硬件和算法生态日益繁荣,中间形成了一条鸿沟,就是模型和硬件的连接问题。

作为最终客户,他其实并不关心模型、算力等问题。

他关心的是大模型能给我的应用场景带来什么。

所以作为无问芯穹,我们有两个核心任务。

一是连接不同的模型和不同的硬件,我们称之为“MxN”,即M个不同的大模型和N个不同的硬件之间的统一部署和联合优化。

相当于把大家联合起来,形成合力,为最终的行业客户提供更好的模型和算力服务,最终推动大模型在中国独特的应用场景中爆发。

第二个任务是算账。

建模不仅仅是匹配的问题,更重要的是如何算账才能达到最终的性能。

所以在解决了前面的易用性之后,我们更重要的是要做从模型到硬件的深度优化。

这两点是我们团队积累的基本能力,这让我们愿意在这样的时间点创办这样一家公司,来推动整个行业的发展。

张鹏:这听起来与 CUDA 的做法非常相似。

你和CUDA有什么区别?夏立雪:可以理解为CUDA解决的是一堆不同的模型如何在NVIDIA芯片上运行的问题;我们解决的是如何让一堆类似的大模型跑在不同的卡上,最后用一张资源把水、电、气等资源以资源的形式提供给开发者。

相当于我们把原本不同的资源统一起来,变成一套服务,提供给最终需要算力和模型的客户。

就像你用电的时候,你不需要关心是风电还是火电。

电力本身是一种统一的资源。

这就是我们正在做的事情。

张鹏:听起来无问芯穹正在做类似中间层的事情。

这项工作在今天听起来需求量很大,但未来它的价值会被模型或计算能力侵蚀吗?夏立雪:这里其实有两点。

首先,国内算力整体供不应求。

一方面,很多软件公司找不到好的算力,另一方面,很多芯片厂商也找不到好的客户来使用他们生产的算力。

在这种供需关系下,中间层具有非常大的价值,因为它相当于打通了供应链。

这就是中间层本身存在的产业层的价值。

那么我们团队的核心就是提升我们的优化能力,最终为大家提供一个性价比高、极致的优化。

我们团队对从联合模型到硬件的跨层优化非常有信心,是相关领域最强的团队。

我们在这方面积累了经验,因为我们想和上游硬件厂商、下游模型厂商一起解决大模型实现的问题。

因为现在其实很多型号都有,但是成本卡住了。

这是我们行业共同的使命,在这个使命中我们的终极优化能力非常重要。

在实现使命的过程中,它已经能够实现产业价值。

05 今年大模型的核心任务是落地,症结在于性价比的张鹏:百度、腾讯、智浦都投资了无问芯穹。

一家初创公司一出现就得到行业重要人士联合支持的情况并不多见。

这个过程中你们是怎么说话的?他们是如何对你形成如此明确的共识的?夏立雪:首先肯定是因为我们队的技术积累还是大家需要的。

因为在这个大模型时代,实际需要的是最终的计算,这涉及到很多性价比的优化。

在这个过程中,包括我们优化模型和硬件的能力,以及我们帮助大家使用各种卡的能力,这些都是行业所需要的。

这些其实都是下游厂商,专门做场景的,所以我们可以帮助他们提供资源补充。

这就是我们在行业中的地位。

那么我们核心的优化能力就是帮助大家提高性价比。

因为今年大模型的核心任务是落地,落地的症结在于成本效益。

这件事需要我们和模型厂商、硬件厂商共同努力。

模型厂家所做的就是把模型做得更精致;硬件厂商所做的就是提供更好的计算能力;我们做的就是如何让这些精细化的模型与硬件更加紧密的结合。

当这件事最终得到扭转时,我们可以将大型模型的实现成本降低几个数量级,才能带动整个行业向前发展。

张鹏:那么你认为他们最终认识到无问芯穹的价值是因为它能够有效解决多种异构算力的问题,还是因为从长远角度对性能进行了优化?夏立雪:我认为两者同样重要,而且两者是相匹配的。

计算能力的持续短缺是因为每个人都在构建更大的模型。

一方面我们面临着计算能力的短缺,另一方面我们也面临着非常高的成本。

所以这两种价值观都会持续下去。

而在目前的国际形势下,做本土化、异质化是一条非常明确的路径。

于是无问芯穹坚定地选择了这条道路。

张鹏:像你这样的能力,如果加入一个大的模型公司,他们会变得非常有竞争力。

你以前有没有想过这个问题?你为什么最终成立了一家独立公司?夏立雪:这有点像我们刚才讨论尺度法则时的意见分歧。

最终目标是让大模型赋能千行百业,但实现这一目标有不同的路径。

我们可以选择先最大化我们的智能能力,准备最好的训练基础设施,然后逐步解决实施问题。

现在也可以选择在各行各业使用大型号。

无问芯穹为何要构建独立的中层生态?因为我们想做包容性的事情。

一方面,我们与大型模型厂商合作,帮助他们探索智能的极限。

另一方面,我们也希望帮助现有的软件企业作为数据和场景的持有者,快速使用先进技术。

比如前段时间我们发布了MaaS(Infini-AI),可以让小型开发者轻松使用这些算力和模型。

做这样普惠的事情,可以让整个生态快速赚钱。

吴琼Infini-AI体验地址:无问芯穹是智能计算运营者。

未来,每个公司都会有自己的智能计算资源部门。

张鹏:“MxN”听起来是一个非常复杂的问题。

您的团队有信心做到这一点。

这样做的底气从何而来?夏立雪:我们的团队来自清华大学电子系,包括公司创始人、清华大学电子系主任王宇教授。

我也是王宇教授的学生。

我们实验室实际上从2009年开始就在针对各种场景做软硬件联合优化,其中人工智能是一个非常重要的场景。

软件联合优化其实就是解决类似“MxN”的问题,这是我们十几年积累的。

只不过以前的时代有各种各样的模式,而我们更多的是处于学术研究阶段。

已经形成了一套方法论,可以对每个不同的小模型进行终极优化。

虽然这件事本质上还是需要对模型进行优化,但是这次我们可以更方便地做到这一点。

今天,大模型的机会告诉我们,现在市场需要的不再是每个模型都做一遍,而是针对这个大语言模型做更深入的优化。

我们发现我们积累了十几年的技术终于可以用在一个有针对性、足够大的场景上。

这使得我们可以成立一家公司来做这件事,总体投资回报率非常高。

所以在这个时候,我们有信心去做。

张鹏:很多人都会想到你作为编译器所做的事情。

您认为无问芯穹依靠什么样的制度来创造价值?你能用一句话概括一下吗?夏立雪:像编译器这样的词更多是对技术定位的解读。

我们的技术栈不仅仅是一个编译器,最终的呈现也不仅仅是一个软件。

我觉得我们相当于智能计算领域的一个运营商。

就是给每个人提供算力和模型,作为像水、电、气一样的基础资源。

张鹏:我们可以扩展算子的概念吗?夏立雪:一开始人们会认为基础设施就是电、房子、服务器等,后来大家都认为算力也是基础设施。

然后随着大模型的爆发,有人说token是未来的基础资源。

如果说算力是基础资源的话,那么我就相当于一个运营商,因为我实际上是把各种异构、跨地域的算力整合起来提供给客户。

如果token最终成为基础资源,那么我们实际上就是这个基础资源的提供者。

从不同的角度来看,我们的定位会有一些差异。

这可能取决于每个人之前的行业积累——他习惯用哪个角度来看待。

张鹏:我从业内了解到,去年这个时候,帮助企业部署私有模型可以获得数千万的收入。

但好像从去年年中开始,价格就开始跌到了几百万,甚至几十万。

那么我想了解近一年来企业培训和使用模型的成本下降趋势如何?包括以后会是什么样子,会不会是指数级的下降?还是线性的?夏立雪:去年物价确实有一些变化,但解读起来并不一定是负面的。

也许是因为客户的需求正在发生变化。

也许在最初的探索阶段,你要解决的是一个大客户非常复杂的综合任务。

所要投入的成本和要实现的相应功能是最密集、最复杂的。

相应的价格也会更高。

后来有客户发现,我对大模型的智力要求其实并没有那么高,他们不需要花那么贵的价格去聘请“专家”。

我只需要请一个“助手”就可以解决很多问题。

因此,从某种意义上来说,这次价格变化也体现了大家对于大机型在自身场景下可能带来的收益的判断,是一个定价体系不断丰富和完善的过程。

但从外表上看,以前花几千万的东西,现在几十万就可以买到了。

这件事最终取决于大模型在实施场景中能够解决什么问题,以及每个级别对应的能力需要多少投入。

我觉得几千万、几百万、几十万都有可能,就像淘宝上不同品牌不同价格一样。

张鹏:如果智力被视为一种生产力,那么未来它会以何种方式存在于公司的组织结构中?比如说,类比人力资源部门,会不会有一个智能资源部门?夏立雪:这个理念非常先进,但是也确实符合我们客户现在遇到的一些实际情况。

大模型刚出来的时候,大家的需求更多的是满足好奇心和学习工具。

此时企业使用的是大型机型,尚未达到定制阶段。

它们更多地作为统一标准机器进行管理。

但最近,我们的很多客户显然都遇到了这个问题。

这些客户规模都不小,数字化水平也很好。

内部业务部门很多想要用大模型,相当于内部划分了很多版本。

这时,如何协调配置这些资源就成了一个问题。

例如,公司内部如何实现模型版本控制,这些版本之间能否协调?他们甚至可以互相训练吗?就像人员轮换一样,能不能学点基础知识,再学点产品知识,成为生产、研发的负责人?与模型类似的职业规划问题也是我们客户面临的问题。

因为如果要重来一次,他就得为每个模型制定N个训练计划。

这与大车型的理念相悖,对于企业来说成本也非常高。

我们使用了一些技术手段来实现模型不同版本之间的信息交换,并快速生成一些特定的内部版本。

我觉得未来除了算力是一种资源之外,模型也会成为一种重要的资源。

这个资源如何产生更大的价值,如何升级迭代?我们也会为它定制一些培训项目,就像培训一个核心员工一样。