当前位置: 首页 > 科技观察

科技巨头正在加速进入算力大战,是什么推动“门外汉”自研芯片

时间:2023-03-17 16:53:09 科技观察

据外媒报道,互联网科技巨头亚马逊开始探索RISC-V,以考虑替代Arm处理器。后者正在被Nvidia收购。此前,亚马逊已经拥有自己专有的AWS数据中心芯片、人工智能芯片以及各种移动智能设备上的Arm芯片。像亚马逊一样,以往只涉足软件和互联网的国内外多家科技巨头纷纷自研芯片,并取得了市场验证的好成绩。谷歌的TPU、自家的TensorFlow、算力平台共同构成了全球最好的人工智能技术生态;与NvidiaT4相比,Amazon的Inferentia集群将延迟降低了25%,成本降低了30%。其他互联网巨头也在加速入局。微软去年12月表示正在开发Arm芯片;字节跳动近期也开始招募芯片人才,探索Arm芯片。字节跳动相关负责人在回应媒体询问时证实,“正在组建相关团队,在AI芯片领域做一些探索。”字节跳动官网芯片工程师招聘信息。在外界看来,互联网巨头自研芯片已经成为必然,这势必对半导体巨头和原本主打芯片的芯片初创公司造成更大的冲击。在这个过程中,需要搞清楚一个核心问题——互联网巨头为什么要自己做芯片,在什么情况下会选择自己研发芯片。业务边界的不断扩张、数据量的激增、人工智能技术的发展,不断增加互联网巨头对芯片的需求。同时,外部芯片设计工具和IP服务逐渐强大,芯片产业链的完善为巨头自主制造芯片提供了成熟的产业基础。Broadcom每年为客户提供大量定制芯片;在苹果让人眼前一亮的M1背后,其实还有很多其他公司。这种产业链协同合作,帮助互联网巨头降低了研发芯片的门槛。计算要求的提高和制造门槛的降低只是提供了必要的背景。在应用层面,同一个任务有无数的硬件解决方案。互联网巨头的工作是选择哪种硬件方案,是否需要自己做。自研芯片只是众多选择中的一种。他们真正关心的是计算任务的最具成本效益的解决方案,而不是必须拥有自己的芯片。决策的唯一依据是比较不同方案的成本和收益,即找出ROI最大的方案。自研芯片的整体研发成本非常高,包括购买IP、人员成本、实验、流片等。互联网巨头的成功经验大多集中在软件和互联网领域。他们在进入芯片领域时也是白手起家,并没有多少成本可以节省。湾区一位芯片专家表示,谷歌在开始做芯片的时候,从博通挖来了很多ASCI业务人员,从上到下搭建了一个新领域的专业团队和操作系统,而这个系统不同于公司以前擅长什么。完全不同,进而在企业文化和管理上带来额外的成本和风险。芯片自主研发的高投入决定了它只适用于能够带来更高回报的应用场景——芯片可以与公司自身的业务系统、网络结构和训练框架紧密结合,实现大幅降低成本。计算成本、产品性能以及用户体验的显着增长。只有这样,自研芯片才能获得最高的投资回报率,企业选择自研方案才有意义。下面以Arm芯片、训练芯片、Codec和SmartNIC这四款芯片为例。众所周知,摩尔定律的速度已经开始放缓,数据中心同构体系下基于x86的硬件成本无法继续下降。为了降低计算成本,分担负载的唯一方法是使用不同的架构和处理器分别处理。很多负载与企业自身的网络结构强相关,因此企业需要针对这些任务定制芯片。在这种情况下,公司自主研发的Arm芯片可以帮助节省成本。除了与网络结构的强关联外,与训练框架的强关联也会促使公司自主研发芯片。比如谷歌有了TensorFlow就一定要做TPU,因为谷歌通过公有云为用户提供算力租赁和模型训练服务,一个模型在其平台上训练所需的时间和成本由用户决定是否上线。使用平台。最重要的因素。谷歌TPU、TensorFlow和云计算之间的强大协同将带来远超通用训练工具的效果和更低的成本。在去年的MLPerf基准测试结果中,谷歌的TPU集群打破了八项测试记录中的六项。在4096个TPU的加持下,谷歌超级计算机可以在33秒内训练出ResNet-50、BERT、Transformer、SSD等模型。使用TensorFlow框架时,BERT的训练时间减少到23秒。在一个图像分类任务中,用ImageNet数据集训练ResNet-50v1.5达到了75.90%的准确率,256个第四代TPU可以在1.82分钟内完成,这几乎相当于768个NvidiaA100显卡和192个的速度AMDEpyc7742CPU内核(1.06分钟)。单从芯片架构来看,TPU和GPU不会有这么大的区别。谷歌的TPU集群之所以比A100快这么多,是因为用于训练的芯片与公司自身的网络结构和训练框架强相关。TPU不仅支持自己的网络结构,向上也支持自己的训练框架。Google知道TensorFlow会去做什么加速,所以效果肯定会比通用GPU好。最终的结果是,用户在谷歌的平台上获得了更具性价比的服务,谷歌更好地建立了人工智能技术生态系统。因此,谷歌开发自己的TPU是有意义的。华为也是如此。他们拥有升腾910、MindSpore和云计算。因此,华为的人工智能技术平台具有竞争力。徐直军曾表示,升腾910和MindSpore的推出,标志着华为已经完成了全栈全场景AI解决方案(Portfolio)的构建,也标志着华为AI战略的实施进入了一个新的阶段。其他类型的定制芯片也是如此,比如Facebook自己做Codec,因为在Facebook自己的业务和软件系统下,上下行的codec处理非常重要。与使用通用CPU相比,Facebook选择自研Codec更具成本效益。还有SmartNIC,几乎所有的互联网巨头,尤其是提供公有云服务的公司都自主研发。因为公有云涉及庞大的网络结构,企业需要匹配负载和网卡,所以每个企业对智能网卡的需求是个性化的,不是通用的,需要定制化。这也是Nvidia的DPU在市场上表现不佳的理由。另一个重要因素是互联网巨头具有规模经济。他们拥有最大的机房,为数以千万计的用户提供服务。只要性能稍有提升,价格略有下降,都会给用户带来巨大的价值。.综上所述,对于互联网巨头来说,如果芯片的应用场景与自己的业务和软件强相关,他们对此有个性化的需求,最终能够通过规模效应实现利益最大化,那么他们会选择自主研发和发展。其他场景,当巨头对芯片的需求不个性化,所需芯片与自身业务、网络拓扑、软件系统没有强相关,或者需要通用芯片时,则巨头无法通过定制化来降低成本,无需承担非定制化需求的通用芯片的全部研发成本。更合理的方式应该是向其他半导体公司采购,或者战略投资芯片初创公司进行布局,与其他客户或投资机构分担研发成本。x86CPU和推理芯片属于这一类。很多公司没有办法通过优化自己的拓扑结构和软件系统来实现x86CPU性价比的大幅提升,所以最好的选择是直接从英特尔购买。推理芯片也是如此,在人工智能领域通用性很强,需要根据算法进行调整和演进,需要更好的可编程性。那么这种芯片就跟巨头自己的网络拓扑和训练框架没有关系。在这样的直接关系中,大公司将无法通过深度定制和自主研发来大幅降低成本或提升性能。最好的选择是购买和投资。亚马逊在开发自己的业务相关芯片的同时,还投资了通用人工智能芯片初创公司Syntiant。一方面,字节跳动正在探索自主研发Arm芯片。另一方面,他们投资的一家芯片公司的主打产品也是云推理芯片。Syntiant旗下的深度学习处理器互联网巨头们不同的芯片战略和动作,在实现利益最大化的同时,也开始在半导体领域多元化布局。他们是最大的芯片客户,拥有最丰富的计算场景和巨大的业务负载,每年为数家大型半导体公司和新兴芯片初创公司带来海量订单;同时,他们开始定制芯片或自研芯片。在某种程度上,它们成为这些大型半导体公司和初创公司的潜在竞争对手,或给它们带来产品替代风险;最后,他们还是资本巨头,可以利用资本杠杆,通过投资和并购来完善自己的技术生态。这些都让互联网巨头、半导体巨头和芯片初创企业之间的关系变得微妙而复杂,也让市场格局和行业发展趋势更加不明朗。但是,如果我们分析上述互联网巨头现有的战略、行为和结果,不难发现它们在市场中的定位。在一定程度上,我们可以避免与他们直接竞争,同时也可以关注他们的需求。发现更多机会。比如根据谷歌的动作,我们可以判断训练芯片可能更适合已经拥有成熟训练框架和算力的巨头。GPU以获得更好的结果。如果一家初创公司只做训练芯片,没有自己的训练框架,不能与不同客户的网络拓扑和软件系统有很强的耦合关系,就很难与英伟达竞争,而且也会面对来自谷歌的竞争。但以推理芯片为代表的人工智能通用芯片将有更大的机会。它们是独立的,考虑可编程性和灵活性,与客户的网络和软件没有很强的关联性。互联网巨头没有定制开发的需求。相反,出于自身的需求和成本效益的考虑,他们会更倾向于在这个方向上战略投资初创公司,或者直接购买这类芯片。同时,一款领域专用推理芯片也可以在性价比上超越GPU。GPU的应用范围很广,包括Graph、人工智能、高性能计算,而人工智能包括推理和训练。GPU巨头很难选择一个细分领域,为一个小市场重新设计一套架构。他们仍然作为市场领导者专注于最普遍和最广泛的市场。而创业公司可以选择最细分的方向,比如云推理芯片,然后专注于架构和性能的提升,花更低的成本,从而在这个细分市场取得成功。