为什么2021年还没有开启计算机架构的新黄金时代?4月21日,英伟达发布了A30和A10GPU系列GPU。其Ampere架构、最新工艺的性能以及软硬件系统加持,为众多科技公司带来了AI推理和训练的新选择。该公司预计新芯片将在今年夏天出现在许多公司的云服务器中。对于熟悉机器学习领域的人来说,每隔一两年推出的新一代GPU是他们最关心的新趋势。英伟达的旗舰芯片计算能力一直是其他芯片初创公司比较的标杆。但对于那些想要为人工智能寻找最合适的计算能力的研究人员来说,GPU往往被认为不是AI的最终解决方案,因为它“太笼统”了。但到目前为止,NvidiaGPU仍然主导着市场。GPU引领深度学习技术爆发后,AI芯片领域是否会出现新的变化?就像人工智能算法应该如何编写一样,人们也从未停止过思考芯片应该如何构建。芯片领域的下一个大方向可能在于“领域特定架构(DSA)”。计算机架构传奇人物,2017年图灵奖得主JohnHennessy和DavidPatterson在2019年发表于ACM杂志的文章《计算机架构的新黄金时代》中提出:当摩尔定律不再适用时,更加以硬件为中心的设计思维——针对特定问题和领域构建DSA将显示实力。这是一个特定领域的可编程处理器,它仍然是图灵完备的,但针对特定类别的应用程序进行了定制。JohnL.Hennessy和DavidA.Patterson,《计算机体系结构:量化研究方法》的合著者。根据定义,DSA不同于专用集成电路(ASIC),后者专为单一功能而设计,其上运行的代码难以修改。DSA板通常被称为加速器,因为与在通用CPU上执行整个应用程序相比,它们可以加速某些应用程序。此外,DSA可以实现更好的性能,因为它们更接近应用程序的实际需求。DSA的示例包括最常见的图形加速单元(即GPU)、用于深度学习的神经网络处理器和软件定义处理器(SDN)。在特定领域的应用程序中,DSA更高效且消耗更少的能量。一般适用于AI推理的DSA处理器无法应用于高性能通用计算、光线渲染等任务,但与ASIC不同的是,它们只能完成很少的固定算法任务。在人工智能任务方面,DPU芯片可以实现高度通用,不仅支持NLP,还支持计算机视觉和语音任务处理,还可以通过TVM等工具覆盖各种机器学习框架。如果说架构大师设想的技术方案是DSA成立的充分条件,那么科技公司对AI算力的需求则是DSA芯片突破的必要因素。目前,通过各种方式打造GPU,想要达到与Nvidia类似的性能,还是非常困难的。然而,在以数据中心为核心的互联网新时代,国内互联网龙头企业的规模给整个行业带来了前所未有的AI落地场景。如果能够准确找到落地需求,构建高效的AI加速器,不仅可以大幅提升机器学习的价值,还可以催生出一个潜在的新市场。在这种情况下,能够弄清楚应用方向就成为了DSA能否成功的关键。如今,科技公司需要深度学习推断服务包括推荐系统、内容审核、AI教育、人工智能客服、图文翻译等方面。围绕这些业务,各个互联网厂商都对算力产生了巨大的需求。对于半导体公司来说,要打造出能够完成这些任务的芯片,其设计必须满足客户的应用场景、底层需求,并有高效的实现方法。软件的友好程度甚至在销售策略上都具有竞争力。除了架构,另一个机会在于指令集。RISC-V的兴起也在改变着芯片领域。其模块化和可扩展性完美匹配DSA灵活高效的技术需求。RISC-V诞生于2010年,是一种用于创建微处理器和微控制器的开源精简指令集架构。它于2010年由加州大学伯克利分校(UCBerkeley)的KristeAsanovic教授、AndrewWaterman和YunsupLee等开发人员首次提出,并得到计算机架构大师DavidPatterson的支持。该架构允许开发者免费开发和使用,包括直接在芯片上进行商业实现。今年1月,外媒报道称,顶级芯片设计大师JimKeller加入初创公司Tenstorrent,担任CTO和董事会成员。据了解,Tenstorrent设计的是高性能AI训练和推理、异构架构的AISoC。该公司设计了针对机器学习优化的Tensix处理器内核。为了运行传统的工作负载,Tenstorrent的SoC使用了SiFive的新型通用智能X280内核,这是一个集成了512位宽RISC-V向量扩展(RVV)的64位RISC-V内核。巧合的是,美国芯片设计公司Pixilica与RV64X团队合作,提出了一套新的图形指令集,旨在融合CPU-GPUISA,并将其用于3D图形和媒体处理,从而为FPGAs创造了一个开源参考.完成。这是RISC-V生态系统的优势之一,Europena工具开发商Codasip的高级营销总监RoddyUrquhart说:“如果你想创建特定领域的处理器,关键任务之一是选择一种指令集架构符合您的软件需求(ISA)。”“一些公司选择从头开始创建指令集,但如果你有这样的ISA,你可能不得不付出移植软件的代价。现在,RISC-V开放ISA可以提供一个很好的起点和一个软件生态系统,”Urquhart说。RISC-VISA采用模块化设计,使处理器设计人员不仅可以添加任何标准扩展,还可以创建自己的自定义指令,同时保持与RISC-V的完全兼容性。“为特定领域的处理器选择了一个起点,然后有必要弄清楚需要哪些特殊指令来满足您的计算要求。这需要仔细分析您需要在处理器内核上运行的软件。分析工具可以识别计算热点,一旦理解,设计人员就可以创建自定义指令来解决这些热点。”虽然几乎每部智能手机和数十亿电子设备都采用了基于Arm架构设计的处理器,但越来越多的人正在转向RISC-V。Linux的主要开发者ArndBermann认为,到2030年我们将看到三种架构:Arm、RISC-V和X86占据大部分市场。然而,对于DSA,RISC-V显然具有巨大的优势。科技公司自己做芯片是不是最合理的方式?一些公司提出了与自身业务深度结合,绑定软件系统进行AI模型训练的芯片,包括亚马逊的Inferentia和Trainium、谷歌的TPU等。但这些算力仅限于各公司自身业务系统的专业化,适用范围有限。从近期一些大厂的动作可以看出,人们的思维已经发生了变化:百度等公司在AI芯片业务上独立,而腾讯、字节跳动等公司则选择投资初创公司,希望通过培育面向市场、面向广阔市场的新体制。自2010年前后深度学习技术大发展以来,我们见证了寒武纪、升腾等芯片的出现,惊叹于谷歌、亚马逊的技术能力。然而,在对算力的无尽需求下,国产AI芯片爆发的时机似乎还未到来。但最近,指令集、架构和人工智能应用的实现改变了这一局面。随着字节跳动等AI芯片初创公司投资的快速流片成功,独家推理芯片的应用取得了良好的效果,DSA芯片在技术领域的发展新趋势正在显现。在芯片产品的生命周期中,如果有一家初创公司能够更好地理解场景,定义最合适的解决方案,并尽快实施,就可以获得相对领先的地位。同时,如果这种新机制产生足够高效的计算能力,科技公司的开发者也可以创造出更多的人工智能应用。据目前测算,国内市场每年需要20万-30万块AI推理计算板。对于国内的创业者来说,这或许是一次前所未有的发展机遇,强大的工程师团队将在新的竞争中脱颖而出。
