当前位置: 首页 > 科技观察

在软件吞噬硬件的AI时代,芯片跟不上算法进化怎么办?

时间:2023-03-14 12:20:13 科技观察

作为AI时代的无名英雄,芯片行业正在经历着渐进、持续的变革。2008年后,深度学习算法逐渐兴起,各种神经网络渗透到手机、App和物联网中。与此同时,摩尔定律正在放缓。摩尔定律虽然称为定律,但它不是物理定律或自然定律,而是对半导体产业发展的观察或预测。其内容是:单个芯片的集成度(集成电路中晶体管的密度)月),导致性能每两年翻一番。保证摩尔定律的前提是芯片制造技术的进步。经常在新闻中看到的28nm、14nm、7nm、5nm,指的就是制造工艺。数字越小,过程越先进。随着制造工艺的演进,尤其是进入10nm后,逐渐逼近物理极限,难度越来越大。芯片全流程的设计成本大幅增加,每一代都比上一代至少增加30%到50%。(不同工艺节点的芯片设计和制造成本,图片来自工商银行)这导致AI对算力需求的增速远超通用处理器的算力增速。根据OpenAI的计算,自2012年以来,全球人工智能使用的计算量呈指数级增长,平均每3.4个月翻一番,而通用处理器的计算能力每18个月至两年才翻一番。当通用处理器的计算能力跟不上AI算法的发展时,用于AI计算的专用处理器就应运而生,也就是人们常说的“AI芯片”。目前,人工智能芯片的技术内涵正在得到极大丰富。从架构创新到先进封装再到模拟人脑,都影响着AI芯片的发展方向。这些变化的背后,有一个共同的主题:更低的功耗,更高的性能。更灵活2017年图灵奖授予了两位计算机架构先驱,大卫·佩特森(DavidPetterson)和约翰·轩尼诗(JohnHennessy)。他们在2018年图灵奖演讲中,聚焦架构创新,指出计算架构正在迎来新的黄金十年。正如他们判断的那样,人工智能芯片的新架构不断涌现。比如来自英国Graphcore的IPU,一款与CPU、GPU截然不同的AI专用智能处理器,逐渐被业界认可,Graphcore也获得了微软和三星的嘉奖。战略资本支持。目前,一种叫做CGRA的架构在学术界和工业界受到越来越多的关注。CGRA全称CoarseGrainedReconfigurableArray(粗粒度可重构阵列),是“可重构计算”概念的产物。根据文章《可重构计算: 软件可定义的计算引擎》,这个想法最早出现在1960年代,由加州大学洛杉矶分校的Estrin提出。由于过于先进,直到40年后才得到系统的研究。加州大学伯克利分校的DeHon等人将可重构计算定义为一种具有以下特点的架构:在其制造之后,芯片功能仍然可以定制,形成硬件功能来加速特定任务;计算功能的实现主要依赖于任务到芯片的空间映射。简而言之,可重构芯片强调灵活性,并且在制造后仍然可以编程以适应新算法。与之相对的是ASIC(application-specificintegratedcircuit,专用集成电路)。ASIC芯片虽然性能高,但缺乏灵活性。它们往往是为单一的应用或算法而设计的,很难匹配新的算法。2017年,美国国防高级研究计划局(DARPA)提出电子复兴计划(ERI)。该计划的任务之一是“软件定义芯片”,即在不牺牲灵活性的情况下创造出接近ASIC性能的芯片。根据重构的粒度,可重构芯片可分为CGRA和FPGA(field-programmablegatearray,现场可编程逻辑门阵列)。FPGA在业界已经有一定规模的应用。例如,微软将FPGA芯片引入大型数据中心,为Bing搜索引擎加速,验证了FPGA的灵活性和算法可更新性。然而,FPGA有其局限性。不仅能效和ASIC还有很大差距,而且重编程门槛也比较高。由于实现原理的不同,CGRA可以实现比FPGA更底层的重编程,并且在面积效率、能效和重配置时间方面具有优势。可以说,CGRA同时集成了通用处理器的灵活性和ASIC的高性能。(可重构计算架构与现有主流计算架构在能效和灵活性方面的对比,图片来自《中国科学》)随着AI计算逐渐从云端下沉到边缘和物联网设备,不仅算法的多样性在增加,芯片比较分散,在保证低功耗的同时,对性能也有要求。在这种场景下,具有高能效和高灵活性的CGRA非常有用。由于结构不一致、编程和编译工具不成熟、易用性不友好等原因,CGRA在业界并未得到广泛应用,但也出现了一些尝试。早在2016年,英特尔就在其至强处理器中加入了CGRA。三星也曾尝试将CGRA集成到8K高清电视和Exynos芯片中。在中国,一家名为“清微智能”的公司于2019年6月量产了全球首款CGRA语音芯片TX210,并于同年9月发布了全球首款CGRA多模态芯片TX510。这家公司脱胎于清华大学魏少军教授带领的可重构计算研究团队,他们从2006年开始进行相关研究。据新视时2020年11月的报道,语音芯片TX210已出货数百万片,并且多模芯片TX510在11月份的出货量也超过了10万片。主要客户为智能门锁、安防和刷脸支付。相关厂商。如开头所述,随着制程技术接近物理极限,摩尔定律逐渐放缓。同时,AI算法的进步导致对算力需求的快速提升,倒逼芯片行业探索先进制程以外的新方向,先进封装就是其中之一。“在大数据和认知计算时代,先进封装技术发挥着前所未有的作用。人工智能发展对节能、高通量互连的需求,正在通过先进封装技术的加速发展得到满足。”John全球第三大晶圆代工厂GlobalFoundries平台首席技术专家Pellerin曾在一份声明中表示。先进封装是相对于传统封装而言的。封装是芯片制造的最后一步:将完成的芯片器件放入外壳中,并与外部器件连接。传统封装的封装效率低,还有很大的提升空间,而先进的封装技术则着重于提高集成度。先进封装有很多技术分支,其中Chiplet(小芯片/芯片)是近两年的热门话题。所谓“小芯片”是相对于传统的芯片制造方式而言的。传统的芯片制造方法是在同一块硅片上采用相同的工艺制作芯片。Chiplet的思想是将一个完整芯片的复杂功能进行分解,将存储、计算、信号处理等功能模块化到一个裸芯片(Die)中。这些裸芯片可以采用不同的工艺制造,甚至可以由不同的公司提供。通过互连接口将它们连接起来后,就形成了一个Chiplet芯片网络。根据碧仁科技研究院唐山的分析,Chiplet更长更准确的专业术语应该是异构集成。总的来说,这个技术趋势比较明显,第一阶段的chiplet形式在技术上已经比较成熟,除了成本比较高之外,已经在很多高端芯片上得到了应用。例如,HBM内存已经成为Chiplet技术早期成功应用的典型代表。AMD在Zen2架构芯片上采用了chiplet思想,CPU采用7nm工艺,I/0采用14nm工艺,与完全采用7nm工艺的芯片相比,成本降低了约50%。英特尔还推出了基于Chiplet技术的AgilexFPGA系列。(异构集成原理图动画,素材来自IC智库)然而,Chiplet技术仍然面临诸多挑战,其中最重要的挑战之一就是互连接口标准。互连重要吗?如果是在大公司内部,比如Intel或者AMD,有专有协议和封闭系统,不同裸芯片之间的连接问题不大。但对于不同公司、不同系统之间的互联互通,在保证高带宽、低时延、低比特功耗的同时,互联接口非常重要。2017年,DARPA启动了CHIPS战略计划(CommonHeterogeneousIntegrationandIPReuseStrategy),试图打造一个开放的连接协议。但DARPA项目的一大短板是专注于国防相关项目,芯片数量并不多,与真正的商用场景相去甚远。因此,一些芯片行业的公司成立了行业组织“ODSA(OpenDomainSpecificArchitecture)工作组”,通过开发开放的互连接口,为Chiplet的发展扫清障碍。另一种方式除了在现有框架内进行架构和制造方面的创新,一些研究人员正在尝试跳出当前计算机的冯·诺依曼架构,开发真正模拟人脑的计算模型。在冯诺依曼架构中,数据计算和存储是分开进行的。但内存访问速度往往严重滞后于处理器的运算速度,造成“内存墙”问题。而且,传统计算机需要通过总线在处理器和内存之间不断刷新,导致芯片的大部分功耗消耗在读写数据上,而不是算术逻辑单元,形成“功耗墙”“是衍生出来的。”问题。人脑不存在“记忆墙”和“功耗墙”的问题,它集信息处理和存储于一体,计算和记忆可以同时进行。(一次典型运算的能耗inageneral-purposeprocessor,图片来自杂志人脑网络的工作机制大不相同,1000亿个神经元,通过100万亿个突触并联连接,使人脑以极低的功耗(约20瓦)同时进行记忆、计算、推理和运算相比之下,目前的深度神经网络不仅需要海量数据进行训练,而且运行时也会消耗大量能量,因此如何让AI像人脑一样工作一直是一个难题学界和产业界积极探索的课题。80年代后期,加州理工学院教授CarverMead提出了神经形态工程的概念。经过多年发展,工业界和学术界对神经拟态芯片的探索逐渐形成。在软件方面,被称为第三代人工神经网络的SpikeNeuralNetwork(简称SNN)应运而生。这种网络以脉冲信号为载体,更接近人脑的运作方式。在硬件方面,大型机构和公司开发了相应的脉冲神经网络处理器。其实早在2008年,DARPA就启动了一个项目——SystemsofNeuromorphicAdaptivePlasticSc??alableElectronics(SyNAPSE,就是“突触”的意思),希望能开发出低功耗电子神经形态计算机。IBMResearch成为SyNAPSE项目的合作伙伴。2014年,他们发表了一篇展示最新成果的论文——TrueNorth。这种类脑计算芯片拥有100万个神经元,可以每秒30帧的速度输入400×240像素的视频,功耗仅为63毫瓦,与冯·诺依曼架构的计算机相比是质的飞跃。英特尔在2017年展示了一款名为Loihi的神经形态芯片,包含超过20亿个晶体管、13万个人工神经元和1.3亿个突触,比训练系统所需的通用计算效率高1000倍。2020年3月,研究人员甚至在Loihi上实现了气味识别。该成果可应用于疾病诊断、武器和爆炸物检测、麻醉剂、烟雾、一氧化碳气味等及时检测场景。在国内,清华大学类脑计算研究中心石路平教授团队研发出通用人工智能“天机”芯片,同时支持脉冲神经网络和深度神经网络。2019年8月1日,天机成为国内第一颗登上《Nature》杂志封面的芯片。虽然有零星的研究成果,但总的来说,脉冲神经网络和处理器仍是研究领域的一个方向,但并未在工业界大规模应用,主要是基础算法一直没有重点突破。达不到工业上使用的精度,实施成本相对较高。