什么是内存计算?ComputinginMemory是将计算能力嵌入到内存中,以全新的计算架构进行二维和三维矩阵的乘法/加法运算。集成存储和计算技术概念的形成可以追溯到1970年代。近年来,随着云计算和人工智能(AI)应用的发展,面对计算中心海量的数据,数据传输慢、能耗高等问题成为计算的关键瓶颈。在过去的二十年里,处理器性能每年增长约55%,而内存性能每年仅增长约10%。结果,从长远来看,不平衡的发展速度导致了当前的存储速度严重滞后于处理器的计算速度。在传统计算机的设置中,存储模块是为计算服务的,因此设计时会考虑存储和计算的分离和优先级。但在今天,存储和计算必须作为一个整体来考虑,以最好的方式为数据的收集、传输和处理服务。在这里,存储和计算的再分配过程会面临各种各样的问题,主要体现在存储墙、带宽墙和功耗墙的问题上。算力的发展速度远超存储(来源:amirgholami@github)虽然多核(如CPU)/众核(如GPU)并行加速技术也能提升算力,但在后期摩尔时代,存储带宽制约着计算系统的效能。带宽和芯片算力的增长举步维艰。从处理单元外的内存中提取数据,处理时间往往是计算时间的数百倍,整个过程的无用能耗约为60%-90%,能效很低,“存储墙””已经成为数据计算应用的一大障碍。特别是深度学习加速的最大挑战是数据在计算单元和存储单元之间的频繁移动。数据传输占据了人工智能计算的主要能耗。In-memorycomputingandin-memorylogic,即存储计算一体化技术,直接使用内存进行数据处理或计算,使数据存储和计算集成在同一芯片的同一区域,可以完全消除冯诺依曼计算架构的瓶颈,特别适用于深度学习神经网络等大数据量的大规模并行应用场景。需要说明的是,存储计算一体化泛指“compute-in-memory”或“compute-near-memory”,并非存储服务器分布式设计或服务器内存计算的细分。对于一些国产的ssdcontroller+AI芯片,我个人建议称其为“compute-in-ssd”或者“compute-in-storage”,避免沟通上的歧义。计算芯片架构的演变存储计算一体化的历史1969年,斯坦福研究所的Kautz等人提出了存储计算一体化计算机的概念。但由于当时缺乏芯片制造技术和算力需求,存储与计算融合仅处于理论研究阶段,并未得到实际应用。为了打破冯·诺依曼计算架构的瓶颈,减少“存储-内存-处理单元”过程中数据移动带来的开销,学术界和工业界尝试了各种方法。更直接的方法是近内存计算,它减少了内存和处理单元之间的路径。例如,通过3D封装技术实现3D堆叠,将多层DRAM堆叠而成的新型内存,可以提供更大的内存容量和内存带宽。.此外,英特尔和美光联合开发的基于PRAM存储介质的3DXpoint是一种堆叠式内存,旨在缩短片上存储和内存之间的路径。但是,上述方案并没有改变数据存储和数据处理分离的问题,不能从根本上解决冯诺依曼计算架构的瓶颈。近年来,随着半导体制造技术的快速发展和AI、元界等计算密集型应用场景的兴起,为存储计算融合技术提供了新的制造平台和产业驱动力。2010年,惠普实验室Williams教授的团队使用忆阻器实现了简单的布尔逻辑功能。2016年,美国加州大学圣塔芭芭拉分校(UCSB)谢元教授团队提出利用RRAM构建内存计算一体化架构的深度学习神经网络(PRIME)。与传统冯诺依曼架构的传统方案相比,PRIME可降低约20倍的功耗,提高约50倍的速度,引起了业界的广泛关注。随着人工智能等大数据应用的兴起,存储计算融合技术得到了国内外学术界和产业界的广泛研究和应用。在2017微处理器顶级年会(Micro2017)上,包括英伟达、英特尔、微软、三星、加州大学圣塔芭芭拉分校等都推出了他们的集成存储计算系统原型。存储计算一体化的优势存储计算一体化的优势是打破存储墙,消除不必要的数据移动延迟和功耗,利用存储单元提高计算能力,提高数百倍的计算效率,降低成本。存储计算一体化属于非冯·诺依曼架构,可在特定领域提供更大的计算能力(1000TOPS以上)和更高的能效(10-100TOPS/W以上),大幅超越现有的ASIC计算芯片。内存计算技术除了用于AI计算,还可以用于传感-内存-计算集成芯片和类脑芯片,代表未来主流的大数据计算芯片架构。存储计算一体化技术的核心优势包括:减少不必要的数据传输。(将能耗降低到1/10~1/100)使用存储单元参与逻辑计算,提高计算能力。(相当于在保持面积不变的情况下大规模增加计算核心数)存储计算一体化的市场驱动力目前,存储计算一体化的商业驱动力主要来自于对存储计算的需求AI和Metaverse的计算能力,并行计算在深度学习中的广泛应用。从应用端看,存储与计算融合的市场发展动力十分强劲。以数据中心为例,百亿亿次级(E级)超级计算机已经成为各国争夺算力的关键点。为此,美国能源部启动了“百亿亿次计算计划”;中国已联合国防科技大学、中科曙光和国家并行计算机工程技术研究中心积极开展相关研究,计划推出首台E级超级计算机。然而,要研制出百亿亿级超级计算机,科学家面临的第一个挑战就是高功耗问题。以现有技术研制的E级超级计算机功率高达千兆瓦,需要专门的核电站为其供电,50%以上的耗电量来自数据的“传输”.这是曼恩计算机体系结构中计算和存储分离设计造成的。随着基于神经网络的人工智能的兴起,具有大计算能力和高能效的内存计算受到广泛关注。在神经网络运算中,其运算权重是固定的,一般只有“输入”是实时产生的,因此可以将权重存储在片上内存中,然后进行高能效的内存计算在外部“输入”进入后执行。同时,随着存储计算一体化技术的进步,通过内存计算和内存逻辑,可以完成32位以上的高精度计算,从端普遍适用于各种计算需求到云端。此外,新型存储器的出现也带动了存储计算融合技术的发展,为存储计算融合技术的升级方向提供了可能。其中,阻变忆阻器RRAM采用等效器件电阻调制实现数据存储,可实现更高的计算密度。新型内存和存储计算一体化技术的结合,形成了新一代的算力要素,有望推动下一阶段人工智能的发展。在冯诺依曼架构中,计算单元和内存是两个独立的单元。计算单元根据指令从内存中读取数据,在计算单元中完成计算处理,完成后将数据存回内存。在这个过程中,内存和处理器之间的数据交换路径狭窄,以及由此带来的高能耗,形成了两大难题,在存储和计算之间筑起了一道“存储墙”。在能源消耗方面,大部分能源消耗是在数据传输过程中产生的,数据传输的功耗是计算功耗的1000倍。在数据传输速度方面,AI计算需要1PB/s,而DRAM40GB-1TB/s远远不能满足要求。内存计算集成技术分类目前,内存计算技术按照以下历史顺序发展:?ProcessingWithMemory:GPU将这种计算方法用于复杂的函数,是一项已经实施多年的技术。计算操作是通过查找存储芯片内部的表格来完成的。这是最早的技术。?ComputingNearMemory:典型代表是AMD的Zen系列CPU。计算操作由位于存储区域之外的独立计算芯片/模块完成。该架构设计的代际设计成本低,适合传统架构芯片的移植。将HBM内存(包括三星的HBM-PIM)与计算模块(bareDie)封装在一起的芯片也属于此类。近内存计算技术早已成熟,广泛应用于各种CPU和GPU中。?ComputingInMemory:典型代表有Mythic、千芯科技、FlashBillion、智存、九天锐芯等。计算操作由位于内存芯片/区域内部的独立计算单元执行,存储和计算可以是模拟的也可以是数字的。该路由一般用于算法固定的场景算法计算。?LogicInMemory:这是一种比较新的存储计算架构,典型代表有台积电(发表于2021ISSCC)和千芯科技。该架构数据传输路径最短,能够满足大型模型的计算精度要求。通过在内部存储中加入计算逻辑,直接在内部存储上进行数据计算。技术应用方向人工智能与大数据计算、存储、计算的融合,已被多家技术趋势研究机构确定为未来的技术趋势。存储计算一体化是突破AI算力和大数据瓶颈的关键技术。由于采用了存储和计算一体化技术,不仅可以提高设备的性能,还可以大大降低其成本。采用存储计算一体化技术,将AI计算的大量乘加运算的权重部分存储在存储单元中,修改存储单元的核心电路,实现数据输入和计算。可以在阅读的同时进行计算处理。卷积运算在存储数组中进行。由于大量的乘法和加法卷积运算是深度学习算法的核心组成部分,内存计算和内存逻辑非常适合人工智能和基于AI的大数据技术的深度神经网络应用。知存算一体化将传感、存储、计算融为一体,构建知存算一体化架构,解决了冯诺依曼架构中数据传输的功耗瓶颈,同时与传感相结合,提高整体效率.计算在传感器本身包含的AI存储计算集成芯片上进行,实现零延迟、超低功耗的智能视觉处理能力。基于SRAM模数混合的内存计算神经形态芯片只会在检测到有意义的时间时才进行处理,从而大大降低了能耗。类脑计算类脑计算也称为神经形态计算。是借鉴生物神经系统信息处理方式和结构的计算理论、体系结构、芯片设计、应用模型和算法的总称。近年来,科学家们试图借鉴人脑的物理结构和工作特点,让计算机完成特定的计算任务。目的是使计算机像人脑一样集存储和计算于一体,从而高速处理信息。存储计算一体化自然是存储和计算相结合的技术。天然适用于类脑计算领域的应用,成为类脑计算的关键技术基石。由于类脑计算属于高算力、高能效领域,面向云计算和边缘计算的存储计算一体化技术是未来类脑计算的首选,也是产品快速落地的关键。数字存储和计算与模拟存储和计算的比较存储和计算的计算方法分为数字计算和多位模拟计算。数字存储计算一体化主要采用SRAM和RRAM作为存储器件,采用先进的逻辑技术,具有高性能和高精度的优点,具有良好的抗噪声能力和可靠性。模拟存储与计算集成通常采用FLASH、RRAM、PRAM等非易失性介质作为存储设备,具有高存储密度和高并行性,但对环境噪声和温度非常敏感。比如Intel和NVIDIA的算力芯片,虽然也可以采用模拟计算技术来提高能效,但是一直没有大算力芯片采用模拟计算技术。数字存算一体化适用于算力大、能效高的商用场景,而模拟存算一体化适用于算力小、无可靠性的民用场景。存储计算一体化的存储介质比较目前成熟的可用于存储计算一体化的存储器有NORFLASH、SRAM、DRAM、RRAM、MRAM和其他NVRAM。早期初创企业使用的FLASH是一种非易失性存储介质,具有成本低、可靠性高等优点,但在工艺上存在明显的瓶颈。SRAM在速度和能效比方面具有优势,尤其是在内存逻辑技术发展之后,具有明显的高能效和高精度的特点。DRAM成本低,容量大,但速度慢,需要电源不断刷新。适合存储和计算的新型存储器包括PCAM、MRAM、RRAM和FRAM。其中忆阻RRAM在神经网络计算方面具有特殊优势,是除SRAM之外的下一代内存计算集成介质的主流研究方向。目前RRAM尚需2-5年工艺成熟,材料不稳定。但RRAM具有速度快、结构简单等优点,有望成为未来发展最快的新型存储器。从学术界和工业界的研发趋势来看,SRAM和RRAM都是未来主流的存储和计算介质。内存类型优势不足适用场景SRAM(数字模式)具有高能效比、高速高精度、对噪声不敏感、技术成熟先进,适用于密度稍低、算力大的IP化存储、云计算,和边缘计算SRAM(模拟模式)能效比高,技术成熟先进对PVT变化敏感,对信噪比敏感,存储密度略低计算能力小,端到??端,无待机功耗各类NVRAM(包括RRAM/MRAM等)高能效比、高密度、Non-volatile、低漏电、对PVT变化敏感、写入次数有限、速度相对较低、制程良率还在攀升算力小,end-side/edgeinference,待机时间长Flash高密度,低成本,non-volatile,Lowleakage对PVT变化敏感,精度不高,过程迭代时间长,com端放功率小,成本低,待机时间长。DRAM具有高存储密度。集成方案成熟,只能用于近内存计算。速度略低,过程慢迭代适合从现有的锋架构向存储和计算过渡。将几种存储介质比作存储和计算的应用场景。存储计算一体芯片适用于可穿戴设备、移动终端、智能驾驶、数据中心等各种人工智能场景和元界计算。按计算能力划分:1)针对端侧可穿戴等小型设备,对算力的要求远低于智能驾驶和云计算设备,但对成本、功耗、时延、开发难度等非常敏感。端到端竞品众多,应用场景碎片化,面临成本和效率问题。存储计算融合技术对端侧竞争力的影响约占30%。(比如arm占30%,降噪或ISP占40%,AI加速能力只占30%)2)云计算和边缘计算的大算力设备是内存计算集成芯片的优势.存储与计算的融合在云计算和边缘算力领域占据了90%左右的竞争力。边缘存储计算一体芯片具有边缘计算能力强、功耗低、性价比高等优势。对于智能驾驶、数据中心等大算力应用场景,在可靠性和算力方面有着较高的要求,云计算市场的参与者相对集中。每个公司都有自己的算法和生态细节,芯片价格更高。凭借高能效和大计算能力的优势,内存计算集成芯片有望另辟蹊径抢占云计算市场。就目前的云算力市场而言,单一的GPU架构已经无法适应不同AI计算场景下算法的离散化。比如在图像、推荐、NLP领域,都有各自的主流算法架构。GPU无法在计算能力或能效上同时与多个领域的专用加速芯片竞争。综上所述,存储与计算的融合已被知名研究机构和行业确定为下一代技术趋势之一。目前,国内外存储计算一体化企业均处于起步阶段,差距并不大。存储计算集成芯片在设计层面是创新的,没有成熟的方法可以借鉴。存储计算一体化是计算系统和存储系统的一体化设计。它比标准模拟IP和内存IP更复杂。它依赖于从多次内存流片中积累的经验。知道。目前,行业内主要有两条路径。一种是从1TOPS的小算力开始,往上走。解决了音频、健康、低功耗视觉等终端侧应用场景,以及AI实现的芯片性能和功耗。另一类主要针对>100TOPS的大算力场景,解决大算力问题,在无人车、泛机器人、智能驾驶、和云计算。由于云计算和智能驾驶的需求多样化,各大厂商的算法和生态差异明显,这些领域都有较好的成长空间。随着AI技术的加速落地以及元界技术对算力的巨大需求,存储计算融合技术将不断提升,成为继CPU、GPU架构之后算力架构的“第三极”。
