人工智能(AI)和汽车芯片的复杂度在逐渐增加,边缘处理的比重也在增加。存储的选择、设计、使用方式和配置将面临更大的挑战。因此,为了满足AI和机器学习应用的需求,位置(Location)越来越多地应用于数据需要驻留的地方和存储数据的内存。随着芯片、组件和系统之间的移动以及处理优先级的不明确,设计团队只能在整合和共享内存以降低成本,或添加更多不同类型的内存以提高性能和降低成本之间取得平衡。能量消耗。但这个问题不仅仅是对内存供应商的挑战;其他AI利益相关者也在发挥作用,解决方案的一个关键部分是内存互连,其中内存更接近计算。Rambus研究员SteveWoo在人工智能硬件峰会的内存互联挑战与解决方案圆桌讨论中表示:“我们都在致力于人工智能的不同方面。”从目前来看,内置SRAM和DRAM存储仍然是目前的主要技术。DRAM具有高密度、相对简单的电容器存储结构、低延迟、高性能和近乎无限的访问耐久性,以及相对低的功耗。SRAM速度非常快,但价格昂贵且密度有限。这些不同的要求会影响存储的类型和数量以及内部或外部存储的选择。MarvellASIC业务部门的CTOIgorArsovski在SRAM方面拥有丰富的经验,他表示用啤酒来做内存互连是一个不错的比喻。“SRAM就像一瓶啤酒。它易于使用,使用它所消耗的能量非常少,而且它只给你所需要的。”但是,如果您没有足够的RAM,您将走得更远并使用更多的电力,例如需要走得更远才能喝啤酒。“HBMvsLPDDR外置存储的竞争基本上是DRAM-GDDR和HBM占优。从工程和制造的角度来看,GDDR更像是DDR和LPDDR等类型的DRAM,可以放在标准的印刷电路板上。并且HBM是一种相对较新的技术,涉及堆叠和硅中介层。每个HBM堆叠有数千个连接,因此需要高密度互连,远远超过PCB的处理能力。HBM追求最高性能和高-质量电源效率,但成本较高,需要更多的工程时间和技术。GDDR中没有那么多互连,但会影响信号的完整性。Arsovski表示,在内存方面,高带宽内存(HBM)正在被越来越多的人工智能所采用。“访问内存要花费你60倍的能量。那里的容量要大得多,但访问它的带宽也少得多。啤酒类比可以扩展到LPDDR(一种DDRSDRAM)等技术,它超越了SRAM。“LPDDR功率更高,但你可以装载更多容量。”“这就像走在去你最喜欢的酒吧的路上。”就在上面,压缩内存与计算更紧密地结合在一起。MLCommons是一个提供机器学习标准和推理基准的组织,其成员包括学术界和工业界。MLCommons的执行董事大卫坎特说:“它让我们对不同的工作负载有了非常广泛的了解。我们开始改变组织的其中一件事是让它专注于一件事,那就是建立一个咨询小组,带来在特定领域的一些深厚专业知识。”MLCommons还将为任何训练AI模型的人编译大型公共数据集,并计划扩展服务以引入其他专家。谈到内存,坎特说,整个系统上下文很重要。“你必须考虑你想要什么做和系统。”芯片、封装和电路板都是必须考虑的元素。存储的放置和连接有很多不同的角落,你可以优化阵列配置、单元类型和距离。”坎特:“了解哪里需要带宽和非易失性也是指导您做出正确选择的关键考虑因素。”这些考虑对于传统上不参与构建内存系统的整个过程的公司来说很重要。长期研究编译器和可扩展系统的谷歌软件工程师SameerKumar认为,网络和内存带宽对于不同的机器学习模型至关重要。至关重要,包括大批量学习的能力。”AI训练涉及大量内存优化,这是编译器实现高效最关键的一步,这意味着内存需要更智能。“随着数据移动开始占据主导地位在AI应用的某些阶段,内存互连似乎变得越来越重要。Woo:“在性能和功率效率方面,这是一个日益严重的问题。提高数据传输速率有点困难,因为每个人都希望将数据保持翻倍速度和能源效率翻倍。“我们所依赖的许多技术对我们来说不再存在,或者正在放缓。我们有机会思考新的架构并创新我们移动数据的方式。”Woo:这不仅包括存储设备本身的创新,还包括封装和堆栈等新技术的创新,同时确保思维数据的安全。美国存储技术公司Rambus认为,这正在变得越来越越来越多的关注。Rambus已经在关注3D堆叠,但如果带宽不随着堆叠容量的增加而增加,可用性将受到限制。Arsovski表示,Marvell正在花费大量时间与客户一起构建人工智能系统,给它们是可以在每个芯片边缘移动的带宽和可访问内存带宽信息。“我们目前看到的是客户要求更多的内存带宽和I/O带宽。“如果你看看互连是如何在封装层面进行大规模互连的,就会发现存在巨大的不匹配。我们现在遇到了瓶颈,因此我们不断推动高端芯片之间的连接。“从内存的角度来看,对于AI模型,不能放在芯片上,下一步是HBM或GDDR,但也有很多人倾向于3D堆叠,因为你只能在芯片上移动这么多带宽。”客户想要越来越多的I/O带宽,但我们可以在边缘移动多少?”坎特说,即使在机器学习的世界里,也存在导致生态系统局限性和变异的“巨大多样性”。一个令人难以置信的大数据结构的随机查找不适合在具有常规DRAM的单个节点中,这意味着如果你想将它保存在内存中,你将需要构建一个大型集群系统。”这具有非常不同的特性和特性从传统的视觉引导模式来看,在内存方面记住这个多样性是非常重要的,“当你需要把很多内存和计算整合在一起的时候,互连就出现了,而互连对于那些巨头公司来说尤为重要。”如果你只想在小型网络中训练GPU,关键维度可能是内存带宽。更多的内存带宽可以实现不同类型的优化,但如果一个模型特别受内存限制,那么它可能会导致更多的计算,Kumar说。如果你有更多的内存吞吐量可用,甚至有更多的互连吞吐量可用,它可能会使模型设计更加灵活,启用新功能,并构建不同类型的模型。“Woo:Rambus对3D堆叠很感兴趣,但挑战在于,随着您向上移动到更高的级别,保持不断增加的带宽以在堆叠上上下移动变得更加困难。“虽然你最终增加了堆栈的容量,但如果你没有相应增加带宽,这个解决方案有多大用处。”一种堆叠外形功率的方法,可使带宽、容量和堆叠的比率保持相对恒定。Kumar和Arsovski都认为需要使用精心设计的软件堆栈构建一个平衡的、可扩展的系统。Arsovski:“我们所描述的是一种类似人脑的结构,可以很好地缩放。它必须是低能量的,同时具有大量的连接性,目前,我们最接近它的是通过3D叠加,但是功率功耗、封装和机械方面的挑战依然存在。“我们需要找到一种在每一层都使用非常低功耗的并行系统,这样你就不必担心需要冷却数千瓦的功率。”功耗问题仍然很难克服。存储类型和配置也会影响功耗。例如,在7nm工艺存储上移动数据由于线的RC延迟需要更高的功率,并且可能会产生热量,从而破坏信号的完整性存储对于AI来说非常重要,AI是所有新技术的主角。但不仅仅是AI芯片,芯片内部的AI应用也会影响存储的使用方式。最好的实现方式超快的速度和最低的功率消费是把所有元器件放在同一个芯片上,但有时空间有限。这也解释了为什么用于数据中心和训练应用程序的AI芯片比部署在终端设备中以执行推理应用程序的许多其他类型的芯片更大。另一种方法是将部分存储器移出芯片,通过设计增加传输容量和缩短与存储器的距离,或者限制外部存储器的数据流量。MentorIP部门主管FarzadZarrinfar表示,功率、性能和面积(PPA)都很重要,但它们大多与应用相关。以便携式应用为例,功率非常重要,功率分为动态和静态两部分。如果需要大量的计算,那么动态功耗就很重要;如果是可穿戴设计,更要注意静态/漏电。电动车很在乎续航,所以耗电量也是一个关键因素。现在是时候开始研究人工智能系统的下一个构建块了。“我们一直在研究晶体管,到目前为止他们做得很好。但我们需要几乎从头开始重新考虑该设备。”尽管有许多革命性的技术和创新的架构,但内存仍然是所有设计的核心。如何区分、共享、定位和使用现有存储以实现高系统性能仍然说起来容易做起来难。
