当前位置: 首页 > 科技观察

AI专用SoC芯片IP需求分析

时间:2023-03-19 14:37:27 科技观察

本文转载自微信公众号《智能计算芯天地》,作者synopsys。转载请联系智能计算核心世界公众号。目前,支持人工智能计算发展的半导体包括独立加速器和内存/近内存计算技术。独立加速器以某种方式连接到应用处理器,并且有一些应用处理器在设备上添加了神经网络硬件加速。单机加速器可以实现通过芯片间互连将硬件扩展到多个芯片以达到最高性能的重大创新,内存和近内存计算技术主要满足降低能耗的需求。设备上的AI加速正在通过利用独立半导体领域的先驱处理器和架构来升级他们的神经网络处理器。半导体领导者、行业巨头和数百家初创公司都在加紧准备,将AI功能推广到各行各业的大量新SoC和芯片组,从云服务器包到每个厨房的家庭助理。深度学习神经网络用于许多不同的应用程序,为使用它们的人提供了强大的新工具。例如,它们可用于高级安全威胁分析、预测和预防安全漏洞,并通过预测潜在买家的购物旅程帮助广告商识别和简化销售流程。这是在服务器群上运行的数据中心应用程序的两个示例,这些应用程序采用了最新的GPU和AI加速器半导体技术。但数据中心不包括人工智能设计。许多新功能可以根据传感器输入的组合了解正在发生的事情,例如用于物体和面部检测的视觉系统、用于改进人机界面的自然语言理解以及上下文感知)。这些深度学习功能正在被添加到所有行业的SoC中,包括汽车、移动、数字家庭、数据中心和物联网(IoT)。为了实现最高性能,以云AI加速为目标的SoC设计人员专注于最大限度地提高性能以解决大问题。执行AI训练和最高精度所需的最复杂的AI算法需要大量处理器操作(TOPS),这最终会通过减少训练时间和减少推理所需的能量来降低成本。云计算市场中的这些半导体硬件创新正在促成并缩短了实现突破的时间,而这些突破被认为需要数年时间才能实现,例如,以识别和疫苗开发的形式发现最新的健康问题。治疗方法。然而,并非所有问题都可以在云端解决,因此许多AI加速器架构已被修改以支持边缘计算和设备端AI。在边缘服务器和插入式加速卡中,成本和功耗更为重要。随着我们在数据采集点越来越接近应用“边缘设备加速器”,优化单位能耗性能成为最高设计要求。边缘设备加速器的资源、处理和内存有限,因此需要压缩和定制经过训练的算法以满足功率和性能要求,同时保持所需的准确性。最大的AI部分是设备端AI,它影响了汽车ADAS、数字电视的超高分辨率图像、音频和语音识别以及智能扬声器中的语言理解等应用。此类应用包括执行面部检测、面部识别和对象识别的相机。例如,在某些行业中,相机中的设备上AI可以对工业应用程序进行缺陷分析。设备端AI类别还包括手机和AR/VR耳机等消费类应用,这些应用支持前面提到的许多AI功能,例如导航、超高分辨率图像、语音理解、物体/面部检测等.,所有这一切都在一个紧凑的尺寸。移动继续引领最新的流程节点,类似于用于云计算的流程节点。边缘和设备上计算继续优化性能。根据市场的不同,可以使用传统的工艺节点。2020年,AI市场仍处于起步阶段,未来几年有望快速增长。大于100W的云AISoC供应商包括市场领导者NVIDIA和英特尔。通过先发优势,这些玩家占据了优势地位。许多初创企业期望比这些解决方案的效率高很多倍。此外,谷歌、TPU、阿里巴巴、亚马逊、百度等系统公司也设计了自己的芯片并进行了优化,以支持其商业模式。所有这些公司都为客户提供云租赁服务,使他们能够在云端进行训练和推理。边缘计算(>5W)SoC通常利用现有的云解决方案或修改后的云架构,但许多初创企业已经找到了自己的利基,提供更低功耗和更优化的解决方案,同时在性能上的改进远远超过当今的解决方案。在图2中,低于5W的市场包括设备上和独立加速器,通常称为AIoT加速器,并且这个市场正在快速增长。对于设备端解决方案,移动市场在出货量方面占据主导地位,而汽车市场也在快速增长,例如特斯拉ASIC。AIoT加速器仍然只占5W以下市场的一小部分,但Perceive、Kneron、Gyrfalcon、Brainchip和GrAIMatterLabs等公司正在努力突破。每个AI细分市场都有不同的目标和挑战。CloudAISoC设计人员专注于减少昂贵的训练时间,同时适应可能包含80亿个或更多参数的最复杂的新算法。边缘计算AI设计更侧重于降低功耗和延迟。5G和设备上的AI旨在实现低延迟,但对于5G,这些AI并不用于压缩模型,因为这可能是一个非常昂贵且耗时的设计过程。对于设备上的AI,您需要通过压缩模型来最大化功能和性能的推理。最后,AIoT独立加速器设计者使用更多的创新技术,往往成为TOPS/W的领导者。他们在提高密度、降低延迟、应对存储因素波动等方面承担了更多风险,同时也是裁剪和压缩算法专家,为客户实现算法,提供独特的差异化能力。除了这些独特的挑战之外,AI市场还面临一系列核心挑战,包括:增加专门的处理能力以更高效地执行必要的数学运算,例如矩阵乘法和点积高效的内存访问以处理深度学习所需的独特系数,例如权重和激活用于芯片到芯片、芯片到云、传感器数据和加速器到主机连接的可靠且经过验证的实时接口保护数据并防止黑客攻击和数据损坏AI模型使用大量内存,这增加了芯片的成本。训练一个神经网络可能需要几GB到10GB的数据,需要使用最新的DDR技术来满足容量要求。例如,作为图像神经网络的VGG-16在训练时需要大约9GB的内存。更准确的模型VGG-512需要89GB的数据来训练。为了提高AI模型的准确性,数据科学家使用更大的数据集。同样,这会增加训练模型所需的时间或增加解决方案的内存要求。由于需要大规模并行矩阵乘法运算,以及模型的大小和所需的系数数量,这需要具有高带宽访问的外部存储器。新的半导体接口IP,例如高带宽存储器(HBM2)和未来的衍生产品(HBM2e),正被迅速采用以满足这些需求。先进的FinFET技术支持更大的片上SRAM阵列和具有自定义内存到处理器和内存到内存接口的独特配置,正在开发中以更好地复制人脑并消除内存的限制。可以压缩AI模型。这种技术对于确保模型在移动、汽车和物联网应用边缘的SoC中的受限内存架构上运行是必要的。压缩是使用修剪和量化技术执行的,不会降低结果的准确性。这使得传统的SoC架构(具有LPDDR,或者在某些情况下没有外部存储器)能够支持神经网络,但是,在功耗和其他方面需要权衡取舍。随着这些模型被压缩,不规则的内存访问和不规则的计算强度增加,延长了系统的执行时间和延迟。因此,系统设计人员正在开发创新的异构内存架构。AISoC设计解决方案在SoC中加入AI能力,凸显了当今SoC架构的AI弱点。在为非AI应用程序构建的SoC上实施视觉、语音识别和其他深度学习和机器学习算法时,资源是稀缺的。IP的选择和集成明确了AISoC的基线效率,构成了AISoC的“DNA”,或者说先天性。例如,引入定制处理器或处理器阵列可以加速AI应用程序所需的大规模矩阵乘法。云AI加速器为了应对带宽和可靠性挑战,云AI加速器SoC设计人员正在集成HBM2e和HBM3,以及用于芯片到芯片通信的高速SerDes芯片到芯片或PCIe。安全性,包括支持AI模型加密和认证的高速安全协议加速器,正在发挥越来越大的作用。嵌入式内存解决方案的多端口内存(TCAM)与SRAM编译器一起帮助减少泄漏。边缘计算AI加速器许多边缘计算应用程序的主要目标都围绕与低延迟相关的新服务展开。为了支持更低的延迟,许多新系统正在采用一些最新的行业接口标准,包括PCIe5.0、LPDDR5、DDR5、HBM2e、USB3.2、CXL、NVMeoverPCIe以及基于下一代标准的其他技术。与上一代技术相比,每项技术都通过增加带宽来降低延迟。比减少延迟更重要的驱动因素是为所有这些边缘计算系统添加AI加速。一些服务器芯片通过x86扩展AVX-512矢量神经网络指令(AVX512VNNI)等新指令或高通DSP内核等移动应用处理器提供AI加速。很多时候,这个额外的指令集不足以提供预期任务所需的低延迟和低功耗,因此定制的AI加速器也被添加到大多数新系统中。这些芯片所需的连接通常使用带宽最高的主机来实现加速器连接。例如,由于这些带宽要求直接影响延迟,PCIe5.0正在迅速获得广泛采用,最常见的是具有多个AI加速器的交换配置。CXL是另一种专门为减少延迟和提供缓存一致性而开发的接口,正在迅速兴起。由于AI算法具有异构计算要求和大内存要求,因此确保缓存一致性至关重要。在本地网关和聚合服务器系统之外,单个AI加速器通常无法提供足够的性能,因此这些加速器需要使用非常高带宽的芯片到芯片SerDesPHY进行扩展。最新版本的PHY支持56G和112G连接。支持AI扩展的芯片到芯片要求已在多个项目中实施。在基于标准的实施项目中,以太网可能是一个可扩展的选项,并且已经引入了一些基于这个概念的解决方案。然而,当今的许多实施通过专有控制器使用最高带宽的SerDes。不同的架构可能会改变未来服务器系统的SoC架构,从而将网络、服务器、AI和存储组件组合成一个集成度更高的SoC,而不是目前实现的4个不同的SoC。设备端AI设备端AI处理的最大问题之一是软件功能。算法变化很快。设计人员需要使用Tensorflow和Caffe等传统工具训练初始模型,然后将其映射到设备上的处理器。许多项目可以使用针对特定处理器进行优化同时保持高精度的图形映射工具以及用于压缩和修整的工具来节省数月的时间和精力。没有这些工具,软件和系统设计就无法跟上硬件设计。优化的内存配置可以优化设备上的人工智能系统。在开始设备本身的架构设计之前,设计人员需要能够模拟多个IP权限和配置的工具。通过在运行实际算法的同时利用处理器模拟片上和片外存储器,设计人员在开始设计之前获得最高效的架构。由于一些设计人员还不知道如何优化系统,他们往往需要为同一个工艺节点开发多代产品,这可能会浪费数月的时间。最后,传感器连接对于设备上AI系统的愿景至关重要。MIPICSI-2是CMOS图像传感器最常见的实现。新的V3规范旨在改善机器感知并支持更高的精度,从而产生更高质量的图像。特别是,智能化的能力应该有助于提高效率,因为新数据仅在需要时提供,而不是整个画面。I3C集成了多个传感器,为支持多个系统输入源提供了一种低成本的方法。随着AI功能进入新市场,选择用于集成的IP为AISoC提供了关键组件。但除了IP之外,设计人员在利用AI专业知识、服务和工具方面发现了明显的优势,以确保按时交付设计、高质量服务和高价值给最终客户,以满足新的和创新的应用需求。