当前位置: 首页 > 科技观察

AI芯片架构争先恐后

时间:2023-03-12 02:43:44 科技观察

各大公司竞相将各种芯片架构作为将AI推向边缘的首选武器。随着机器学习应用程序开始出现在终端设备和物联网网络的边缘,支持人工智能的加速器可能看起来更像FPGA和SoC模块,而不是英特尔和英伟达目前面向数据中心的芯片。).人工智能和机器学习需要强大的芯片来计算大型数据集的答案。大多数人工智能芯片——包括训练和推理——都是为数据中心开发的。然而,这种趋势可能很快就会改变。这种处理的很大一部分将发生在边缘、网络边缘或传感器和传感器阵列内部或附近。培训几乎肯定会留在云端,因为这部分资源最有效的产品是Nvidia的GPU,它主导了这部分市场。虽然数据中心可能会承担海量数据集的训练部分,但推理可能会在边缘结束。市场预测似乎也同意这一点。Tractica研究总监兼AIattheEdge报告作者AdityaKaul表示:“推理硬件市场是一个新市场,但变化很快。数据中心存在一些机会,并将继续存在.基于云的数据中心AI芯片市场将继续增长......但推理处于边缘,这就是它开始变得引人注目的地方。至少有70家专业AI公司正在研究某种与芯片相关的AI技术”Kaul表示:“在边缘,智能手机、机器人、无人机等所有需要AI处理的设备,比如摄像头、安防摄像头等,未来都会很火爆。”图1:按市场部门划分的深度学习芯片组收入。(来源:Tractica)到2025年,基于云的AI芯片组将带来146亿美元的收入,而基于边缘的AI芯片组将带来516亿美元的收入,是数据中心的3.5倍,edgeAIchips该群体主要由手机、智能音箱、无人机、AR/VR耳机以及其他所有需要AI处理的东西组成。远离数据中心的边缘计算的AI市场?那些芯片会是什么样子?AI边缘芯片需要什么。这很困难,尤其是边缘设备处理的大部分数据都是庞大的视频和音频数据。“数据很多,但如果你有监控摄像头,它必须能够实时识别坏人,而不是将照片发送到云端,然后等着看是否有人认出他,”Wawrzyniak说。图2(来源:BarclaysResearch,2018年5月报告,由Xilinx提供)向边缘设备添加ML级智能的一些愿望来自于需要保持这些设备上的数据的私密性,或降低将数据发送到的成本云端。然而,大部分需求来自客户,他们希望他们的设备位于边缘计算设施或客户手中,而不是简单地收集数据并定期将其发送到云端,以便他们可以直接与公司自己的数据或其他人进行通信客户和客户。路人实时互动。恩智浦半导体AI技术总监MarkusLevy表示:“客户意识到他们不想将大量处理转移到云端,因此他们认为边缘才是真正的目标。现在你可以在“在边缘,你可以把物联网变成一个真实的世界。有能力的东西。我们看到消费者物联网、工业物联网和嵌入式领域的增长非常迅速,这是我们最大的增长领域。”据IDC分析师ShaneRau称,今年IDC调查的商业技术客户表示,他们肯定会将机器学习转移到边缘设备,主要是汽车、智能家居、视频监控摄像头和智能手机。该公司的客户调查将这四种设备列为边缘AI架构趋势边缘计算需求可能来自数以亿计的工业和消费设备,因此任何单一架构都不太可能满足所有这些需求。NXP的Levy表示:在微控制器上运行推理模型并且相对较低-端芯片很好,但大多数机器学习功能需要从一长串基于FPGA、ASIC和其他SoC配置的可选CPU中选择额外的项目,以及GPU和CPU的组合,有时还需要像谷歌的TPU这样的专用ASIC来增强。大多数增强功能都以加速器的形式出现。这些FPGA、SoC、ASIC和其他专用芯片旨在帮助资源约束基于x86的设备通过逐层分析标准处理大量图像或音频数据,因此应用程序可以正确计算和加权每条数据的价值。英特尔和英伟达对边缘人工智能市场发起了进攻。Kaul说,像Nvidia的Jetson这样的产品并不令人信服。Jetson是一个GPU模块平台,功率预算为7.5W,是Nvidia更典型产品70W的一小部分,但对于通常不超过5W的边缘应用来说仍然太高了。“有很多IP公司都在关注神经网络的加速,因此有足够的选择让加速器开始成为边缘设备推理的必要条件,”Levy说。图3:按类别划分的AI边缘设备出货量。(来源:Tractica)然而,在潜在的数亿设备上添加ML加速和支持将需要更多的可定制性、更低的成本以及对资源受限设备上的ML应用程序的更具体要求。规范——这意味着整个市场要取得成功就需要更好的处理器。神经推理需要数万亿次乘法累加运算,因为模型从其公式矩阵的一层提取数据,尽管每一层可能需要不同的数据大小,并且其中一些设备可能将输入设置为8位整数而不是16位整数bit对整数运行得更快。FlexLogix联合创始人兼首席执行官GeoffTate表示:“为了在数据中心获得良好的吞吐量,大多数架构都依赖于必须使用同一组权重创建的数十或数百个任务。如果您使用28图像,您加载图像,从第1阶段加载权重,在第1阶段进行数学计算,保存结果,然后从第2阶段加载权重。通过在每一层上执行所有28个批次,您可以将权重加载时间减少到1/28ofloadingonlyoneattime.如果加载和管理权重是你不擅长的事情,你可以通过批处理来解决。这就是为什么你看到基准测试显示28次运行的批次效率低于批次1。很难如果权重加载缓慢,则缩放。但是你必须在数据中心之外的任何地方执行此操作。如果你有监控摄像头,你必须在处理图像时对其进行处理,以便批处理大小始终等于1。如果你在测量性能时,批量大小在数据中心外始终等于1。”FlexLogix开发的神经网络引擎可以避免批处理问题。“因为我们加载权重的速度非常快,所以我们不需要批处理,而且我们在第1批和第28批上的性能是一样的,这在边缘应用,”Tate说,并在硬件方面推断出两个项目新工作Xilinx正试图利用其在FPGA和系统级设计方面的经验来推出新的产品系列和路线图,以解决尽可能多的边缘/设备市场。Xilinx讨论了这个想法是去年春天提出的,但直到10月才正式宣布,它描述了一个自适应计算加速平台,“利用CPU、GPU和FPGA的力量来加速一切。”Xilinx的演示文稿描述了广泛的产品线、用例列表和有关其AI引擎核心的详细信息,其目标是提供比传统方法高3-8倍的单位芯片面积性能,并具有高性能DSP功能。同时,FlexLogix创建了一种使用低DRAM带宽的可重构神经加速器。明年上半年完成芯片面积和功率的目标规格,下半年流片。推理引擎将充当CPU,而不仅仅是更大、更高级的加速器。它提供了一个模块化、可扩展的架构,旨在通过减少移动数据的需要并通过改进数据和矩阵计算的加载方式来减少瓶颈,从而减少移动数据的时间和精力成本。该芯片将DRAM专用于单个处理器块,而不是将其作为一个大型内存池进行管理。DRAM不能同时将数据馈送到芯片的多个部分。“将DRAM视为流入一个处理器块的大量内存,这是典型的范诺依曼架构,不会成为神经网络的成功架构,”Tate说。