当前位置: 首页 > 科技观察

自适应计算如何解决AI产品化挑战

时间:2023-03-21 19:44:52 科技观察

AI技术在飞速发展的今天,创新的步伐也在不断加快。虽然软件行业已经成功布局人工智能,但包括汽车、工业、智慧零售在内的硬件行业在人工智能产品化方面还处于起步阶段。AI算法概念验证(PoC)无法成为真正的硬件部署,但仍然存在很大差距。这些缺陷主要是由于数据量小、输入数据“不完美”以及不断变化的最新模型。软件开发人员和人工智能科学家如何克服这些挑战?答案在于更具适应性的硬件。数据量小谷歌、Facebook等互联网巨头每天都会定期收集和分析大量数据。他们使用这些数据来创建具有可接受性能的AI模型。在这种情况下,用于训练模型的硬件与用于运行模型的硬件非常不同。另一方面,在硬件行业,大数据的可用性受到更多限制,导致AI模型不成熟。因此,组织需要收集更多数据并运行在线模型,在部署的硬件上进行训练和推理,以不断提高准确性。为了解决这个问题,经过验证的现场可编程门阵列(FPGA)和自适应片上系统(SoC)等设备上的自适应计算可以运行推理和训练,以使用新捕获的数据不断更新。传统的人工智能训练需要在云平台或大型数据中心进行,需要数天甚至数周才能完成。另一方面,实际数据主要在边缘生成。在同一台边缘设备上运行AI推理和训练不仅可以降低总体拥有成本(TCO),还可以减少延迟和安全问题。“不完美”的输入以X光图像为例,采用AI模型概念验证(PoC)来更准确地检测冠状病毒变得越来越容易,但这些概念验证(PoC)几乎总是基于处理好的输入图片和信息。在现实生活中,来自医疗设备、机器人和移动汽车的摄像头和传感器输入会产生随机失真,例如图像变暗和物体角度不当。该输入数据首先需要通过复杂的预处理进行清理和重新格式化,然后才能输入人工智能模型。预处理对于理解AI模型的输出和计算正确的决策非常重要。的确,某些芯片可能非常擅长加速AI推理,但它们几乎只能加速特定的应用程序子集。以智能零售行业为例,预处理包括多流视频解码,然后使用传统的计算机视觉算法对视频进行大小调整、变形和格式化。预处理还包括对象跟踪和数据库查找。最终客户不太关心AI推理能运行多快,而更关心满足整个应用程序管道的视频流性能和/或实时响应能力。FPGA和自适应概念验证(PoC)在使用特定领域架构(DSA)加速这些预处理方面拥有良好的记录。此外,添加AI推理概念验证(PoC)将使整个系统得到优化,以满足端到端的产品要求。不断变化的“最先进”模型AI研究社区如今越来越活跃,世界各地的研究人员每天都在开发新的AI模型。这些模型提高了准确性,减少了计算要求,并处理了新型人工智能应用程序。这些快速创新给现有的半导体硬件设备带来了压力,需要更新的架构来有效地支持现代算法。MLPerf等标准基准测试表明,在运行真实的AI工作负载时,最先进的CPU、GPU和AIASIC芯片的性能比宣传的性能低30%。这种情况一直在推动对特定领域架构(DSA)的新需求,以跟上创新的步伐。最近的几个趋势推动了对新的特定领域架构(DSA)的需求。Depthwiseconvolution是一个新兴的层,需要更大的内存带宽和特殊的内存缓存才能有效。典型的AI芯片和GPU都具有固定的L1/L2/L3缓存架构,内存带宽有限,效率非常低。研究人员不断开发当今芯片本身无法支持的新定制层。因此,它们需要在没有加速的情况下运行在服务器的CPU上,这往往成为性能瓶颈。稀疏神经网络是另一种有前途的优化方法,它通过修剪网络边缘、去除卷积中的细粒度矩阵值等方式对网络进行大量修剪,有时修剪率高达99%。然而,要在硬件中高效运行,需要专门的稀疏架构,大多数芯片根本没有用于这些操作的编码器和解码器。二元/三元是一种极端的优化,将所有的数学运算都转换为位运算。大多数人工智能芯片和GPU只有8位、16位或浮点计算单元,因此执行极低的精度不会获得任何性能或功率效率。FPGA和自适应SoC是完美的,因为开发人员可以开发完美的DSA并对现有设备进行非常高的工作量重新编程。作为证明,最新的MLPerf包括Xilinx-Mipsology提交的文件,该文件使用ResNet-50标准基准实现了100%的硬件数据表性能。没有硬件专业知识?不用担心。从历史上看,FPGA和自适应SoC面临的最大挑战是需要硬件专家来实施和部署DSA。好消息是,现在有工具(例如Vitis统一软件平台)支持C++、Python和流行的AI框架(例如TensorFlow和PyTorch),弥合了软件和AI开发人员之间的鸿沟。除了在软件抽象工具方面的更多发展之外,Vitis硬件加速库等开源库极大地促进了开发人员社区的采用。在最近的设计竞赛中,Xilinx吸引了1,000多名开发人员的参与,并发布了许多创新项目,从手势控制无人机到使用二进制神经网络的强化学习。重要的是,大多数提交的项目都是由之前没有FPGA经验的软件和AI开发人员贡献的。这证明FPGA行业正在采取正确的步骤,使软件和AI开发人员能够解决现实世界的AI产品化挑战。直到最近,释放硬件适应性的潜力对于软件开发人员和人工智能科学家来说还是遥不可及的。过去需要特定的硬件专业知识,但由于有了新的开源工具,软件开发人员现在可以使用适应性强的硬件。凭借这种全新的编程便利性,FPGA和自适应SoC将更容易为软件开发人员和AI科学家所用,从而使这些设备成为下一代应用的首选硬件解决方案。实际上,DSA将代表AI推理的未来,因为软件开发人员和AI科学家会利用硬件的适应性来支持他们的下一代应用程序。