当前位置: 首页 > 科技观察

专为AI-ML应用设计,Achronix发布SpeedcoreGen4eFPGAIP

时间:2023-03-14 13:14:14 科技观察

【.com原稿】AI和深度学习技术的应用对计算能力提出更高要求,面向数万联网设备和数十亿至万亿每秒操作数,传统数据中心面临着巨大的挑战,已经难以满足数据速率的指数级增长、快速变化的安全协议以及新的网络和连接要求。FPGA作为专业领域的计算产品,很好的解决了这个问题。其强大的计算能力和低功耗可以在设备端完成数据计算,减轻数据中心的计算压力。Achronix作为FPGA行业的优秀厂商之一,在该领域深耕多年。近日,Achronix又发力推出了第四代eFPGA产品SpeedcoreGen4eFPGAIP。除了台积电7nm工艺生产的标杆联想,在设计手法上也更进一步。  算力推动芯片革命  这是一个万物互联的时代,物联网的迅速普及,固定和无线网络带宽的急剧增加,加上处理能力向边缘的重新分配,而数十亿物联网设备的出现,将给传统的网络和计算基础设施带来压力。这种新的处理模式意味着每秒数十亿到数万亿次操作。传统的云和企业数据中心计算资源和通信基础设施无法跟上数据速率的指数增长、快速变化的安全协议以及许多新的网络和连接要求。传统的多核CPU和SoC无法在没有辅助的情况下独立满足这些要求,因此它们需要硬件加速器(通常是可重新编程的硬件加速器)来预处理和卸载计算,以提高系统的整体计算性能。经过优化的SpeedcoreGen4eFPGA可以满足这些应用要求。  Achronix营销副总裁SteveMensor在11月底的媒体沟通会上表示,物联网的快速发展为FPGA芯片带来了巨大的机遇。难点,减轻数据中心的压力,是FPGA企业必须深思的问题。他表示,不同的应用需要不同的芯片来完成。例如,计算加速需要高能耗比,5G需要低功耗和高性能可编程芯片,计算存储需要低功耗和低成本,需要使用网络加速和智能卡。用于CPU卸载的高速加速器,而汽车驾驶需要低成本和低功耗的硬件加速。“  Mensor说GPU和FPGA比计算芯片更适合AI/ML的这些多种应用场景。当然GPU更适合云计算,FPGA更适合边缘计算。”  专用AI/ML设计的专用加速芯片  SpeedcoreGen4eFPGA是一个完整的人工智能/机器学习计算引擎,支持定点和多种浮点格式和精度。每个机器学习处理器都包含一个循环寄存器文件,用于存储可重复使用的权重或数据。每个ML处理器都与相邻的ML处理器单元和更大的内存单元紧密耦合,以提供最高的处理性能、最高的每秒操作数和最高的功率多样性。这些机器学习处理器支持多种定点和浮点格式,包括Bfloat16、16位、半精度、24位和单元块浮点。用户可以通过为其应用选择最佳精度来实现精度和性能的平衡。  为了补充机器学习处理器并提高AI/ML的计算密度,SpeedcoreGen4查找表(LUT)可以实现两倍于任何独立FPGA芯片产品的乘法器。领先的独立FPGA芯片在21个LUT中实现了6x6乘法器,而SpeedcoreGen4仅在11个LUT中实现了相同的功能,并以1GHz的速率运行。  Mensor告诉我们,逻辑单元的增强、Speedcore的下一代路由结构、AI/ML专用DSP单元MLP的优化,都大大提升了SpeedcoreGen4eFPGA的性能。  数据显示,与上一代Speedcore产品相比,全新的SpeedcoreGen4架构实现了多项创新,整体系统性能可提升60%。查找表的所有方面都得到了增强,以支持使用最少资源实现各种功能,从而减少面积和功耗并提高性能。其中的变化包括加倍ALU的大小,加倍每个LUT的寄存器数量,支持7位功能和一些8位功能,以及移位寄存器的专用高速连接。  Mensor表示,对于量产的Speedcore架构,Achronix可以在6周内为客户配置并提供SpeedcoreeFPGAIP和支持文件。使用台积电7nm工艺节点的SpeedcoreGen4将于2019年上半年进入量产,但芯片设计人员现在可以联系Achronix以获得支持其特定需求的SpeedcoreGen4实例。Achronix也将在2019年下半年为台积电16nm和12nm制程节点提供SpeedcoreGen4eFPGAIP。【原创稿件,合作网站转载请注明原作者和出处为.com】