人工智能开始影响半导体设计,架构师开始利用人工智能技术来提高芯片性能并降低芯片功耗,为未来芯片的开发、制造和更新奠定基础。
人工智能和机器学习以及深度学习的子集可用于极大地提高芯片内特定功能的控制和性能。
它们可以分层在现有设备之上并集成到新设计中,从而使其能够应用于更广泛的功能。
。
人工智能有很多好处。
其中:它通过更稀疏的算法或数据压缩来改变特定函数的精度,从而增加粒度,提高性能并降低功耗;提供了将数据作为模式进行处理的能力,有效提高了计算的抽象程度,增加了软件的密度;它允许处理和内存读写作为矩阵完成,并大大加快这些操作的速度。
但人工智能还需要重新思考数据在芯片中的运行方式:无论是应用在边缘还是数据中心,因为无论哪种情况,处理和存储的数据量都是巨大的。
新的起点从好的方面来说,人工智能提供了一种平衡高精度结果的方法,而不是使用更多低精度元素来实现足够高的精度。
就语音识别而言,准确性远不如安全应用中的面部识别或自动驾驶车辆中的物体识别重要。
人工智能带来的是在特定应用程序需要时输入这些结果的能力。
AI应该用在芯片上,这实际上是关于数据的质量、数量和移动。
这需要以不同的方式看待设计,包括团队之间的协作。
“计算非常简单,压缩/解压缩数据很简单,但在内存中存储和加载数据并不简单,”Arm 研究员 Jem Davies 说。
“要构建这些系统,你需要特定领域的专家,例如机器学习专家以及优化和性能方面的一些专家。
”他指出,机器学习可以影响系统中的一切,其中大部分是用户看不见的,”戴维斯说,“而且还使用了机器学习方法。
“人工智能最适合神经形态方法和不同的内存结构,其中数据可以被视为矩阵,它需要远远超出处理器的架构,它需要在内存中来回传输大量数据。
音频和产品营销总监 Gerard Andrews 表示:“许多架构改进都是软件和硬件的结合。
” Cadence 的语音 IP 不一定会提高单个处理器的整体性能,但它确实会增加功耗和内存效率,这实际上可以提高软件设计的密度并加快数据的移动。
记忆。
“我们看到的问题是,内存没有有效缩小,识别错误率正在上升,”安德鲁斯说。
“我们正在探索算法的稀疏性,以降低功耗并提高性能。
”这只是正在发生的变化的表面,而且这些变化正在迅速发生。
“内存子系统中发生的事情是不连续且突然的,”Achronix 系统架构师 Kent Orthner 说。
“由于需要大量数据管道,因此开发了许多关于如何移动数据的架构。
对于相对较浅的内存使用来说这是一个巨大的障碍。
“正在探索减少数据流量的新方法之一是尖峰神经网络。
因此,它们不是同时发射,而是像人脑中的信号一样尖峰。
人工智能风险和混乱然而,人工智能也存在一定程度的风险,具体取决于应用和精度。
电子系统过去是基于逻辑的完全可预测性来设计的,其中大部分是硬连线的。
人工智能用可接受行为的分布取代了计算准确性。
目前还不清楚现有的工具或方法是否能够提供与设备在此分布中运行相同水平的置信度,特别是在系统损坏或降级的情况下,以及检测到任何异常行为的速度。
对于如何应用人工智能也存在一些困惑。
目前,很多芯片并不是专门为AI开发的,而是经过修改和重写,以更有效地利用AI。
总体而言,这符合人工智能的初衷。
这项技术是在全行业竞争以相同或更低功耗提高性能的背景下应运而生的。
对于针对人工智能训练或推理的芯片,或者针对利用人工智能功能的芯片内的处理器和加速器的芯片,普遍的共识是使用不同的芯片架构可以实现几个数量级。
但它并不适用于所有情况,并且有许多变量,例如训练数据的大小和值,可能会使人工智能对某些应用程序毫无用处。
在其他情况下,性能改进被认为是保守的。
Synopsys战略营销经理Ron Lowman表示:“存在应用和算法方面的挑战,也存在处理器和存储芯片方面的挑战。
这使得对于AI架构的探索显得更加重要,同时也是CCIX(Cache)的核心加速器的一致性互连)。
此外,还有许多关于数据压缩和量化的工作正在进行中。
到 8 位浮点,”Lowman 说。
“现在的问题是是否可以取单个位并进行量化。
”量化涉及将大量输入值映射到较小的一组输出值。
最担心的是可接受的准确性损失。
有了足够的传感器或数据输入,理论上可以最大限度地减少这种错误率的影响,但这非常依赖于应用。
另一种方法涉及源同步,特别是对于数据中心的人工智能芯片,这会促使片上网络拓扑发生变化。
网络中的所有目标都接收相同的数据,并且使用多播方法可以更有针对性地利用数据。
Arteris IP 营销副总裁 Kurt Shuler 表示:“通过多播,您可以一次写入多个目的地。
”人工智能芯片的一个问题是它们往往非常大。
“最大的问题是时钟树,”舒勒说。
“这需要同步通信,因为如果以异步方式处理通信,会占用很大的面积。
另外,在大芯片上更容易出现路由拥塞。
解决这个问题的方法是创建虚拟通道链路,这可以减少电线数量并通过一组电线共享通信。
”过时规划的另一部分涉及能够跟上定期更新的算法,并影响添加到使用人工智能的芯片中的处理器,其中每一个都会影响芯片内的数据移动以及用于该移动的处理器类型。
CPU 和 GPU 主要通过软件提供一些可编程性,而嵌入式 FPGA 则直接向 SoC 或多芯片封装添加可编程性。
对于汽车或工业环境中的安全关键型应用,该技术将保持最新状态并具有足够的响应能力,以便与道路上的其他车辆或工厂中的其他设备兼容。
”说,“当我们谈论面向未来时,问题不在于它作为开拓者的 TPU 是否能够实现数量级的改进。
但对于新的工作负载,如果 ASIC 没有进行优化,你可能只会有 3 倍的提升。
“提高数据质量有助于解释为什么算法变化如此之快,以及为什么现场可升级性对于某些设备至关重要。
但这些变化也会对性能产生影响,如果不在硬件中添加一些可编程性,就无法解释这些影响。
问题是它的可编程性如何,因为可编程逻辑比硬件调整到软件要慢得多。
结论与许多其他半导体增长市场不同,它可以应用于各种垂直市场领域,也可以用于为这些市场开发芯片。
这只是人工智能革命的开始,随着设计团队更加精通这项技术,它将对他们设计芯片的方式产生重大影响。
这些芯片如何与其他芯片交互,将为工具、硬件、软件开发人员创造新的机会,甚至可能提供全新的市场。