当前位置: 首页 > 科技赋能

端上运行大型模型,NPU和异构计算带来全新的“一步到位”体验

时间:2024-05-19 16:50:42 科技赋能

自年底ChatGPT问世以来,生成式AI的应用和想象席卷而来。

以出行规划场景为例。

我们可以直接要求助手到终端上的AI旅行APP规划旅行行程。

AI助手可以立即给出航班行程建议,与用户进行语音对话调整行程,最终通过Skyscanner等插件创建完整的航班时刻表。

这样的终端侧生成式AI技术如何为用户带来一站式体验?近日,高通技术公司高级产品管理经理 Ziad Asghar 解释了这一场景背后的技术实现流程。

首先,用户的语音输入需要通过自动语音识别(ASR)模型Whisper转换为文本。

Whisper是OpenAI发布的约2.4亿个参数的模型,主要运行在高通传感器中枢上。

接下来,使用Llama2或百川语言模型根据文本内容生成文本回复。

该模型在 Hexagon NPU 上运行。

然后需要通过 CPU 上运行的开源 TTS(TexttoSpeech)模型将文本转换为语音。

最后,通过我们的调制解调器技术连接并使用 Skyscanner 插件进行预订。

如此流畅体验的背后,如何通过选择合适的异构计算处理器来高效适应各个环节的不同任务就成为了关键。

随着垂直领域对生成式AI用例的需求不断增加,需求和计算需求多样化,为AI定制的新计算架构——神经网络处理器(NPU)成为了新的需求,我们也必须利用异构 架构处理器的组合,例如中央处理单元 (CPU) 和图形处理单元 (GPU)。

至此,高通率先演示了如何利用NPU和异构计算在终端侧赋能丰富的生成式AI用例。

高通的异构计算引擎Qualcomm AI Engine由不同的处理器组件组成,包括CPU、GPU、NPU(神经网络处理器)和高通传感器中枢,它们协同工作以创造出色的体验。

其中,不同的处理器组件扮演着不同的角色。

CPU擅长顺序控制,非常适合需要低延迟的应用场景,因此我们会在需要非常高延迟的用例中使用CPU。

CPU也适用于相对较小的传统模型,例如卷积神经网络模型(CNN),或者一些特定的大型语言模型(LLM)。

此外,CPU 功能取决于具体的产品类型。

如果是传统的PC芯片,它的CPU功能会非常强大;如果是汽车芯片,就会更加注重NPU能力。

GPU主要擅长高精度格式的并行处理,例如对图像质量要求非常高的图像和视频处理。

NPU 提供业界领先的每瓦性能。

尤其是在需要持续稳定的高峰值性能和低功耗的持续使用场景中,NPU更能发挥其最大优势。

NPU 的每瓦性能在基于 LLM 和大视觉模型 (LVM) 的不同用例(例如稳定扩散或其他扩散模型)中表现出色。

通过将正确的处理器与 NPU 结合使用,异构计算可实现最佳的应用程序性能、能源效率和电池寿命,从而实现全新且增强的生成式 AI 体验。

图 1:就像在工具箱中选择正确的工具一样,选择正确的处理器取决于许多能够增强生成式 AI 体验的因素。

异构计算的重要性生成式人工智能的多样化要求和计算需求需要不同的处理器来满足。

支持处理多样性的异构计算架构利用每个处理器的优势,例如 NPU、定制设计的以 AI 为中心的 NPU 以及 CPU 和 GPU。

每个处理器擅长不同的任务:CPU 擅长顺序控制和即时性,GPU 擅长并行数据流处理,NPU 擅长核心 AI 工作负载的标量、向量和张量数学运算。

异构计算可实现最佳的应用程序性能、能源效率和电池寿命,从而最大限度地提高生成式 AI 最终用户体验。

图 2:NPU 随着不断变化的 AI 使用案例和模型而不断发展,从而实现高性能和低功耗。

什么是神经网络处理器NPU(神经处理单元)? NPU 是专门为以低功耗加速 AI 推理而设计的,其架构随着新的 AI 算法、模型和用例的发展而不断发展。

AI 工作负载主要由神经网络层计算组成,其中包括标量、向量和张量数学以及非线性激活函数。

良好的NPU设计可以做出正确的设计选择来处理这些AI工作负载,并与AI行业的方向高度一致。

图 3:Qualcomm AI Engine 包括 Qualcomm Hexagon NPU、Qualcomm Adreno GPU、Qualcomm Kryo 或 Qualcomm Oryon CPU、Qualcomm 传感器中枢和内存子系统。

高通领先的NPU和异构计算解决方案高通正在帮助智能计算无处不在。

业界领先的 Qualcomm Hexagon NPU 专为持续稳定、高性能且低功耗的 AI 推理而设计。

高通NPU的差异化优势在于系统级解决方案、定制设计和快速创新。

通过定制设计 NPU 和控制指令集架构 (ISA),高通能够快速发展和扩展设计,以解决瓶颈并优化性能。

Hexagon NPU是高通AI引擎中的关键处理器,高通业界领先的异构计算架构还包括高通Adreno GPU、高通Kryo或高通Oryon CPU、高通传感器中枢和内存子系统。

这些处理器旨在协同工作,在设备上快速高效地运行人工智能应用程序。

我们在人工智能基准测试和现实世界的生成式人工智能应用程序中行业领先的表现就证明了这一点。

阅读白皮书,详细了解 Qualcomm NPU、我们的其他异构处理器以及第三代 Snapdragon 8 和 Snapdragon X Elite 上业界领先的 AI 性能。

图 4:高通 AI 软件堆栈旨在帮助开发人员编写一次、随处运行并大规模扩展。

赋能开发者加速生成式AI应用我们致力于在全球数十亿搭载高通和骁龙平台的终端设备上实现便捷的开发和部署,为开发者赋能。

使用高通人工智能堆栈,开发人员可以在高通硬件上创建、优化和部署人工智能应用程序。

一旦编写完成,它们就可以使用高通芯片组解决方案部署在不同的产品和细分市场中。

通过将技术领先、定制芯片设计、全栈人工智能优化和生态系统赋能相结合,高通技术公司在推动设备端生成式人工智能的开发和应用方面拥有独特的优势。

Qualcomm Technologies 正在实现设备端生成人工智能的规模化。