文|半导体行业纵横AI计算指的是以“深度学习”为代表的神经网络算法,要求系统高效处理大量非结构化数据(文本、视频、图像、语音等)。
硬件需要具备高效的线性代数计算能力,计算任务具有单元计算任务简单、逻辑控制难度要求低、但并行运算量大、参数多等特点。
对芯片的多核并行计算、片上存储、带宽、低延迟内存访问等都提出了更高的要求。
AI应用场景的丰富带来了诸多碎片化需求,适应各种功能的处理器也基于此不断衍生。
CPUCPU是中央处理单元(CentralProcessingUnit)。
作为计算机系统的计算和控制核心,主要负责多任务的管理和调度。
它具有很强的通用性,是计算机的核心主导部件,就像人的大脑一样。
但其计算能力不强,更擅长逻辑控制。
正是因为CPU的并行计算能力不是很强,所以很少有人优先考虑直接在CPU上训练模型。
然而芯片巨头英特尔却选择了这样的道路。
像英特尔至强可扩展处理器这样的AI内置CPU在支持模型训练方面有了很大的提升,去年莱斯大学、蚂蚁集团、英特尔等机构的研究人员发表的论文显示,运行在消费级CPU上的AI软件可以训练深度神经网络比 GPU 快 15 倍。
另外,CPU的内存比显存更容易扩展。
许多推荐算法、排序模型、图片/图像识别等应用已经投入使用。
大量使用CPU作为基础计算设备。
与昂贵的GPU相比,CPU实际上是一种性价比非常高的训练硬件。
也非常适合制造、图像处理与分析等对结果精度要求高且成本考虑的行业客户的深度学习模型。
GPUGPU即图形处理单元,使用大量计算单元和超长管线,擅长图像处理和并行计算。
对于复杂的单一计算任务,CPU具有更高的执行效率和更大的通用性;而对于图形图像等矩阵多像素点的简单计算,则更适合由GPU来处理,有人称之为人海战术。
在AI领域,用于图像识别的深度学习、用于决策推理的机器学习以及超级计算都需要大规模并行计算,因此GPU架构更加适合。
多核CPU和GPU的计算网格(图中绿色方块为计算单元)。
CPU和GPU的另一个很大的区别是,CPU可以单独行动来处理复杂的逻辑运算和不同的数据类型,但是当需要处理大量相同类型的数据时,就可以调用GPU来处理。
并行计算。
但GPU不能单独工作,必须受CPU控制才能工作。
在AI计算领域,NVIDIA的GPU几乎占据了大部分市场。
不过,近年来,国内不少企业纷纷进军高端GPU。
例如,沐希首款采用7nm工艺的异构GPU产品已于不久前流片并发布。
单芯片峰值算力达到PFLOPS的BR100也已发布。
燧原科技、黑芝麻、地平线等公司都在发力高端GPU。
DPUDPU是数据处理单元,用于优化卷积神经网络,广泛用于加速深度学习推理算法。
当CPU算力释放遇到瓶颈时,DPU可以卸载CPU的基础层应用(如网络协议处理、加解密、数据压缩等),从而释放CPU低效应用侧的算力。
CPU的计算能力集中在上层应用上。
与GPU不同的是,DPU主要用于分析处理数据,提高数据接收的效率,而GPU则侧重于数据的加速计算。
因此,DPU有望成为释放CPU算力的新关键芯片,与CPU和GPU优势互补,提高算力天花板。
DPU 还具有高性能网络接口,可以解析、处理数据,并以线速或网络中可用的速度高效地将数据传输到 GPU 和 CPU。
NVIDIA收购Mellanox后,以其独创的ConnectX系列高速网卡技术推出了BlueField系列DPU,成为DPU赛道中的标杆。
Nvidia CEO黄仁勋也曾表示:“DPU将成为未来计算的三大支柱之一。
未来数据中心的标准配置是‘CPU+DPU+GPU’。
CPU用于通用计算,GPU用于加速计算,然后DPU进行数据处理。
”当前的DPU市场已经成为各巨头和初创公司的必争之地。
除了英伟达等公司开始布局DPU产业外,阿里巴巴、华为等各大云服务商也逐渐加入这一行列。
DPU行业。
其他还有新启元、大宇智信、星云智联、中科御数、云宝智能等公司。
TPUTPU(TensorProcessingUnit)是谷歌专门开发的一款ASIC芯片,用于加速深度神经网络的计算能力。
它是一款致力于机器学习的人工智能加速处理器。
人工智能系统通常涉及训练和推理过程。
简单来说,训练过程是指从现有数据中学习并获得一定能力的过程;而推理过程是指利用这些能力用新数据完成特定任务(如分类、识别等);推理是将深度学习训练结果转化为使用的过程。
俗话说,通用工具永远不如专用工具有效。
与同时期的CPU和GPU相比,TPU可提供15-30倍的性能提升和30-80倍的效率(性能/瓦)提升。
此外,TPU中采用GPU常用的GDDR5显存,可将性能TPOS指标进一步提升3倍,能效比指标TOPS/Watt提升至GPU的70倍、CPU的200倍。
2016年TPU消息刚刚公布时,谷歌高级硬件工程师Norman Jouppi在Google Research博客中特别提到,TPU从测试到量产只用了22天,其性能将人工智能技术向前推进了近7倍。
年,这是相当多的。
三代摩尔定律。
IPUIPU,即智能处理单元,可以为从图像传感器到显示设备的数据流提供全面的支持,并连接到相关设备,如摄像头、显示器、图形加速器、电视编码器和解码器。
相关的图像处理和操作包括传感器图像信号处理、显示处理、图像转换等,以及同步和控制功能。
它采用大规模并行同构众核架构,将训练和推理合二为一,为AI计算提供了一种全新的技术架构,具备同时处理这两项任务的能力。
IPU是英国AI芯片初创公司Graphcore首先提出的概念。
Graphcore第一代IPU现已应用于微软Azure云和Dell-EMC服务器,为AI算法带来巨大的性能提升,为开发者带来收益。
来到更广阔的创新空间和更多的创新机会。
目前,IPU正在成为继GPU和谷歌TPU之后的第三大部署平台。
基于IPU的应用已经涵盖了自然语言处理、图像/视频处理、时序分析、推荐/排名、概率模型等各种机器学习应用。
场景。
2021年,英特尔推出IPU技术,近期与谷歌共同设计了一款新的定制基础设施处理单元(IPU)芯片E2000,代号“Mount Evans”,以减少数据中心的主CPU负载,更高效地处理和处理数据。
安全。
数据密集型云工作负载。
NPUCPU和GPU的制造成本较高,功耗也较大。
此外,AI场景中需要计算的数据量与日俱增。
一种用于神经网络深度学习的高效智能处理器应运而生,那就是NPU。
NPU代表神经网络处理单元,它使用电路来模拟人类神经元和突触结构。
用于加速神经网络的运算,解决传统芯片在神经网络运算时效率低下的问题。
尤其擅长处理视频、图像等海量多媒体数据。
与CPU和GPU处理器运行需要数千条指令相比,NPU只需一条或几条指令即可完成,并且在相同功耗下NPU的性能可以达到GPU的118倍。
因此,在深度学习处理效率方面优势十分明显。
NPU目前主要用于客户端的AI推理计算。
它还广泛应用于视频编解码操作、自然语言处理、云端数据分析等。
一些NPU也可以用于AI训练。
例如,在手机SoC中,CPU负责计算和整体协调,GPU负责图像相关部分,NPU负责AI相关部分。
工作流程是任何工作首先要经过CPU,然后CPU会根据工作的性质决定分配给谁。
如果是图形计算,就会分配给GPU。
如果是AI计算,就会分配给NPU。
NPU的具体应用包括:基于人脸识别的考勤机、基于DHN(Deep Hash Network)的掌纹识别、基于图像分类的自动垃圾分类、自动驾驶汽车、自动对焦摄像头、监控系统等。
2014年,中科院陈天石研究团队发表“点脑”系列论文,立即风靡建筑界,开创了专用人工智能芯片设计的先河。
随后,中科院旗下寒武纪科技推出了第一代NPU寒武纪1A。
它也用于华为的麒麟970芯片。
华为也推出了基于达文斯架构的自研NPU,阿里巴巴则推出了“含光”架构的NPU。
随着芯片构建方式的改变,大量的异构处理器解决方案不断衍生出来。
每个芯片对处理器性能、优化目标、所需的数据吞吐量和数据流做出不同的选择。
在这些主要类型的处理器芯片中,IPU和DPU的发展速度最为领先。
随着5G边缘云、自动驾驶、车路协同、金融计算等带来越来越多的数据,各种“X”PU的市场价值不断上涨。