当CPU巨头英特尔发力GPU:4个月6枪,从游戏到数据中心市场全面点燃同一个芯片——GPU。IDC数据显示,2019年我国AI市场每台服务器配备1-20块GPU,加权计算平均每台AI服务器配备8.02块GPU加速卡。此外,GPU在所有加速卡类型中的市场份额为91.9%。在这样的行业趋势下,除了GPU初创企业受到资本青睐外,传统CPU巨头英特尔也加快了在GPU上的布局。今年以来,英特尔在GPU上的高密度、高强度动作不断刺激着业界的神经。2月,率先调整组织架构,加速计算系统与图形事业部(AXG)正式成立。同时公布了Arc系列独立显卡的出货时间表,并宣布今年将销售400万张。到4月,AXG部门负责人RajaKoduri晋升为执行副总裁,随后成立了一个新的图形实验室。5月初收购芬兰老牌GPU技术供应商SiruInnovations,吸纳了大量图形IP开发人才。紧接着,在5月中旬举行的2022IntelOnIndustryInnovationSummit上,一款面向数据中心的全新多用途GPU发布。这款代号为ArcticSound-M(简称ATS-M)的数据中心GPU已经获得了来自戴尔、超微、思科、HPE、浪潮、新华三等合作伙伴的超过15个系统设计,使得本已火热的GPU市场竞争力再次升级。IntelCEOPatKissinger对GPU业务寄予厚望,表示图形和加速计算将成为Intel未来的主要增长点,预计2022年将带来超过10亿美元的营收。如何做?IntelGPU,如何赢得市场?要回答这个问题,就要从GPU本身的特点和当前的行业趋势说起。与CPU相比,GPU更擅长并行计算,适合解决大规模加速和计算能力密集型问题。在万物数字化的浪潮中,大规模加速是GPU产业普及的关键。横向看功能,图形计算(游戏、3D渲染)、数据处理(人工智能、工业模拟)、视频编码(直播、短视频)对GPU提出了不同的工作负载需求。纵向看场景,云端、台式机、手机、智能汽车、机器人等更多物联网设备对异构GPU的需求正在激增。两个维度一旦相交,就会产生大量的细分需求,被不同的产品占据,生态分散。英特尔此次进军GPU市场的思路非常明确,就是为多用途融合提供统一的解决方案,通过降低异构开发成本、提升协同效率来重构生态。芯片设计的核心取决于架构。Intel在2020ArchitectureDay活动中首次公开了IntelIris?Xe图形架构。Xe架构项目研发之初,Intel就强调要在一个架构下实现四种微架构,同时针对集成显卡/入门级显卡、中端和发烧级显卡、数据中心GPU和超级计算GPU。市场。以新发布的ATS-M数据中心GPU为例,我们可以更具体地看到这些设计思路和技术特性如何为行业提供统一的解决方案。ATS-M定位为专注于智能视觉云场景的多用途数据中心GPU,面向云游戏、媒体处理与传输、虚拟桌面基础架构、AI视觉推理四大场景。英特尔预计智能视觉云市场到2026年将达到150亿美元。ATS-M提供150W功率和75W功率两个版本,分别满足峰值性能和高密度需求。比如在云游戏方面,150W功率版可以更好的运行3A大作,而75W版则满足一平台跨手机端和PC端游戏的一体化云游戏解决方案。对于多媒体处理和传输,一个杀手级的特性是GPU配备了英特尔首款硬件加速AV1编码器,比软件编码速度快50倍。与常见的H.264编码相比,AV1编码在同等画质下压缩率提高30%。在4K、8K加速普及的今天,编码速度和高压缩率节省的流量极为关键。对于拥有100,000个用户的媒体服务器,仅提高压缩比每年就可以减少2300万美元的运营成本。随着远程办公需求的增加,虚拟桌面市场也迎来了快速增长。英特尔数据中心GPU提供灵活的虚拟GPU(vGPU)调度策略,允许管理员单独微调每个虚拟机在GPU上的运行指令。此外,英特尔不会对基于硬件的可扩展I/O虚拟化(SIOV)收取任何额外的软件许可费用,大大降低了相关供应商的整体部署成本。最后,AI视觉推理任务往往需要对大量摄像头拍摄的视频进行解码和预处理,然后将数据传递给AI模型进行下一步操作。无论是工厂流水线上零部件的缺陷检测,还是公共场所的人流管理,都需要快速分析和快速决策。戴尔在PowerEdge服务器上使用带有两个GPU的75W版本的ATS-M。以经典ResNet-50模型的图像分类和目标检测任务为例,它可以在计算和解码能力上取得很好的平衡。一款GPU能否进入广泛的市场,除了强大的硬件性能外,还离不开配套软件生态的支持。英特尔开源、基于标准的统一编程模型oneAPI通过完整可靠的工具包改进了现有的编程语言和并行计算模型,允许开发人员设计开放和可移植的代码,以最大限度地利用多个CPU和GPU的组合,降低了开发难度,释放了硬件的全部性能。通过oneAPI统一编程模型将CPU和GPU深度融合的思想在超级计算机上也有所体现。美国阿贡国家实验室安装的下一代超级计算极光(Aurora)也在英特尔峰会上首次展示。极光超级计算将使用代号为SapphireRapids的英特尔至强CPU和代号为PonteVecchio的英特尔数据中心GPU。双精度峰值计算性能超过每秒200亿次运算,可以支持更准确的气候预测和发现。研究和创新活动,例如癌症的新疗法。元界、沉浸式体验、人工智能的大规模部署,都离不开对高性能GPU的依赖,也对未来的图形处理产品提出了要求:高视觉保真度、优化人工智能、持续计算。光线追踪和人工智能相信大家都不陌生,那么什么是连续计算呢?英特尔的下一代云游戏解决方案ProjectEndgame就是一个很好的例子。不同于以往的云游戏产品,本地硬件只接收流数据并充当显示器,云端和本地硬件协同工作。这样,应用程序可以充分利用软件基础设施层,使设备可以使用网络中其他设备的计算资源,从而提供始终可用、低延迟、持续的计算服务,减少需求网络环境,让云游戏更实用。通过持续计算,用户可以随时借用云计算能力,在随身携带的小型设备上运行复杂的应用程序。英特尔认为,要理想地运行Metaverse,它至少需要1000倍的计算能力。在制造出如此强大的个人设备之前,持续计算是进入元宇宙的垫脚石。英特尔的二次转型从前面的介绍中我们可以看出,英特尔现在不仅仅是一家芯片巨头。2016年,英特尔提出向“以数据为中心”转型,随后进一步明确了推动数字化转型的四大超级技术力量的方向,即:人工智能普适计算普适连接从云端到边缘基础设施四大超级大国不会不仅带来了前所未有的芯片需求,而且它们的合作和相互促进将催生出各行各业的各种芯片应用场景。英特尔将如何应对新一轮数字化转型的关键时刻,本次峰会也给出了答案:PC是数字化活动的基础,至强处理器是计算和基础设施的基础,XPU战略和各种加速处理。服务器,以及全栈软件优化解决方案,使四大超能具备高性能、易部署、安全可靠、可扩展性和持续创新,帮助客户解决当前问题,保障未来可持续发展。XPU战略指的是英特尔将重点从单个CPU转移到涵盖CPU、GPU、FPGA和其他加速器的广泛产品组合。其意义不仅在于英特尔自身拓展了更多市场,更在于产品组合下不同架构芯片的协同,能够为用户带来更好的体验。在本次峰会上,英特尔分享了更具体的做法和思考:打破组件边界。以游戏为例,大型3D游戏中存在这样一个现象:有些游戏对显卡的要求更高,比如图形效果更多的动作类游戏。而有些游戏对CPU的消耗比较大,比如屏幕上有很多角色的策略游戏。英特尔可以通过DeepLink技术打破组件边界,根据实时运行情况在CPU和GPU之间动态分配功率,解决性能瓶颈,让同一台PC适应多项任务。DeepLink技术的核心思想是增强芯片与芯片内部IP之间的深度合作。除了动态功率共享,还有两个特点:超强编码和超强算力。超强编码让独立显卡配合CPU中的核显,编码速度提升60%。超级算力的原理也是一样的。全系统所有AI引擎统一调度,性能提升24%。在个人PC上,只有CPU和GPU的协作才能带来这样的好处。那么数据中心服务器承载的更多种类的芯片将在同样的架构下展现出更多的威力。本次峰会上,除了GPU,英特尔还发布了AI训练芯片Gaudi2、AI推理芯片Greco,并公布了基于FPGA和ASIC的IPU(基础设施处理器)产品路线图,这些都是XPU战略的体现。作为芯片领域的老牌企业,英特尔非常重视构建开放的生态系统和引领行业标准。除了前面提到的oneAPI开源编程和AV1视频编码标准外,还引领了芯片制造领域的高速通用芯片互连标准UCIe。UCIe意在推动chiplet之间的互联标准,让未来的异构芯片IP封装可以封装在一起,延续摩尔定律。为了这个愿景,英特尔还计划开放x86架构的IP授权,使客户能够在英特尔制造的定制设计芯片中混合使用x86、Arm、RISC-V等不同的CPUIP核。...这不是英特尔第一次转型。英特尔首席执行官帕特基辛格指出,整个行业已经到了“战略转折点”。这个转折点决定了未来是更好还是更坏。企业需要在较短的时间内做出明智的决策。事实上,“战略转折点”的概念是由英特尔第三任CEO安迪·格罗夫提出的。当时,他带领英特尔在混乱和危机中完成了从内存芯片到处理器的转型。从事半导体行业数十年。现在已经证明,随着技术的飞速发展及其对人类的深远影响,人类交互的方方面面都在朝着以技术为中心的方向发展,“计算已经成为我们与世界交互的方式”。通过拓展智能芯片的深度和广度,构建更加开放的生态系统和软件解决方案,英特尔的IDM2.0战略再次找到了新的引领点。不得不说,这种识别变化的洞察力和应对变化的能力是最值得学习和借鉴的。
