人类社会已进入算力时代。
据中国信息通信研究院测算,截至2021年底,我国核心计算产业规模将突破1.5万亿元,相关产业规模将突破8万亿元。
其中,云计算市场规模超过3000亿元,互联网数据中心(服务器)市场规模超过1500亿元,AI核心产业规模超过4000亿元。
国内算力行业近五年平均增速超过30%,算力规模超过150EFlops(每秒15000次浮点运算),位居全球第二,第一是美国状态。
很多场景已经进入了算力超过1000TOPS(Tera Operations Per Second,处理器每秒可以执行万亿次运算(1012))的时代。
超过1000TOPS的高算力数据中心和超级计算机 算力超过1000TOPS的典型场景是数据中心和超级计算机。
我们先来看看数据中心对算力的需求。
工信部发布的《新型数据中心发展三年行动计划(2021-2023年)》明确了算力的内涵,引入了衡量指标FLOPS来评价数据中心的发展质量。
其指出,到2023年底,总算力规模将超过200 EFLOPS,高性能算力占比将达到10%,到2025年,总算力将超过300 EFLOPS。
超算中心已经进入E级算力(每秒数百亿次运算)时代,并正在向Z(千E级)算力发展。
E(Exascale)级计算,即百亿亿次计算,是世界顶级超级计算系统新的追求目标。
用一个不精确的术语来解释百亿亿次计算,百亿亿次计算机瞬间进行的计算相当于地球上所有人每时每刻不间断的四年计算。
2022年5月荣登全球超级计算机500强榜首的美国国防部橡树岭国家实验室前沿超级计算中心,采用AMD MI250X高算力芯片(可提供383 TOPS算力),实现1.1 EOPS双精度浮点计算能力。
人工智能人工智能的不断发展也对芯片的算力提出了更高的要求。
人工智能应用中对算力的最大挑战仍然来自于核心数据中心的模型训练。
近年来,算法模型的复杂度呈现指数级增长趋势,正在逼近算力上限。
以2020年发布的GPT3预训练语言模型为例。
它拥有 1750 亿个参数,并使用 1000 亿个单词的语料库进行训练。
使用当时最先进的 NVIDIA A100 GPU(图形处理器,624 TOPS)进行训练仍然需要 1 个月。
GPT-3问世不到一年,一个更大、更复杂的语言模型——参数超过万亿的语言模型Switch Transformer已经发布。
目前,人工智能所需的算力每两个月翻一番。
承载人工智能的新型算力基础设施的供给水平将直接影响人工智能创新的迭代和行业人工智能应用的落地。
人工智能模型正在进入万亿时代,深度学习的发展逐渐进入大模型、大数据阶段。
模型参数和数据量爆发式增长,算力需求平均每两年超过算力实际增长速度375倍。
自动驾驶任务需要1000TOPS以上的高算力芯片。
自动驾驶的竞争实际上是算力的竞争。
汽车继续从L1、L2向L3、L4、L5迈进。
从某种意义上说,这是计算能力的竞争。
每提升一个级别,就意味着对计算能力的要求更高。
高端自动驾驶对算力的需求呈指数级增长。
特斯拉Model S 2014-2016年算力为0.256TOPS,蔚来ES8 2017年算力为2.5TOPS,特斯拉Model3 2019年算力为144TOPS,智机L71070TOPS 2021年算力2022年蔚来ET7的算力为1016TOPS。
考虑到集成电路技术发展下的芯片算力现状以及未来人工智能、数据中心、自动驾驶等领域的发展趋势,未来高算力芯片将需要不低于1000级的算力水平最高额。
市场对计算能力的需求增长速度远远快于摩尔定律的演变速度。
OpenAI的模型显示,业界最复杂的AI模型的算力需求自2010年以来增长了100亿倍。
目前解决算力的方式80%依靠并行计算和增加投资,10%依靠AI算法的进步,芯片单位算力提升10%。
1000TOPS背后的“大算力芯片”。
单芯片对算力的追求是无止境的。
目前,业内人士认为“单颗算力达到100TOPS的芯片”才能称为“大算力芯片”。
目前能够推出超过100TOPS的单芯片的公司并不多,包括:AMD的MI250X高算力芯片(可提供383 TOPS算力)、Mobileye EyeQ Ultra单芯片(算力可达到176TOPS)等。
在国内,寒武纪也于2021年连续发布了两款云端AI芯片,分别是思元290和思元370。
思元370是寒武纪首款采用chiplet技术的AI芯片。
它集成了390亿个晶体管,最大计算能力高达256TOPS(INT8)。
它是寒武纪第二代产品思源270,算力最高。
2次。
此外,燧原科技、地平线科技、汉博半导体、新驰科技、黑芝麻智能等也都在2021年推出了大算力的AI芯片。
其中燧原科技发布的“西思2.0”拥有整数精度INT8算力高达 320TOPS。
目前,只有英伟达和高通推出了算力超过1000 TOPS的SoC,而这两家公司推出的高算力芯片主要应用于自动驾驶领域。
首先我们来看看英伟达。
2021年4月,NVIDIA已经发布了算力1000TOPS的DRIVE Atlan芯片。
今年,英伟达直接推出了芯片Thor,其算力是Atlan的两倍,达到了2000TOPS。
2025年投产,直接跳过1000TOPS DRIVE Atlan芯片。
高通紧随其后,今年也推出了集成汽车超级计算SoC——Snapdragon Ride Flex,包括中、高和Premium三个级别。
最先进的Ride Flex Premium SoC搭配AI加速器,可实现2000TOPS的综合AI算力。
超强算力的背后是采用了片上集成的SoC。
异构计算通过多个计算单元的混合协作模式,提高计算并行性和效率。
移动互联网、人工智能、云计算等各类典型应用占比大幅增长。
它主要利用芯片内的异构性和节点内的异构性。
两种模式实现了性能、功耗和成本之间的最佳平衡。
片内异构的典型代表是SoC芯片。
以NVIDIA的Thor为例。
Thor之所以能够达到如此高的算力,主要得益于其整体架构中的Hopper GPU、下一代GPU Ada Lovelace以及Grace CPU。
高算力芯片如何进化 事实上,芯片的算力由数据互连、单元晶体管提供的算力(通常由架构决定)、晶体管密度和芯片面积决定。
因此,想要提升计算能力,需要从这几个方面入手。
算力演进路径一:芯片系统架构的挑战。
超过200TOPS的芯片对内存访问能力的要求非常高,需要支持更高的带宽,这大大增加了系统架构设计的复杂度。
目前的芯片主要采用冯诺依曼架构,存储和计算在物理上是分离的。
数据显示,过去二十年来,处理器性能以每年约55%的速度提升,而内存性能每年仅以约10%的速度提升。
结果,从长远来看,发展速度参差不齐,导致目前的存储速度严重落后于处理器的运算速度,从而产生“存储墙”问题,最终导致芯片性能难以跟上与需求。
Nvidia提出的“黄氏定律”预测GPU将带动AI性能逐年翻倍。
新技术将用于协调和控制通过设备的信息流,最大限度地减少数据传输,以避免“存储墙”问题。
NVIDIA 迭代形成了在 GPGPU 上集成 Tensor Core 的领域定制架构。
2022 年发布的最新 H100 GPU 基于 4 nm 工艺,可提供 2000 TFLOPS(每秒万亿次浮点运算)的计算能力。
算力演进路径二:先进工艺平台的挑战集成电路尺寸的缩小可以导致单位面积算力指数的提高。
相同架构、不同工艺下,随着工艺节点缩小,NVIDIA GPU芯片单位面积算力不断提升。
近年来,英伟达、AMD、苹果等公司的高算力芯片均采用7纳米和5纳米先进工艺实现。
本质上,算力提升的核心是晶体管数量的增加。
作为英特尔创始人之一的戈登·摩尔在最初的模型中指出,无论是从技术角度还是成本角度,单个芯片上的晶体管数量都不可能无限增加;因此,业界致力于提高晶体管密度。
同时,我们也在尝试其他软硬件方法来提高芯片运行效率,比如异构计算、分布式计算等。
算力演进路径三:大规模芯片工程化的挑战 大算力芯片非常重要尺寸较大,在封装、功率和热管理、成本控制和良率方面提出了严峻的挑战。
当然,芯片的价格是面积越大越贵。
如果芯片面积增加一倍,价格就会提高3到5倍,甚至更高。
根据近40年来芯片面积的变化趋势可以看出,随着高算力芯片的不断发展,面积不断增大,目前已逼近单片集成的面积极限。
由于单个芯片的面积不可能无限增大,因此将一个芯片拆解成多个芯片,分别制造,然后封装在一起,是很自然的想法。
异构集成+高速互连塑造了Chiplet,芯片行业的里程碑。
如果采用chiplet设计技术,通过将不同功能的芯片模块化,采用新的设计、互连、封装等技术,可以将不同技术、不同工艺、甚至不同工厂的芯片用在一款芯片产品中,从而解决这一问题。
它解决了芯片制造层面的效率问题。
结论 宏观总算力=性能×数量(规模)×利用率。
算力由性能、规模、利用率三部分组成,它们相辅相成,缺一不可:有些算力芯片或许能达到天高的性能,但较少考虑到通用性和易用性。
芯片,进而芯片销量如果落地率不高、规模小,就不可能实现宏观算力的真正提升。
一些算力提升计划注重规模投入,分蛋糕有一定效果,但并不是解决未来算力需求数量级增长的根本解决办法。
现阶段,大国博弈加剧了全球产业链、供应链重组。
与此同时,我国先进集成电路工艺的发展受到限制。
单纯依靠先进工艺等技术单点突破成本高、周期长。
利用成熟的工艺和先进的集成度,结合CGRA、存储计算一体化等国内领先的新型架构,基于核心芯片技术实现晶圆级高算力芯片是一条可行的突破路径。
该路径可以利用现有的优势技术。
,以更低的成本投入更快地提升芯片算力。