当前位置: 首页 > 科技赋能

大算力、节能的AI芯片发起冲锋! 2023全球AI芯片峰会第二天纪要

时间:2024-05-19 16:39:40 科技赋能

芯希希(公众号:aichip)芯希9月19日报道,9月14日至15日,全球AI芯片峰会(GACS)在深圳市南山区举行成功举办。

继第一天的开幕式以及AI芯片创新专场的火热启动(《云边端 AI 芯片热战大模型!全球 AI 芯片峰会首日干货》)之后,第二天的峰会演讲内容依然内容密集。

上午场最后一场评选出中国AI芯片先锋企业30强和中国AI芯片新兴企业10强。

结果正式公布。

▲ 中国AI芯片先锋企业30强 ▲ 中国AI芯片新锐企业23强 全球AI芯片峰会由芯东西方、智易科技旗下猩猩公司主办。

在南山区科技创新局的指导下,以“人工智能大时代博弈核心世界”为主题,设置七大板块。

主会场包括开幕式和AI芯片架构创新、AI大算力芯片、高能效AI芯片三个专场;分会场包括首届新增集成电路政策交流会、AI芯片分析师论坛、智算中央算力与网络高峰论坛。

在第二天的AI大算力芯片论坛和高能效AI芯片论坛上,上海交通大学计算机科学与工程系教授梁晓耀致开幕辞,随后来自英特尔的代表Habana、必仁科技、千芯科技、Graphcore、中科嘉禾、芯禾半导体、云天励飞、智存科技、诺雷科技、Metacore、兆冠电子、智芯科、元力半导体、九天瑞芯等15家顶级AI芯片公司和新兴公司创始人等人士、技术决策者和高管发表主题演讲,分享前沿研究和最新实践。

通过峰会第二天的嘉宾分享和观点碰撞,我们看到大部分AI芯片企业都在积极准备迎接生成式AI和大模型浪潮带来的机遇。

嘉宾分享的话题重点可以概括为几个关键词:世代型AI、NVIDIA、GPGPU、实现挑战、架构创新、存储与计算融合。

无论是大算力的AI芯片还是高能效的AI芯片,都面临着存储墙、功耗墙等传统架构的共性问题。

他们也通过广联生态合作伙伴从核心应用场景的迫切需求出发,优化软硬件。

合作更大程度挖掘芯片性能潜力,探索不依赖先进工艺实现性能提升和能效提升的新路径和解决方案。

1、克服大规模模型实现挑战,大型算力芯片揭示三大关键技术。

大型模型的实施已经加速,但它与计算能力供应之间的差距尚未弥合。

国产大型算力芯片正在采用不同技术Path发起充电,提高芯片能效的同时加速大型模型的落地。

1、GPGPU加速大模型训练,利用开源解决人、钱、时间的问题。

上海交通大学计算机科学与工程系教授梁晓耀表示,AI时代大家都在挖金子,卖铲子的英伟达“最赚钱”。

他认为,包含CUDA Core和Tensor core(张量计算核心)的V代GPGPU帮助NVIDIA奠定了AI时代算力基础的行业地位。

当谷歌、特斯拉等芯片公司拿出比NVIDIA更有效的矩阵计算方法时,NVIDIA在数值系统、稀疏性、互连、内存带宽等方面进行了多项努力,以巩固自己在时代的统治地位人工智能的。

创新。

此外,NVIDIA还构建了涵盖编程语言、运行环境等全面的软件生态系统,这是让芯片易于使用的“护城河”。

芯片生态系统已经从软件厂商围绕核心芯片(架构)开发“领域专用软件”,发展到芯片厂商围绕核心软件(框架)开发“领域专用芯片”。

到目前为止,芯片制造商和大型模型公司都围绕核心应用开发了“特定领域系统”。

”。

梁逍遥提到,当竞争对手领先时,可以利用开源来解决资金、人才和时间的问题。

当对手特别强大时,开源也被证明是一种更有效的突围方式。

去年,梁逍遥团队推出了自主研发的开源GPGPU平台“青花瓷”,支持大规模并行通用计算。

梁逍遥解释说,直接说,除了游戏之外,他希望NVIDIA芯片能做到“青花瓷”能做到的一切,同时他也特别注重与NVIDIA GPGPU产品的兼容性。

他补充说,“青花瓷”平台完全免费、开放。

该平台的主要目的是为业界提供GPGPU架构参考设计,并向企业和高校开放,作为基础研究、实践平台和突破性创新。

▲上海交通大学计算机科学与工程系教授梁晓耀 业内人士也一致认为,高性能GPGPU是训练GPT大型模型的关键。

一方面,大型模型在计算机架构上面临计算、通信、存储、并行扩展、稳定性和可靠性五大挑战;另一方面,还必须从用户的角度解决存储、易扩展、易用性这三个“生存问题”。

需求,以及高性能、低成本、低时延三大“小康”需求。

针对这些挑战和需求,必人科技打造了大型模型软硬件一体化的全栈优化解决方案,包括高性能集群、机器学习平台suCloud、加速库、训练框架和推理引擎、超大型模型框架、算法/应用六层架构。

必人科技系统架构副总裁丁云帆表示,高性能通用GPU是训练GPT大型模型的关键算力基础,而互联带宽/拓扑是支持GPT分布式高效扩展的关键大型模型。

基于自主研发的BRGPU产品BiLi主流量产,BiRen科技可构建千卡GPU集群,并与大模型分布式策略优化相结合,助力实现大模型创新。

此外,必人科技还与行业框架、模型合作伙伴、科研机构、大学等紧密合作,打造大规模模型产学研生态系统。

▲必人科技系统架构副总裁丁云帆 2、传统架构很难突破带宽和成本瓶颈。

大模型时代,迫切需要超越GPU新架构。

“大模型的本质是知识的压缩和输入的反馈,即存储与计算的融合,存储与计算的融合。

”千信科技董事长陈伟表示,“LLM/MLM的开源资源,部署训练架构、算力成本已经成为大型模型应用落地和企业盈亏的关键分水岭。

”陈伟介绍了几个典型的“特斯拉的Dojo芯片采用近存计算架构来优化数据通道,或者是微软、三星等科技巨头正在投资存储和计算一体化芯片公司。

哈瓦那中国区负责人于明阳一上台就表示:演讲不是“我们认为,要在有限的时间内确定每个Billion(十亿)的参数规模,要做好训练,所需的基本计算能力约为16张卡。

” 。

”他谈到了大型模型对硬件层带来的压力,对单卡算力、内存、服务器互联方案、集群长期稳定运行等提出了更高的要求。

在大型模型的发展过程中,模型中,上层框架和软件生态发挥着越来越重要的作用,传统模型很大程度上需要CUDA资源进行训练,但在大模型时代,更多的重点是高层框架软件生态——如何解决集群管理。

于明阳总结了大型模型高效训练和推理的一些选择,包括计算速度、高速存储、高扩展性、易用性、高能效、高性价比在大机型时代,如果企业能够很好地优化框架,就有机会绕过CUDA生态墙,打破NVIDIA在市场上的主导地位。

▲ 于明阳,哈瓦那中国区负责人。

除了GPU和CPU之外,英国芯片公司Graphcore提出了支持FP8浮点运算的IPU架构。

基于此,可以应对对话式AI的延迟、应用成本和性能。

消费挑战。

早在2017年,AI教父Geoff Hinton就看到了IPU架构的潜力。

在接受采访时,他以Graphcore的IPU芯片为例,强烈主张转向不同类型的计算机来构建功能更像大脑的机器学习系统。

Graphcore中国区总经理朱江提到,IPU采用大规模并行多指令多数据架构,并大幅扩展片上SRAM的大小,使片上存储吞吐量达到65TB/s。

如此大规模的片上存储和分布式设计,可以大幅提升内存访问带宽和内存访问效率,有效帮助客户突破内存墙的瓶颈。

IPU的独特设计还可以实现高效的内存访问能耗。

传输1字节数据,CPU消耗约pJ,GPU消耗约64pJ,IPU消耗约1pJ。

此外,Graphcore推出的Bow IPU还采用了WoW的先进封装,并在支持数据类型上进行投入,成为业界首批支持FP8精度的硬件之一。

▲Graphcore中国区总经理朱江 3.产业链创新:编译器+EDA平台改善了AI芯片适应性、大模型应用和计算能力之间的差距,加速企业搭建两者之间的“桥梁”。

缩小差距的步骤。

中科嘉禾创始人崔惠民认为,大模型让国产AI芯片面临的生态困境更加凸显,编译器成为主要解决方案。

简单来说,编译器是一个用于将机器语言翻译成人类语言的工具。

在AI芯片产业链中,相当于AI芯片与AI用户之间的“桥梁”。

在GPU时代,我们主要使用的编译器是NVIDIA的CUDA编译器。

随着AI时代的到来,编译器的内涵和外延进一步拓展,涉及图、张量、指令、图算融合等不同层面的编译。

在大模型时代,编译器可以促进芯片性能提升、跨平台优化、安全性增强。

崔慧敏表示,在性能方面,编译技术可以探索更激进的融合策略,进一步全局重新排列和优化计算和同步,为模型推理端带来高达2至3倍的性能提升;在跨平台方面,中国柯嘉禾认为基于机器的模型可以有效支持编译优化的跨平台性能;在安全性方面,编译技术可以以非常低的开销实现软件TEE,增强安全性。

目前,中科嘉禾正专注于构建适用于不同芯片的工具集,通过组件化服务帮助AI芯片完成生态迁移等目标,并计划于12月推出跨平台大模型推理引擎。

▲中科嘉和创始人崔惠民在单芯片SoC向新的“SoC”(System of Chiplets)架构演进的过程中,信和半导体产品应用总监苏洲翔谈单片SoC的拆分、组合和架构规划单个SoC的Chiplet问题,给传统的设计流程带来了巨大的挑战。

他认为Chiplet从系统的最初设计到最终的嵌合签核都需要新的工具、新的想法和新的方法。

信合半导体给出的答案是围绕chiplet行业的全新EDA平台。

苏周翔表示,新平台需要支持系统级连接、堆栈管理、分层设计。

它还需要在物理实现和各个领域的支持工具方面协调设计环境。

,多芯片3D布局规划和布线。

因此,信合半导体推出专为3DIC Chiplet量身定制的仿真全流程EDA平台。

这是一个完整的 Chiplet 解决方案,包括设计、SI/PI/多物理场分析。

该平台具有AI驱动的网格划分技术和云计算加载的分布式并行计算能力。

它还支持裸芯片、中介层和基板的联合仿真引擎技术。

▲信合半导体产品应用总监苏洲翔,到处都能跑大模型!解读高能效AI芯片三大趋势 大模型强大的内容生成和理解能力,使得云端和边缘多种类型的应用场景不断涌现。

不同的场景对高能效AI芯片提出了新的要求。

边缘AI芯片低功耗、高性能的需求不断增长;大型模型需要容量和带宽。

集成存储和计算芯片的存储介质如何选择。

在此背景下,节能AI芯片的发展呈现出三大趋势,即为大型模型构建低功耗AI网络、通过内存计算突破功耗墙和存储墙问题以及智能视觉的需求。

处理边缘的切屑。

增加。

1、算力解决方案构建低功耗AI网络,大大小小的模型可以在云端和边缘共同进化。

智信科联合创始人兼CEO顾宇聪表示,大模型的发展会面临大数据和大模型两个方面的瓶颈。

有显存墙问题(模型能否运行)和计算墙问题(能否在合理时间内完成推理)。

他认为内存计算是解决这两个问题的有效方案。

与GPU相比,可以更有效地利用数据并降低功耗;更高效地读写数据;整合存储与计算,提供更大的内存容量。

智芯科计划推出一系列基于精密无损SRAM内存计算CIM的大型模型芯片,有望在专有云和推理应用中取代NVIDIA。

大模型带来的算力爆炸远远超过摩尔定律。

与此同时,大功率算力设施造成的碳排放巨大。

因此,Matex希望制作一款低功耗芯片,以降低功耗。

Metacore的存储和计算芯片基于立方脉动并行架构,可以满足大型模型的部署。

Matex创始人兼CEO黄汉涛表示,通过使用较低位来表示GPT-3的主要数据,可以减少大型模型的参数规模。

Matex 可以在 ChatGLM2-6B 大型模型上使用 INT4 和 INT2。

计算能力达到与ChatGLM2-6BFP16相同的推理水平。

架构方面,Metacore构建了面向大模型算法的立方单元架构,通过立方脉动阵列实现高强度并行计算。

其解决方案可以兼顾高吞吐量和低功耗。

▲迈特信创始人兼CEO黄汉涛认为,随着大模型蒸馏技术的发展,超大模型可以生成一系列适合边缘的小模型,达到接近大模型的效果。

SoC基于AI Chiplet,将SoC算力与NPU(神经网络处理器)的AI算力进行解绑,然后灵活组合边端芯片,适应边端的推理需求大型模型。

目前,酷睿半导体已开发出多模算力核心CalCore技术,支持企业在端侧部署大型模型;自适应算力集成CalFusion技术,自动分配核心芯片来捆绑不同的算力。

▲元力半导体联合创始人袁刚,全球边缘计算市场持续扩大。

但由于场景碎片化、芯片平台、算力要求等痛点,其算法输入与输出往往不成正比。

预计这将依赖大型模型的强大图像。

、语言理解、场景泛化能力都取得了突破。

同时,云天力飞副总裁、芯片业务线总经理李爱军提到,边缘计算芯片设计需要考虑SoC集成、灵活算力扩展芯片架构、统一工具链架构、隐私等因素。

保护等因素。

云天励飞基于自主研发的算法开发平台和算法芯片平台,训练了“云天书”大模型,推出了内置云天励飞第四代神经网络处理器的新一代边缘计算芯片DeepEdge10,可以满足大型模型的部署。

需要。

▲云天励飞副总裁、芯片业务线总经理李爱军 2.多存储介质解决方案的出现,存储与计算一体化,突破功耗和存储瓶颈。

当前的大型模型需要容量和带宽,集成存储和计算芯片处于多种情况。

存储介质蓬勃发展。

千芯科技将不同类型的存储器集成到统一存储和计算架构(UMCA)中,可以针对客户的应用场景提供SRAM、Flash、RRAM等多种存储和计算芯片解决方案;通过多处理器的集成,存储与计算的融合保持了高计算能力。

高能效,同时获得CPU和GPGPU的通用生态能力。

其存储计算一体化架构不依赖先进技术,基于成熟的技术即可实现先进的算力;还提供芯片级算法压缩技术,方便大模型客户使用量化剪枝、稀疏等压缩技术,达到降本增效的目的。

▲千芯科技董事长陈伟,智芯科专注SRAM。

智信科联合创始人兼CEO顾宇聪提到,他们将推出针对大型模型的系列,可以为边缘侧大型模型提供TOPS算力。

Inference提供计算能力,消耗W,采用12nm工艺,价格比NVIDIA低很多。

此外,九天瑞芯还推出了基于SRAM纯数字和模数混合架构的多种集成内存计算技术。

九天瑞芯副总裁袁野表示,除了内容生成之外,AIGC还为AR/VR、具身智能、外部感知信号链等带来全面升级,其采用的混合架构模型可以实现有效、精准的计算。

芯片上集成了CIMD(纯数字内存计算)+CIMX(模数混合纯内存计算)两种存储和计算架构,可支持集成训练+推理应用并最大化性能。

另外,内存计算可以通过互联、叠加实现更大的计算能力。

九天瑞芯积累了多个智能信号链(智能传感/互联)的基础IP,并开始高速互联接口技术的研发,以实现更强大的算力。

准备。

▲九天瑞芯副总裁袁野和智存科技业务拓展副总裁詹木航认为,AI神经网络或CNN矩阵运算和卷积运算的核心是矩阵乘法/乘加运算。

越典型的大型模型需要矩阵运算,需要的矩阵运算就越多。

,它更适合内存计算,将“存储”和“计算”合二为一,一次性并行完成。

因此,智存科技选择使用闪存来完成AI神经网络的存储和计算,以解决存储墙问题。

智存科技推出的WTM-2端侧AI芯片具有极低功耗、极低时延。

全球首款量产内存计算芯片WTM,功耗仅为5uA-3mA,计算能力强,适用于设备端智能物联网场景。

下一步,智存科技还将推出针??对视频增强场景的WTM-8系列芯片。

该系列芯片拥有4核存储和计算MPU。

单核可提升计算能力80倍,效率提升10倍。

▲智存科技业务拓展副总裁詹慕航 3、3D视觉应用渗透加速,创新方案1脑指挥8眼。

兆观电子CEO冯新鹏认为,随着视觉技术从2D向3D发展,智能3D视觉应用将渗透到整个行业,路线图可以延续到50年后。

然而,硬件成像限制和AI感知限制是3D视觉行业无法回避的痛点。

冯新鹏表示,为了解决上述问题,兆观电子积累了3D、VSLAM、AI、OCR光学字符识别等多项机器视觉核心技术。

其中,兆冠电子的3D深度相机可用于冷库机器人激活“眼睛”在-18℃环境下完成任务等极端场景。

他还提到,一些海外巨头的机器视觉技术甚至无法在低温环境下启动。

▲兆冠电子CEO冯新鹏诺雷科技推出集CIS+AI+MCU频谱识别功能于一体的传感计算一体化AI频谱分析芯片阵列技术“眼连脑”,可实现“一只眼照顾八个大脑”它还可以检测和分析多波段光谱。

与AI行业传统算法不同,诺雷科技的产品配备了高度集成的机器图像识别传感器,可以独立运行,实现图像检测、跟踪和识别。

诺尔科技创始人兼首席执行官Raymond Wu提到,诺尔科技在首款纳米工艺量产芯片NB上将光学元件集成到半导体晶圆中,结合WLO(晶圆级光学)技术,并将其设计成类似于光谱检测麦克风阵列阵列。

Raymond Wu还提到,曾经独特的成像方案CCD由于系统体积大、成本高、功耗高、实施难度大,逐渐被CIS(CMOS图像传感器)取代。

这与当前的人工智能应用类似。

他认为高算力并不能100%解决所有AI应用。

AI应用对算力的要求取决于具体的应用场景。

无需为单一应用构建复杂的人工智能芯片。

▲诺雷科技创始人兼CEO吴雷蒙总结:云端AI芯片热战是大模式,全球AI芯片峰会升级全球AI芯片峰会。

全球AI芯片峰会第二天,云端和边缘AI芯片的热战更加激烈。

一方面,针对大型机型的海量算力需求,国内大型算力芯片厂商发起了技术冲锋。

GPGPU厂商正在芯片设计、解决方案、生态等方面加速大规模模型场景的落地。

国内外AI芯片厂商都在尝试用创新架构来打破NVIDIA的统治地位。

此外,上下游产业链也通过编译器、EDA等技术不断完善。

创新为AI芯片性能提供“放大器”。

另一方面,大模型的实现场景正在从云端向边缘侧、设备侧延伸,让国内多家高能效AI芯片厂商看到了市场发展机会。

通过内存计算、立方单元架构、chiplet等不同的创新架构,AI芯片厂商都在探索降低AI芯片能耗和算力成本的最短路径,从而为大模型的大规模落地提供条件。

随着终端和边缘侧部署大模型的门槛降低,大小模型有望实现更好的协作,从而大大提升AI产业的深度和广度。

通过第二天的峰会,我们可以看到以下值得关注的5大行业发展趋势: 1、作为芯片龙头巨头,NVIDIA通过数值、稀疏、互联等方面的创新,巩固了在AI时代的地位、内存带宽等方面的优势。

对此,国内GPGPU厂商可以通过开源解决钱、人和时间的问题。

2、传统架构难以突破大型模型训练的带宽和成本瓶颈,市场需要超越NVIDIA GPU的新架构。

内存计算/逻辑可以大幅提升芯片能效,突破功耗墙和存储墙问题,从而突破技术成熟的大型算力芯片。

3、面对大模型场景,AI芯片厂商需要满足可存储、易扩展、易用三大需求,以及易用、低成本、低时延三大升级需求。

这需要AI芯片厂商加速技术架构创新,也需要软硬件一体化解决方案取得突破。

4、大模型让国产AI芯片面临的生态困境更加凸显,需要产业链上下游加快适配。

例如,通过编译器创新,业界可以促进芯片性能提升、跨平台优化和安全性增强;一些公司还围绕Chiplet行业创建了新的EDA平台,为芯片设计创新提供支持。

5、大模型从云端场景向边缘侧、终端延伸。

在边缘和终端场景,客户对AI芯片的能耗和成本更加敏感。

为此,AI芯片领域的玩家正在通过内存计算、三维单元架构、模型稀疏化、chiplet等路径降低芯片能耗和成本,支撑大模型的“下沉”。

通过全球AI芯片峰会前后两天46+产学研投大咖的交锋,我们发现“算力者得天下”已经成为大模型的一个特点时代的到来,新的架构、新的产品纷纷跳出了NVIDIA GPU的道路。

越来越多。

随着摩尔定律接近极限,真实的算力资源与理想的算力资源之间存在着巨大的差距。

除了英伟达之外,市场上还涌现了更多能够填补市场空白的AI芯片公司,推动市场呈现出“百花齐放”的局面。

从2016年首届举办至今,全球AI芯片峰会已连续举办五届。

此次峰会目前已触及设计、EDA、编译器等AI芯片产业链多个核心重要环节,覆盖云端和边缘端。

全场景芯片巨头、前沿创业公司,以及学术界、投资界专业人士。

近两天的峰会,我们听到了AI芯片产学研用、投融资领域顶尖专家的思想交流,多元而精彩的观点在此碰撞。

乘着新技术浪潮,全球AI芯片峰会已成为国内为数不多的专注于AI芯片领域、具有较大影响力的行业峰会之一。