当前位置: 首页 > 科技观察

阿里平头哥首款AI芯片发布!46倍于英伟达P4,全球推理性能新纪录

时间:2023-03-20 14:41:55 科技观察

阿里平头哥首款AI芯片发布!46倍于NvidiaP4,全球推理性能新纪录阿里首款芯片诞生!刚刚,在云栖大会上,阿里巴巴集团CTO、达摩院院长张建峰向观众展示了阿里首款AI芯片含光800。对于这款芯片,一年前阿里放下了狠话,没想到一年后就露面了:不仅已经完成流片,还正式上线了阿里云。这也是阿里平头哥成立以来的第一款硬件产品,也是阿里20年发展史上第一款自主研发并量产的芯片。在芯片行业时代风云变幻之际,阿里昊峰凭借实力迅速突围,掌握了下一阶段的江湖主动权。意义和价值可能远远超过芯片本身。但在发布现场,张建峰想强调的是敬畏。他说:“在全球芯片领域,阿里巴巴是一个新来者,玄铁和含光800是平头哥万里长征的第一步,我们还有很长的路要走。”含光800怎么样?含光之名,仍沿袭平头阁传统,取自魔剑。“含光”本是上古三大神剑之一。隐而不露,光不耀眼,就像含光芯片的工作方式一样——无形却强大的计算能力。具体来说,这是一款基于云端的AI芯片,专注于推理,专注于视觉场景。在性能方面,它打破了现有的AI芯片记录,在性能和能效方面均位居全球第一。芯片工艺为12nm,晶体管数量高达170亿个。在业界标准的Res??Net-50测试中,含光800的推理性能达到了78563IPS,比业界最好的AI芯片性能提升了4倍。能效比为500IPS/W,是第二名的3.3倍。横向对比数据,含光800的性能是英伟达最新T4的15倍,是目前应用最广泛的英伟达P4的46倍——超越了去年设计之初吹的“牛”。目前,含光800已率先在阿里内部多个业务场景落地大规模应用。从视频图像识别、分类、搜索,到城市大脑等,未来还可以应用于医学影像、自动驾驶等领域。在发布会现场,张建峰展示了这款芯片的强大性能。每天新增10亿张新商品图片的拍力淘商??品库,使用含光800可将识别效率提升12倍,时间从传统通用GPU的1小时缩短至5分钟。和城市大脑。城市大脑实时处理杭州主城区交通视频需要40块传统GPU,时延300ms。使用含光800只需要4个GPU,延迟降低到150ms。阿里表示,含光800将首先服务于阿里内部场景业务。同时,含光800的AI云服务也正式上线。它将通过阿里云提供AI算力,但不会直接以芯片形式出售。此前,阿里平头哥连战连捷在近两个月内发布了无间SoC平台和玄铁处理器IP,“让世界没有难造芯片”,帮助企业降低芯片设计门槛。现在,含光800作为第一款硬件,也是最硬核的产品,依然承载着平头哥的雄心壮志。希望通过阿里云AI云服务,让企业随时随地享受高性能计算。这也意味着,阿里平头哥自成立一年以来,已经经历了从软件架构(处理器IP、SoC平台)到硬件流片的完整过程。这是阿里造芯“交作业”的标志性时刻。阿里的AI芯片布局于2018年4月首次曝光,随后在9月的云栖大会上,阿里宣布成立平头阁,先放下“狠话”,正在打造NPU。在架构设计方面,性能结果比业界最好的AI处理器强40倍。此话一出,所有人都惊呆了。然而,一年后——成绩单时刻——阿里平头并没有食言。含光800的性能是P4的46倍,甚至领先最新一代NvidiaT415倍。虽然过程并非一帆风顺,但在过去的一年里,“含光”团队不仅完成了从无到有的跨越,而且超出了所有人的预期。整个过程中,含光800团队在软硬件设计上做了大量的工作,如架构创新、软件编译器、框架、工具链等,后期针对INT8数据类型进行了大量优化。含光800芯片负责人焦扬透露,这款芯片采用自研架构。针对深度学习中使用的大量权重参数和张量数据,在支持稀疏压缩和量化处理的基础上,采用独特设计的数据访问和流水线处理技术,大大降低了I/O需求和数据移动。该芯片还深度优化了卷积、矩阵乘法、向量计算和各种激活函数。通过高效的硬件资源调度和完全并行的数据流处理,将AI计算的性能和能效都推向极致。此外,还集成了达摩学院算法。深度优化CNN和视觉算法的计算和存储密度,可以在一个NPU上实现大型网络模型的计算。更难能可贵的是,平头哥团队克服了一系列挑战。比如如何平衡性能、良率、功耗等。平头哥从软件和硬件上充分考虑了这些问题,在最短的时间内完成了芯片设计和流片的全过程。7个月完成前端设计,仅3个月就流片成功。焦阳感叹,从传统制芯的角度来看,这几乎是不可能完成的任务。但最终,阿里AI芯片团队创造了记录,完成了挑战,让不可能成为可能。这其中自然有“007”们日以继夜的辛勤付出,但乘风破浪的大势作用也不容忽视。俗话说天下大同小异,AI时代专注的核心需求,阿里的业务场景优势,才是不得不说的核心原因。NPU:芯片iPhone时代第一,AI时代专用核心需求顾名思义,NPU——神经网络处理器是专门处理深度神经网络算法的芯片,而深度神经网络算法的核心是模仿生物神经网络的结构特征,最基本的特征就是模仿脑神经元之间的传递方式,对输入的信息进行快速处理。但是,传统的通用处理器都是基于冯诺依曼结构,其存储和计算处理是相互分离的。如果处理一个深度神经网络,需要进行大量的读写操作,会受到带宽的限制,效率低下。因此,以含光800为代表的神经网络芯片,将根据神经网络推理和运算的特点,设计特定的硬件神经元、高速连接存储结构和专用指令集,实现内存和计算单元的高效组织和管理,并实现单条指令完成多项操作,提高计算效率和内存访问效率。总之,专用内核是专用的,效率更高,成本更低,效益更好。另一方面,由于需求明确,应用场景有针对性,构建AI芯片的门槛远低于构建CPU和GPU。于是,整个行业迎来了一个“iPhone时刻”——软件重新定义硬件,场景需求重新定义芯片。然后在这个过程中,最好结合应用的业务场景,不断验证,反馈,迭代,最终在达到目标效果后流片完成物理实现。因此,在当前趋势下,不仅AI造核初创企业形成了小高潮,互联网巨头们也纷纷跨界加码,开始打造自己的AI芯片。但是你想不想做出来,有没有能力做出来,最后的结果会怎样……这都是几个层次的问题,是综合实力的较量。这就是为什么,阿里的业务场景优势会为平头哥首款AI芯片带来加速,也是阿里手握新时代芯片竞争“天命”的原因。为什么一年打造一个AI核心?事实上,虽然速度很快,成绩也很惊人,但阿里AI芯片并没有完全“从零开始”。平头哥成立一年前,但达摩院和阿里的主要业务在AI算法和软件方面积累了很长时间。含光800团队透露,基于阿里巴巴达摩院的算法和阿里巴巴集团硬件基础多年的技术积累,是含光800重构芯片软硬件技术栈的秘诀。由于AI芯片的差异化设计主要体现在硬件架构和软件算法上,两者需要高度适配才能实现芯片价值的最大化。在算法方面,阿里达摩院机器智能实验室近两年构建了完整的算法体系,涵盖语音智能、语言技术、机器视觉、决策智能等,取得多项世界领先成果。在硬件方面,阿里巴巴在服务器、FPGA、存储等领域拥有多年经验。平头哥团队在架构、编译技术等方面也有着深厚的技术储备。基于这些能力,平头哥完成了算法和硬件差距的快速突破。在算法能力之上,自研芯片架构,设计了完整的软件栈。而有了这样的设计理念,效果立竿见影。比如功耗是AI芯片行业的通病,但平头哥自研架构可以大幅减少对内存的访问,在保证极致性能的同时,可以将芯片功耗降到最低。此外,新进入者也有作为新进入者的优势。带领团队打造含光800引以为傲的是,半导体巨头都在搞AI芯片,会背负现有开发者生态的包袱,但阿里平头哥的团队只有一个目标,那就是实现最强计算电源,充分释放硬件能力。构建更大的生态。在这个过程中,阿里的业务场景和组织凝聚力的优势也无时无刻不在展现。在架构设计之初,平头哥就从需求和体验层面给了业务场景同事全面的反馈,直接帮助理清了需求。然后在算法支撑和验证的迭代阶段,达摩院和业务场景不厌其烦地帮助进行迭代的测试、反馈和提交,共同完成流片前的最终保障。所以,虽然阿里造芯,专门成立了平头哥半导体,但“含光800”却是从无到有,不是一个人而是一个团队在拼搏。如果你问阿里AI造芯有什么优势?除了“不服生死就干”的决心,真金白银的投入、全球范围内的行业资深人才的招募……平头阁首席科学家、资深研究员袁尊阿里巴巴,将具体优势归于“ABCDE”。A:算法,算法,阿里自身的技术储备和AI实力,在算法方面有着世界领先的积累。B:BigData,大数据,庞大的生态场景和覆盖方方面面的业务,在数据质量和数量上都有优势。C:计算,安全稳定的算力,阿里云的市场领先地位,已经可以说明一切。D:Domainknowledge,专业的领域知识,阿里本身不是一个单一的公司,而是几十个公司和经济体的集合体,有各种综合的应用场景。对于最新的技术和产品,有最天然的应用基础。E:生态系统,生态学。与传统芯片半导体企业相比,阿里生态覆盖面广,能力多元,应用前景都是综合实力的体现。元尊认为,拥有“ABCDE”的阿里,自然比其他只有C位的芯片公司更容易、更快地站上AI芯片的C位。而这种“ABCDE”,一方面有助于造芯,另一方面也有助于用芯。阿里的AI芯片商业模式在阿里内部。由于丰富的场景需求和业务量,对高性能AI算力的需求不断增加。在电商场景中,拍立淘等新兴购物方式涉及的图片搜索,都需要AI芯片。还有娱乐场景,优酷视频修复分析,也需要AI来实现。还有阿里正在大规模推广的城市大脑,比如对各种车辆的检测、跟踪、特征提取、属性检测等,也离不开更强算力的加持。未来,在医疗、自动驾驶等重要垂直领域,将有更大的空间和巨大的商业前景潜力。仅自主芯片自用就取得了显着的效益。更重要的是,阿里云的地位和实力还可以让AI算力通过阿里云赋能更多领域、更多企业。因此,含光800芯片选择云服务的商业模式也在情理之中。而阿里则更愿意强调第一款AI芯片商业模式背后一贯的包容性——平头哥的核心理念。今年年初推出的无间SoC平台和玄铁处理器IP选择直接开放授权,帮助企业降低芯片设计门槛。含光800的普惠性体现在阿里云AI云服务的形式上,让企业随时随地享受高性能计算服务。平头哥也在杭州的云栖大会上谈到了阿里芯片的下一步。随着含光800的发布,平头哥集结了全栈芯片家族:基础单元处理器IP、中天系列、玄铁系列,为AIoT终端芯片提供高性价比IP;一站式芯片设计平台,无剑SoC平台集成CPU、GPU、NPU等,降低芯片设计门槛;AI芯片,含光800通过AI云服务为AI场景提供高性能算力。这三大产品系列初步完成了平头哥端云一体的芯片生态。接下来,平头哥的产品形态将聚焦云端AI训练芯片、端侧推理芯片、阿里云神龙服务器SoC专用芯片,以满足更多场景的算力需求。此外,平头哥的芯片已初步实现软硬件闭环,阿里巴巴芯片、云、AI三大业务的协同也已初具规模。从时代潮流来看,三者本来就是三位一体的。人工智能算法逐渐融入芯片,集成算法的专用芯片可以提供性能更强的云服务,而云计算本身也加速了人工智能应用的规模化落地。十年来,阿里专注于在人工智能和云计算方面的推广和展示成果。现在,平头哥完成了芯片部分,阿里在计算布局上形成铁三角。然而,中国的科技和互联网巨头自然有着更加宏大的蓝图——行业生态和开发者生态。此前玄铁910发布,阿里也明确说明了平头哥的目标是打造AIoT时代的基础设施平台,延续阿里从阿里B2B淘宝支付宝到阿里云、菜鸟的传承之路。云栖大会上,还有基于玄铁处理器RISC-V架构和无间SoC平台的开发者案例——如人工智能独角兽云天励飞、老牌芯片厂商炬力科技、可重构的轻微智能,计算芯片龙头企业,现场亮相。当然,既然AI芯片是软硬件一体化的彻底重构,那么在软件栈和模型框架方面,阿里当然不会袖手旁观。最明显的信号就是Caffe之父贾扬清的介绍。还有一点:含光最后,阿里第一款AI芯片的名字还是有着深远的影响。“含光”之名来源于《列子·汤问》,是古代名剑,也是上天子三剑之首。“你看不到它,你看不到它,你不知道它触及了什么,它是无边无际的,你触摸它时感觉不到它。”这一剑光芒淡淡,如光,如影,如风,快得看不见,看不见,无处不在,无处不利。平头哥团队解释说,这是含光800团队内部投票的结果。既希望传达出这块NPU的能力,也展现了平头哥硬件初入芯片领域的心路历程——在英特尔、英伟达等巨头面前,他依然是个“年轻人”,重度造核,他敬畏。不过,含光800的推出对于阿里和平头哥来说,依然是重要的历史性一步。阿里刚过完20岁生日,这20年完成了“让世界轻松做生意”。未来20年,“让世界没有难造芯片”的大胆梦想能否实现?不知道。此刻,我们只知道韩光初立,剑光寒十四州,踏出万里长征的第一步。

猜你喜欢