当前位置: 首页 > 科技赋能

清华大学魏少军!剖析AI芯片两大技术痛点,3年后必将出现佼佼者 - GTIC 2018

时间:2024-05-22 19:29:19 科技赋能

文章 | 3月9日,由智东西主办、集果科技、AWE协办的中国首届AI芯片峰会在上海浦东成功举办。

本次大会共吸引了近万名观众,参会人数比预期增加了三倍。

虽然是下午的演出,但现场依然座无虚席,有些观众宁愿站着听完整场演出。

会议现场,近40位人工智能及AI芯片行业领军人物齐聚一堂,系统探讨2020年AI芯片的技术前景和行业趋势。

作为GTIC大会开场主讲嘉宾、AI领域代表人物??芯片学术界,清华大学微纳电子系主任、微电子研究所所长魏少军教授发表主题为《AI芯片发展需要应用和架构创新双轮驱动》的演讲,从四大视角剖析当今AI芯片面临的挑战、可能的解决方案、AI应用和芯片架构的思考等,并分享了清华微电子Thinker系列AI芯片的打造过程。

以下对魏少军教授的演讲要点进行简要分析。

文章最后附上魏少军教授演讲全文的速记笔录+PPT。

1、应用和架构创新是AI芯片的必由之路。

当前,AI芯片的发展面临两个现实问题:一是新的人工智能算法层出不穷,且尚未定型;二是新的人工智能算法层出不穷。

第二,现在一种算法对应一种应用,不存在单一的算法。

它可以覆盖所有应用,不存在杀手级AI应用。

因此,相应地,我们现在在构建AI芯片时需要解决两大因素。

首先,芯片要适应算法的演进,其次,要开发创新的芯片架构,使其能够适应所有应用。

继构建AI芯片的两大要素之后,一种新型的芯片技术又被推到了人们的视野——“软件定义芯片”,也称为可重构计算。

清华微电子研究所魏少军教授领导的团队早在10年前就已经开展了这方面的研究。

顾名思义,“软件定义芯片”让芯片根据软件进行适配和调整。

这是专用芯片架构设计上的创新。

简单来说,就是将软件通过不同的管道输送到硬件来执行功能,使芯片能够实时执行功能。

根据软件/产品需求改变功能,实现更灵活的芯片设计。

硬件随着软件的不断变化,适应算法的发展和多种不同的应用程序。

去年,美国国防部高级项目局(DARPA)发起的电子工业振兴计划(ERI)瞄准了后摩尔定律时代的新材料、架构和设计流程。

主题之一是软件定义。

硬件(软件定义硬件)。

2、打造Thinker系列超低功耗AI芯片。

前年一次偶然的机会,基于可重构计算芯片的框架,魏少军教授团队的尹守义副教授带领团队设计开发了代号Thinker 1的可重构AI芯片,构建了混合神经网络计算芯片。

该芯片不仅可以动态调整计算和内存需求,使该芯片能够支持人脸识别和语音识别的神经网络应用,而且功耗非常低。

▲清华大学微电子提供的Thinker芯片显微照片。

Thinker 1不仅在AI性能和算法通用性方面取得了突破性进展,还获得了学术界的重要认可。

荣获ACM/IEEE ISLPED国际低功耗电子与设计大会上,Thinker1荣获设计大赛奖。

这是中国大陆单位首次以第一完整单位的身份获此殊荣。

Thinker 1是一款实验验证芯片。

随后,可重构计算团队打造了两款Thinker系列芯片,即Thinker 2人脸识别芯片,可实现超低功耗6ms人脸识别;而Thinker S语音识别芯片的功耗更低,仅为0.3毫瓦。

该系列芯片在国际上广受好评,屡获殊荣。

3. AI芯片将在2-3年内出现。

演讲最后,魏少军教授分享了几点总结和思考:1、应用领域的建立是AI领域建立的前提,但AI的杀手级应用尚未出现,因此AI发展还有很长的路要走。

2、未来是否会出现像通用CPU一样独立的通用AI处理器?如果存在,它的架构是什么样的?如果不存在,今天的AI芯片公司该何去何从? 3、2到3年内,AI芯片行业将陷入低谷,当今的部分甚至大部分企业家将成为技术变革的烈士。

附:以下为魏少军教授演讲全文速记《AI芯片发展需要应用和架构创新双轮驱动》 魏少军:大家早上好。

感谢主办方给我机会介绍我们的工作。

主持人说我们是做人工智能芯片的。

他错了。

我是做芯片设计的,研究芯片设计和理论。

两年前,我们尝试利用前几年的研究成果来做一些AI芯片,效果还不错。

后来我们陆续在国际上发表了一些有影响的论文,其中一些成果被一些人引用。

突然我发现自己成为了人工智能芯片的专家,但我不是。

今天跟大家交流,主要是希望提出一些可能与在座大佬不同的观点,供大家批评和共鸣。

如果我的观点冒犯了这里的大家,还请见谅。

既然是两轮驱动,那就不是一回事了。

今天我们主要讲四个方面的内容。

1、集成电路芯片是实现人工智能的天然载体。

人工智能实际上出现在20世纪50年代。

经过30年的发展,转向机器学习,又经过30年的发展,转向深度学习。

如今,深度学习被视为人工智能的主要内容,但实际上,深度学习只是人工智能的狭义方面。

深度学习作为主要内容的一个原因是,前年和去年AlphaGo在国际象棋比赛中击败了人类高手。

在这个里程碑式的赛事之前,早在2018年就举办过一场游戏比赛,其实比AlphaGo更有代表性。

当然,大家不一定都同意我的观点。

(2016年,IBM的沃森计算机参加了综艺节目《危险边缘》!前两轮与对手打成平手。

最后一轮,沃森击败了最高奖金获得者布拉德·拉特尔和连胜保持者肯·詹宁斯。

)如果我们仔细分析一下两者的比赛过程,你会发现(这场比赛)比AlphaGo更高,但不够时尚。

中文有时更广泛一些。

“聪明”包括“智慧”和“能力”。

我们大部分的智慧都不是能力。

人工智能这个词有问题。

不清楚。

在英文中,它被称为人工智能(Artificial Intelligence)。

它没有谈论人工智能和两者的结合。

芯片是实现人工智能的天然载体。

无论是CPU、GPU、CPU加FPGA,还是其他已经出现的多芯片平台,这一切都离不开芯片。

所以用一句话来说,没有芯片就没有人工智能。

要做AI,就必须有芯片。

芯片是不可缺少的基础内容。

既然人工智能芯片如此重要,那么如何实现呢?我在这里可能有与在座嘉宾不同的观点。

首先说人工智能面临两个现实问题:一是算法仍在不断发展,新算法层出不穷;第二,一种算法对应一种应用,没有统一的算法。

(对于芯片)你想要找到一个能够适应所有算法的架构,而不是为每个应用制作一个芯片。

当今的应用程序复杂程度各不相同,但无一例外的是它们都使用专用的神经网络。

在这种情况下,我们需要在芯片中实现一个具有深度学习能力的引擎。

我们今天的深度学习需要的计算量和参数量非常大。

以前我们用少量的计算就可以完成一些小任务,10万个参数就很多了;但到了 2016 年,我们实现了 17 层神经网络,每秒可以执行 1 亿次操作,拥有 1.38 亿个参数。

我们需要一个好的计算引擎。

没有好的计算引擎我们就无法完成这些计算。

2、既然如此,我们看看AI芯片需要什么样的计算元件?首先,它必须适应算法的演进。

其次,我们需要构建一个能够适应所有应用的架构,这意味着架构的可变性以及高效改变架构的能力。

此外,我们还需要关注计算量和计算能效。

计算出的能效要求是多少?每瓦大约 10 Tflops,即每秒 10 万亿次操作。

而且,某些应用的功耗需要低于1mW。

一些应用需要大于25fps的识别速度和较小的芯片尺寸,以实现低成本进入家用电器和消费电子并配备设备。

同时,开发需要简单。

一个人开发芯片设计是非常困难的。

大的。

因此,我们需要探索架构创新。

然后我们讲应用和架构创新是发展应用创新的必由之路。

如今的AI应用涵盖方方面面,没有一个行业没有AI,包括人脸识别、语音识别、机器翻译等。

我们看到实时传译、无人驾驶、智能陪伴、能源、农业、生产等都已经落地。

屏幕上。

看来AI涵盖了我们生活的方方面面,这给我们留下了非常重要的印象。

但我想问几个问题:哪些应用需要人工智能?我们希望人工智能帮助解决什么问题? AI的“杀手级”应用是什么?我们每天需要什么样的AI应用? ……我认为这些问题至今还没有答案。

有些东西看起来是AI,但实际上并不是AI。

让我给你讲个笑话。

今年是我的本命年,我想买一条红领巾。

我在网上搜了一下没有买,然后手机里的各种文件里不断出现红领巾广告,这让我感到很恼火。

它具有AI的性能,但是这个AI并不是我需要的帮助。

回想几年前,当你买了台灯后,网络上不断出现台灯的广告。

今天的人工智能还没有达到我们需要的水平。

3、应用和架构创新是人工智能芯片发展的必由之路。

制作应用程序真的很难。

我们芯片制造商一直在思考什么是架构。

架构创新非常重要。

从感知传输到中间处理,一直到后续的传输执行,没有一个基本的架构。

相反,大家都知道这是一个传感器。

通过执行器,在传输中存在一个非常发散的网络。

基本逻辑就在这里。

智能处理的基本架构是什么?我们不知道。

因为我们不知道人们是如何思考问题的,也不知道问题是什么样的结构,所以我们只能基于系统、软件、处理器和存储来模仿。

毫无疑问,我们遇到的是多输入、多输出系统、多任务、高度并行的操作系统。

这听起来很合理,但让我举一个简单的人类处理事物过程的例子。

我们遇到一个东西,这个东西有很多特点,比如我第一次看到这个人的时候,我看他长什么样子,我认得他吗?如果我不认识他或从未见过他,我该怎么办?我想认识他。

我们握手、交换名片,看看你在哪个单位、哪个地方,加深我们的印象。

也有可能我们第一次见面,没有交换名片,熟悉了就知道又见面了。

在这个过程中,我们不断地重复这个内容,中间可能会出现偏差。

我不认识他。

如果我想认识这个人,我需要再次提高我的见识。

这个重复的过程涉及的内容很多,需要大量的计算。

计算无处不在,计算本身就是我们架构的基本前提。

计算量不好就别提了。

因为GPU的计算量很大,其他的就跟不上。

但因为计算非常丰富,我们不知道人脑如何能够完全计算,所以我们必须用我们知道的这种方法来构建所谓具有智能处理能力的芯片,一个是智能软件和硬件。

智能软件包括这几个方面:知识形成能力、组织能力、思维推理能力。

这些东西不是用芯片做的,而是用软件做的。

我们可以看到该芯片提供的更多的是计算平台、多任务并行能力、极高的能效以及灵活高效的存储和实时动态能力。

因此,我们常说实现智能化的核心其实是软件,而不是芯片。

芯片只是支撑智能化的基础。

我们需要改变一些思维,就是我们做芯片的人,特别是做AI芯片的人,一定要把软件放在足够高的位置。

因此,我们希望在这种情况下,硬件能够随着软件不断改变,这就是所谓“软件定义芯片”的概念。

(如果你说)芯片不能被软件定义,那么你就做得不好。

我们在2010年就提出了这个概念,但当时没有多少人知道。

美国国防部高级计划局(DARPA)推动的电子工业振兴计划(ERI)瞄准后摩尔定律时代的新材料、架构和设计工艺,寻求科技领域的突破,每个方向都设置了两个主题。

去年的主题之一是软件定义硬件的概念。

我摘录了其中的一段话:创建可以实时重新配置的软件和硬件,使其具有ASIC的性能,但不需要在数据密集型计算中牺牲可编程性。

也就是说,硬件的功能和架构是随着软件实时变化的,所谓实时是指在~纳秒内运行。

我只能微笑。

我们10年前就开始做这项工作,并且领先于美国同行。

大家都说软件定义芯片并不是很陌生,FPGA早就能做到了。

事实上,FPGA也不起作用。

首先是细粒度。

要实现位级运算,计算粒度必须细粒度。

FPGA的粒度非常细,因此配置信息量非常大,需要几兆到十几兆,耗时十几毫秒甚至更长。

同时,一旦配置,就无法更改。

如果要改变FPGA的功能,只能断电或者在线重新加载配置信息。

FPGA的芯片面积效率很低,只有5%。

一块面积几千万的FPGA可以实现几十万。

能源效率非常低,功耗非常高。

同时,FPGA需要非常先进的工艺,需要对工艺进行特殊的调整。

用户还必须具备电路设计知识和经验。

最后,FPGA的成本非常高。

FPGA可以用来做一个简单的验证系统,但是一个实用的系统呢?抱歉,这很难,所以我们说FPGA无法承担软件定义芯片(SdC)的任务。

那么什么样的系统才能完成SdC呢?我们从架构的角度来思考一下。

如果我们给出像右边这样一个和软件一模一样的硬件结构,不考虑硬件本身的开销,这样的计算效率一定是最高的,毫无疑问。

但软件可以是无限的,而硬件总是有边界的。

但如果我们把软件分成几个块,逐个移动,那么第一个块运行完后,会执行第二个模块,然后移动第三个模块,第四、第五、第六个模块就会被移动。

这样计算回来就完成了。

这就要求我们的硬件结构和功能必须是动态的,可以随时改变。

这就是软件定义芯片的基本概念。

至于工作的难度,如何快速落实?我们过去10年的努力就是为了解决这个问题。

图中的计算架构是一个非常经典的架构。

我们可以看到,两者之一就是所谓控制单元划分的内容,逐步送到执行,根据需求配置计算单元。

并完成执行。

问题是应该有完全可重新配置的数据通道和可以改变的控制单元,这样它们就可以改变。

这与传统的结构不同。

我们将其与经典计算模型进行了比较。

它是弓形的,并且可通信计算是功能性的。

在经典架构中,软件和硬件保持不变,但在我们现在的架构中,硬件和软件都在进行动态的、选择性的变化。

经典的架构采用了高度的复用来降低其成本,但是在我们这边却存在冗余的应用。

至于我们是否改变了计算模型,我很遗憾地告诉你,我们仍然处于冯·诺依曼架构中。

有人说我们改变了模型,创造了新的计算架构。

其实我说你没看懂。

在这样的架构下,我们在实现AI芯片时,可以根据AI算法不断改变硬件,以达到最佳的计算效率。

你可以看到底部的部分。

我们从AI的应用定义使用深度神经网络来确定硬件的功能,我们认为这种结构是最好的方式。

(两年前)我们无意中决定尝试一下,打造了一款名为“Thinker”的人工智能芯片。

可以看到左边有一个数组。

PE有两种,一种是universal,一种是super,代表不同的计算内容,包括卷积计算、全理解计算、池化等。

通过定义方法,该芯片可以随时定义每种PE方法,然后传输到网络进行计算。

我们还可以利用阵列上的众多PE,通过定义的方式不断改变不同层面的计算内容,也可以大大提高系统的能源效率。

近两三年我们做了AI芯片(遵循软件定义芯片的技术),在去年的ACM上也做了相关介绍。

Thinker S 在麻省理工学院也得到了很好的报道。

Thinker 2仅需6毫秒即可执行人脸识别,并且功耗极低,而Thinker S的功耗仅为0.3毫瓦。

该芯片已获得多项专利,(发表)多篇论文,并荣获多项奖项。

我把所有与AI相关的内容都用红线画出来了,基本都在曲线的第一波上。

我们现在的AI太热了,有时候媒体起到了不好的作用。

最后我想总结一下,问几个问题:1、应用领域的建立是AI领域建立的前提,但是AI的杀手级应用还没有出现,所以我们说发展人工智能还有很长的路要走。

2、是否可以有像通用CPU一样独立的通用AI处理器?如果存在,它的架构是什么?如果不存在的话,我们目前能够满足特定应用的芯片可能只是IP核。

我们的AI公司将何去何从?这些问题都留给企业家们去思考。

你可能不同意我的观点,但2到3年内(AI芯片行业)肯定会触及低谷,今天的一些甚至大部分企业家将成为技术变革的烈士。

对不起。

(众笑)但毫无疑问,这将是AI芯片发展过程中最令人钦佩、最感人的事件。