文章| 3月9日,由智熙熙主办,极果、AWE协办的中国首届AI芯片峰会在上海浦东成功举办。
本次大会共吸引了近万名观众,参会人数比预期增加了三倍。
虽然是下午的演出,但现场依然座无虚席,有些观众宁愿站着听完整场演出。
会议现场,近40位人工智能及AI芯片行业领军人物齐聚一堂,系统探讨2020年AI芯片的技术前景和行业趋势。
英特尔中国研究院以《发掘AI芯片能力 提升认知计算新高度》为主题发表演讲,系统阐述了英特尔在认知计算、情感识别、人脸分析技术、软硬件结合等方面取得的成果。
结果。
以下是智东西整理的陈玉蓉博士会议演讲的干货信息。
1.认知计算 首先,陈玉蓉博士详细解释了什么是认知计算。
他表示,认知计算是一组用来模拟人类感知、智力和解决问题能力的计算机技术。
认知计算就像一个多层的金字塔结构。
最底层利用各种传感器进行感知,比如麦克风、摄像头等传感器等,然后基于感知数据的识别,包括声音、声音等音频信号的识别;视觉物体识别、手势识别、人脸识别等;识别的基础是对多模态语义的理解,包括对各种结构化和非结构化数据的理解,如文本、语音、视觉、情感等。
最后,最顶层是基于理解的认知,包括对上下文的认知,以及对自然人机交互、计划和行动、类人记忆以及对用户需求和欲望的适应的认知。
事实上,认知计算的发展和应用是一个过程,是机器学习算法与传统知识工程拓展相结合的结果。
其总体目标是提高个人和组织的生产力和创造力。
2. 深度学习部署问题及解决方案 近年来,认知计算取得的突破仍然停留在认知层面。
得益于深度学习的快速发展,计算机现在在图像识别、语音识别等领域已经能够达到或超过人类的平均水平。
深度学习在其他领域也有广泛的应用,例如医疗诊断中的肿瘤监测、投资分析中的文档分类、智能交互式语音助手、工业应用中的产品缺陷监测、生物工程中的基因测序等。
然而,深度学习也存在挑战,比如需要使用大量标注数据和计算资源进行训练。
这是深度学习的训练挑战,但陈玉蓉博士想阐述的是深度学习的部署挑战。
以视觉识别为例,为了提高识别精度,目前主流的设计方法有两种。
一是把卷积神经网络设计得越来越深。
其次,卷积神经网络可以设计得不要那么深,但必须足够宽。
使用这两种方法会带来一个问题,就是目前主流的模型参数通常是几千万、几亿甚至更多,这导致计算空间和存储空间的复杂度非常大,很难结合起来。
他们。
部署在计算和存储资源有限的嵌入式边缘设备上。
为了解决上述挑战,除了针对性、高效的网络设计之外,另一个主要途径是压缩DNN模型。
Intel在这个方向提出了一套低精度深度压缩解决方案,可以将DNN的权重参数和激活值表达为低精度的二进制表示,并且可以实现数百倍的无损压缩,从而提供了基础用于深度学习。
为硬件和软件的推理加速奠定了基础。
该解决方案包括三个关键模块: 1、优化DNN结构的动态网络手术算法DNS。
它可以将任何DNN模型转换为松散的DNN模型,而不会损失模型的识别精度。
2.渐进网络量化技术INQ,可以将给定的DNN模型权重参数转换为低精度的二进制表示,同时保证模型的识别精度不会降低。
3.多尺度编码量化MLQ,可以将DNN模型的激活值变成给定定位框的低精度表示,并且不会降低模型的识别精度。
将这三种技术结合起来,就形成了完整的低精度深度压缩解决方案。
接下来,陈玉蓉博士详细阐述了INQ技术的原理。
他表示,INQ技术采用参数划分、分组量化、再训练三个创新操作,使整个量化过程成为一个递进的操作过程,同时保证模型的识别精度不会降低。
INQ 是第一个无损 DNN 量化压缩解决方案。
它不对任何网络模型类型做出假设,这意味着它不仅可以用在卷积网络模型CNN上,也可以用在其他网络模型上。
此外,由于它是二进制表示,因此大多数乘法运算可以通过INQ技术和量化模型转化为简单的一位运算,并且可以使用专用硬件实现高加速。
另外,量化技术是基于预训练的模型,这意味着不需要从头开始训练,因此量化效率非常高。
通过对主流DNN模型的实验,5位量化结果表明,量化模型的精度不但没有降低反而有所提高。
超低精度,即2/3位的量化结果也说明识别是准确的。
该速率非常接近全精度参考模型。
3、推动深度学习推理的硬件加速。
针对深度学习,英特尔提供了多种技术解决方案,涵盖了从数据中心到边缘的训练和推理。
通过将低精度深度压缩技术与英特尔低功耗硬件相结合,可为雾计算和边缘计算的深度学习推理提供硬件加速能力。
例如,通过采用FPGA(现场可编程门阵列)友好的DNN设计,并与低精度深度压缩技术相结合,可以在雾计算应用场景中提供更快的速度、更短的延迟和能耗以及更高的吞吐量。
数量。
英特尔最新的Movidius超功耗视觉处理单元Myriad可以进一步提升DNN在边缘计算中的计算速度和吞吐量。
此外,英特尔还开发了其他芯片,可以支持数据中心和边缘的各种AI计算。
例如,英特尔凌动、酷睿和至强处理器可以计算机器学习和认知推理等通用人工智能算法。
如果计算能力不够,还可以使用FPGA进行灵活加速。
在每种CPU的基础上,Intel还会提供多种加速器组合,以满足不同用户的需求。
例如,英特尔的Nervana神经网络处理器是专门为深度学习而设计的。
它可以加速高强度的深度学习训练和推理。
此外,针对视觉、语音、音频和自动驾驶的处理,还有专用的Intel Movidius VPU、GNA和Mobileye EyeQ芯片进行专门加速。
然而,仅有芯片还不够。
为此,英特尔还提供了端到端的AI全栈解决方案。
其中包括各种计算和存储网络硬件平台;多种软件工具和函数库;优化的开源框架和各种人工智能平台。
未来,英特尔研究院还将开展其他领域的研究,包括先进算法、神经形态芯片、自主系统、量子计算等。
在今年的 CES 上,英特尔研究院发布了代号为 Loihi 的神经拟态芯片和代号为 Tangle Lake 的 49 个量子位的超导量子测试芯片。
4、软硬件协同提高了“人”的理解。
英特尔的人脸分析研究始于2007年,经历了三个阶段。
早期都是采用相对传统的算法来实现人脸检测与识别、微笑检测、性别年龄识别等简单功能。
随后软硬件协同设计结合Intel架构,采用更高效的人脸检测识别算法,实现了更完善的功能,包括面部关键点检测与跟踪、动态面部表情识别等。
目前,Intel最新的人脸分析技术采用基于深度学习的高效网络结构设计。
在实际应用场景中,其功耗非常低。
此外,英特尔还实现了3D人脸分析,包括3D人脸建模和增强。
陈玉荣博士介绍,他们开发的先进2D人脸技术已经融入英特尔软硬件中,如英特尔集成显卡、RealSense技术SDK等,进一步提升了英特尔用户的视觉体验。
在2D人脸分析技术的基础上,英特尔还开发了一套3D人脸分析技术,通过该技术可以使用普通笔记本电脑实现实时3D人脸建模、跟踪和增强。
会上,陈玉蓉博士演示了一种以参数为代表的三维人脸变形模型,可以用来模拟任何人的外貌、脸型、表情变化等,该技术可广泛应用于虚拟现实和游戏场景进一步提升用户的沉浸式体验。
除了人脸分析之外,情绪的计算也是认知计算的一个重要方面。
对于人类来说,声音和表情是表达情感最重要的方式。
通过对情感识别算法的研究,英特尔于2016年提出了基于人工定义特征的面部表情识别算法,并基于该算法开发了一套音视频情感解决方案。
该程序在2017年举办的无限制音视频情感识别挑战赛EmotiW中获得第一名。
2016年,英特尔开发了一种新的深度神经网络算法HoloNet,该算法速度非常快,可以在普通CPU上以每秒数百帧的速度运行。
这可以满足机器人、智能家居、在线教育应用场景的使用需求。
2016年,英特尔提出了一种新的聚合监督情绪识别算法。
该算法在单一模型中实现了比 HoloNet 高 5.5% 的识别率。
通过多种模型的融合,在去年的比赛中再次获得第一名。