正文| 9月26日的北京,天气凉爽,略带雾霾。
智动智直播北京9月26日消息,今日,英伟达GTC中国(GPU技术大会中国分会)最重要的环节——CEO黄仁勋(被粉丝爱称为“老黄”)的主题演讲——开始了! GTC作为特邀媒体,在会议前排进行报道(文末附有完整PPT下载)。
GTC大会不再只是通常意义上的“显卡技术大会”,而是NVIDIA AI和VR的展示。
、深度学习等多项新技术,上午8点左右就吸引了数千人来到现场。
本次演讲的几个亮点如下:推出新版TensorRT 3深度学习应用平台;推出全球首款机器人芯片XAVIER;宣布阿里巴巴、百度、腾讯“三云”数据中心开始使用Tesla V全新GPU;康维信合作打造AI城市;宣布与京东在仓储机器人、送货无人机等方面展开合作。
5月,英伟达在美国主会场举办GTC,推出了新款GPU Tesla V以及DGX-1超级计算机、HGX等众多新产品-1云服务器、ISSAC机器人训练平台等。
智西西作为特约媒体受邀来到硅谷,对其进行了详细深入的报道(多人VR互动、30亿美元显卡、神秘的ISAAC黑科技..有关 GTC 的所有有用信息都在一篇文章中)。
与5月份的GTC相比,本届GTC中国推出的新品和公布的合作案例大多集中在深度学习推理应用(Inference)领域。
可见,凭借超高计算性能GPU在深度学习训练(Training)领域赚得盆满钵满的Nvidia,如今也想在应用端发力。
1、开场:和5月的GTC几乎一样(老黄今天开场穿着千年不变的经典黑色皮夹克)。
9:00左右,主题演讲稍有延迟地开始。
开场视频以“我是人工智能”为主题,以“我是科学家”、“我是治疗者”、“我是保护者”、“我是老师”等第一人称代词进行旁白,并介绍了使用方法NVIDIA GPU 的数量。
驱动人工智能如何应用于数据、医疗健康、翻译、机器人、自动驾驶、教学等领域。
该开场视频复用了5月GTC的开场视频结构,但增加了本土化的科大讯飞、图森驾驶等镜头。
和5月的GTC一样,黄一开始也谈到摩尔定律近年来如何开始失效,人们需要花费越来越多的成本来换取算力的小幅提升。
而且,与摩尔定律的逐渐失效形成鲜明对比的是GPU的崛起。
近年来,随着人工智能和深度学习的兴起,GPU驱动的计算已经无处不在。
英伟达的AI平台还支持目前所有的深度学习框架、所有的云和数据中心,并建立了Inception深度学习启动计划。
已有3家公司参与。
而且,CUDA开发者数量五年内增长了14倍,超过60万,CUDA SDK的下载量也达到1万次。
全球范围内人工智能初创公司不断涌现,今年迄今已获得 66 亿美元融资,今年已发表超过 3000 篇深度学习论文。
有很多以前人类无法想象的AI应用,比如利用深度学习自编码器完成部分渲染的真实图像、自动生成语音+3D面部动画、实时跟踪人体动作、人体动作模拟等。
黄谈到了5月份发布的VR多人交互平台Holodeck,但这部分涉及到(多人VR交互、30亿美元的显卡、神秘的ISAAC黑科技……一篇文章看完所有GTC信息)与所示相同,没有添加新内容。
2、融入阿里巴巴、百度、腾讯“三云”。
5月份的GTC上,老黄请来了亚马逊AWS和微软Azure云,而这次GTC中国,怎么可能没有国产云服务呢?合作伙伴呢?这次老黄宣布中国三大代表性云服务商阿里云、百度云、腾讯云已经开始使用我们新推出的Tesla VGPU!事实上,在此之前,BAT三多云的数据中心就已经使用了NVIDIA GPU。
这次,黄只是强调他们已经使用了 Tesla V。
同时,BAT 以深度学习思想领袖赞助商的身份出现。
~(Tesla V参数图)Tesla V是Nvidia今年5月推出的一款新GPU。
它被称为“世界上最昂贵的算力项目”——研发投资30亿美元。
这款GPU采用台积电12nm Finfet工艺,拥有1亿个晶体管,采用Volta Tensor Cores架构。
单个计算单元的速度比原来快12倍。
此外,老黄还宣布,国产HGX云计算服务器将以华为、浪潮、联想为代表代工。
HGX-1是英伟达今年5月在GTC上推出的一款专为GPU云计算而设计的超级计算机。
适用于公有云、深度学习、图形渲染、CUDA计算等。
配备8颗Tesla VGPU,售价14.9万美元。
3.重磅消息:新版深度学习应用平台TensorRT 3深度学习分为训练(Training)和推理应用(Inference)两部分。
数据科学家通过大量数据训练了神经网络后,他们就会对其进行训练。
神经网络应用于人工智能软件应用的硬件,例如人脸识别和语音识别。
然而,从CNN到LSTM再到GAN,目前的深度学习神经网络框架正变得越来越复杂、更加多样化、日新月异。
培训环节的复杂性自然也带来了应用环节的复杂性。
复杂性 - TensorRT 旨在解决这个问题。
在本次GTC China上,老黄带来了新一代深度学习应用平台TensorRT 3。
TensorRT是一个可编程应用平台(Programmable Inference Platform)。
这是什么意思?训练完神经网络后,您可以通过 TensorRT 可编程平台快速轻松地将训练好的神经网络部署到 Tesla V、Jetson TX2、Drive PX 2 等 NVIDIA GPU 硬件上。
与上一代 TensorRT 相比,本次 TensorRT 3 在三个方面进行了进化: 1)增加了对深度学习框架的支持:新一代 TensorRT 支持 TensorFlow、mxnet、Caffe2、PYTORCH、theano、Microsoft Cognitive Toolkit、Chainer 和百度PaddlePaddle - 涵盖了市面上几乎所有的深度学习开源框架。
2)添加支持的GPU:TensorRT现在可以应用于NVIDIA全系列GPU,包括Tesla V、Tesla P4、Drive PX2、Jetson TX2和NVIDIA DLA框架,范围从几瓦到数百瓦。
3)增加应用:本来TensorRT比较擅长的是图像处理等方面的深度学习应用。
现在它可以在云、数据中心、机器、机器人等中轻松处理。
此外,TensorRT还被老黄称为“世界上最快的TensorFlow应用平台”。
Tesla V上的应用程序性能可以达到CPU的几十到几百倍,处理图像和处理语音时延迟仅为7ms。
延迟小于ms(不久前,谷歌在数据中心使用的TPU也有7ms的延迟)。
为了达到如此高效、快速、低延迟、高能效的效果,TensorRT采用了分层融合、动态内容和多级并行。
计算等技术,并采用8位计算。
当工程师将训练好的深度学习神经网络应用到GPU板上时,只需几秒钟即可成功部署,并且几乎不需要手动操作。
而且,通过迁移学习,NVIDIA可以提供预训练的神经网络(Pre-Trained Network)。
在已经用大量数据训练过的网络的基础上,用户可以添加少量自己需要训练的部分数据。
获得很好的结果。
由于 Tesla V 的速度比 CPU 快 40 倍,因此只需一台 8GPU 服务器即可替代双 CPU 服务器或 4 个机架,每台 V 服务器可节省 50 万美元。
(4架CPU,1架GPU)在这个PPT页面里,老黄来回切换了4、5次,玩得不亦乐乎。
而且,老黄一再强调“省钱、省钱、省钱”。
“省钱”从这一刻起贯穿了整个演讲…… 4、TensorRT的合作伙伴及应用案例阿里云、百度云、腾讯、京东、科大讯飞也宣布成为NVIDIA GPU应用的合作伙伴加速平台。
他们竞相将人工智能整合到商业、社交、新闻、突出显示和其他应用程序中。
(使用CPU和GPU识别花朵)在现场演示中,老黄展示了使用CPU和V+TensorRT 3识别花朵的速度差异。
GPU 的速度几乎是其两倍。
第二个演示使用语音识别,搜索《权力的游戏》中的台词,直接定位到剧中角色说这句台词的场景。
随后,老黄宣布英伟达将与海康威视合作建设人工智能城市。
海康威视的安全项目端到端解决方案从训练到应用都将使用 NVIDIA 平台。
老黄表示,这是英伟达和海康威视两年来长期合作的成果。
到2020年,城市将安装10亿个摄像头,帮助寻找失踪人员、智能控制交通、协助执法等,城市将变得更加智慧、安全。
此外,NVIDIA还与华为、大华、阿里巴巴等公司在智慧城市、智能交通、虚拟安全等方面展开合作。
5、L3-L5自动驾驶平台GTC中国此次没有公布任何新产品。
黄领导重新介绍了Nvidia在自动驾驶方面的动作——AV(AutonomousDriving)计算平台。
从垂直方向看,平台有四层,如下图。
其中,DriveOS是安装在自动驾驶汽车上的软件操作系统。
这部分由各个自动驾驶公司拥有。
Nvidia主要提供计算能力。
这里计算能力的核心是基于Nvidia GPU的计算模块Nvidia Drive PX。
目前Drive PX已经发展到第二代,称为Drive PX2。
通过组合不同数量的Drive PX2,可以支持不同级别的自动驾驶能力。
例如,1台PX2可支持L2级自动驾驶,4台PX2可支持L4/L5级自动驾驶。
此外,PX2搭载了基于Pascal架构的显卡,Nvidia也在5月份推出了产品Drive PX Xavier的升级版。
搭载NVIDIA的Volta架构显卡和耗资30亿美元开发的8颗CPU,被NVIDIA称为迄今为止最复杂的片上系统,支持L4/L5级别的自动驾驶能力。
Drive PX Xavier 将于今年第一季度向抢先体验合作伙伴推出,第四季度全面发货。
仅靠硬件是不够的。
为了让开发者更好地使用PX2和PX Xavier系列产品,NVIDIA还贴心推出了配套的开发者工具——NVIDIA DriveWorks。
借助硬件和开发者工具,自动驾驶技术开发者可以在这些计算平台上部署他们的软件系统并运行各种深度学习网络。
借助深度学习网络,自动驾驶汽车可以处理激光雷达、毫米波雷达、超声波雷达、摄像头等车载传感器的数据,从而帮助汽车实现感知、定位、规划三大功能,并完成自动驾驶功能。
同样受益于GPU在深度学习方面的先天优势,老黄表示,全球有一家从事自动驾驶技术研发的公司正在使用NVIDIA的自动驾驶平台。
其中包括国内的Momenta、获得英伟达投资的图森未来,以及前段时间刚刚展出自动驾驶快递车的京东。
有趣的是,黄负责人并没有提及此次在GTC上提出的AI汽车平台,该平台包括自动驾驶、地图驾驶、守护天使、副驾驶等功能。
最后,黄仁勋还表示,英伟达的野心不仅限于自动驾驶汽车。
其未来的目标是为无人机和机器人等所有智能设备提供类似的计算能力。
6、由硬到软,打造机器人大脑。
会上,老黄正式宣布推出全球首款用于自主机器人的处理(芯片)——Xavier。
上面提到的自动驾驶Drive PX Xavier芯片就是其一个架构分支。
Xavier 集成了 8 核 CPU、Volta TensorCore 和 CUDA GPU、传感器、8K HDR VP 和 CVA。
可应用于30TOPS计算机视觉、深度学习等机器人所需的技能领域,并具有超高算力和超高能效比。
该处理将于今年第一季度向早期合作伙伴开放,并将于今年第四季度全面推出。
同时,老黄还宣布,英伟达的Xavier将应用于京东仓储机器人jROVER+京东送货无人机jDRONE等一系列自主机器人中。
据京东预测,今年将部署10亿台自主机器人。
现在,这些自主机器人拥有硬件大脑,但是软件大脑呢?别担心,今年5月,Nvidia推出了一款用于训练机器人的增强学习世界模拟器——ISAAC机器人模拟器(ISAAC Robot Simulator)来模拟现实世界的逻辑、原理、物理规律等,然后利用机器将自己放入这个世界并不断训练。
你可以快速训练这个世界上成千上万个超越物理时间规律的机器人,然后找到其中最聪明的机器人,复制它的“大脑”程序,重复这个过程,直到选出最聪明的机器人。
一个神经网络,部署在XAVIER上,然后把这个芯片放进机器人的“脑袋”里。
7.人工智能应用需求不断增长。
如上所述,与5月份的GTC相比,本次GTC中国推出的是新的计算平台TensorRT 3或TensorRT 3,专注于深度学习推理应用(Inference)领域。
各BAT云服务商、京东机器人等应用端合作实施案例。
宁微凭借超高计算性能GPU,在深度学习的两个方面之一:训练(Training)方面几乎占据了主导地位。
这时,它还想走向另一个方面:推理应用(Inference)。
阿呆使出了浑身的力气。
如今,LinkedIn 上每天有 2 万亿条信息需要个性化处理,每天有 5 亿科大讯飞用户需要使用语音识别技术,谷歌翻译每天处理 1 亿个单词,每天上传 1 亿帧视频。
YouTube 上的一天…………在这个数据爆炸的时代,我们对人工智能应用的需求变得越来越强大和迫切。
以上问题都可以用AI来解决,但问题是现在的很多数据中心都是几年前为搜索引擎等互联网应用而建的。
该框架和工作负载都不适合实时人工智能应用。
英伟达的合作伙伴——例如微信拥有10亿用户群的语音转文字功能、京东需要1000个频道的智能视频分析需求、阿里巴巴需要平均每天80亿条消息的翻译功能——都在其中。
在数据中心使用NVIDIA GPU后,速度、精度、延迟、能效比等方面都得到了极大的提升。
目前,人工智能板卡主要分为GPU、ASIC、FPGA。
代表是NVIDIA Tesla系列GPU、Google的TPU、Xilinx的FPGA。
GPU的优势在于其强大的性能和成熟的生态系统。
但从另一个角度来看,与FPGA、ASIC等板卡相比,它也遇到了功耗较高、价格较高、某些方面性能不足等弱点。
华为最近推出的麒麟手机芯片和苹果推出的A11手机芯片都是根据特定需求专门设计和制造的ASIC(专用集成电路)芯片。
结论:在平时关于终端智能化趋势的演讲中,黄老师很少提及训练部分,大部分都是在深度学习的应用上。
推出新版TensorRT 3深度学习应用平台;推出全球首款机器人芯片XAVIER;宣布阿里巴巴、百度、腾讯“三云”数据中心已开始使用Tesla V全新GPU;与海康威视合作打造AI城市;宣布与京东在仓储机器人、送货无人机等方面进行合作。
从GTC中国的各种实施案例中,我们可以看到NVIDIA正在一步步努力开发AI应用。
从日益繁荣的AI板卡市场可以看出,终端智能化(在硬件终端上实现AI应用)已经成为大势所趋,无论是NVIDIA的通用GPU,还是谷歌TPU、华为、苹果等一系列定制板卡A11卡都是人工智能从软到硬在硬件终端落地的体现,是人工智能进一步产业化的典型代表。