10月17-19日,2019中国计算机大会(CNCC2019)在苏州召开。本届大会以“智能+引领社会发展”为主题,1000家机构代表、8000余人参会。百度CTO王海峰在会上发表了名为《深度学习平台支撑产业智能化》的演讲,分享了百度对深度学习技术推动人工智能发展与产业应用的思考,并深度解读了百度飞桨深度学习平台、百度智能云的优势结合产业智能化成果。以下为发言实录:各位专家、嘉宾大家上午好!很荣幸有机会参加世界计算机大会,也非常感谢中国计算机学会和大会的邀请。今天跟大家分享的话题是《深度学习平台支撑产业智能化》。众所周知,自1760年代以来,人类经历了三次工业革命。第一次工业革命给我们带来了机械技术,第二次是电气技术,第三次是信息技术。回顾这三场工业革命的历史,我们会发现驱动每一次工业革命的核心技术都非常多样化。虽然它可能是从某个行业开始的,比如机械技术最开始是从纺织等行业开始的,但是最终会应用到生产生活的方方面面,具有很强的通用性。除了通用性之外,这些技术还将推动人类进入工业化大生产的新阶段,而支撑这一工业化大生产的技术具有几个特点:标准化、自动化和模块化。我们正处于第四次工业革命的开端,人工智能是新一轮科技革命和产业变革的核心驱动力。人工智能将推动我们的人类社会逐步进入智能时代。回顾人工智能技术的发展历程,人工智能技术的发展阶段有很多分类维度。我的理解可以总结为:早期更多的是人为的规则。26年前我进入这个行业的时候,其实是在Useartificialrulestodevelopmachinetranslationsystems;后来,机器学习,尤其是统计机器学习,长期成为主流,也产生了很大的影响,给应用行业带来了很多价值;深度学习是机器学习的一个子方向。现在,深度学习逐渐成为新一代人工智能的核心技术。举几个例子,早期的文字识别OCR技术是用规则+机器学习的方法来完成的。届时,一个OCR技术体系可能分为几个部分,从区域检测、线分割、分词、词识别、语言模型解码、后处理等都是一步步完成的。加入深度学习技术后,开始使用大数据进行训练,阶段目标也很明确。我们发现了一些深度学习的特征。此时,一个OCR系统被简化为只有检测和识别两个过程。典型的基于深度学习的OCR系统大概是这样的。随着深度学习技术的进一步发展,我们开始在OCR中进行多任务联合训练、端到端学习、特征重用/互补等。这个时候,就连这两个阶段也不需要区分,而是整合在一起。我做了一个文本识别任务。让我们再看看机器翻译。26年前我进入人工智能领域的时候,是做机器翻译的。当时我们用了上万条规则来写一个翻译系统,其中包括很多语言专家的工作。20多年前,我们做的系统在全国比赛中获得了第一名,但是这个系统要想继续发展,进入大规模产业化阶段,还面临很多问题。例如,人工规则费时费力,而且随着规则数量的增加,冲突也越来越严重。总是很难涵盖所有的语言现象。后来,统计机器翻译占据了机器翻译领域最主流技术的位置。比如百度翻译八年前推出的第一版系统,其实就是统计机器翻译。在统计机器翻译的过程中,还是需要一步一步来的。比如先做统计词对齐,然后做词组抽取,再做结构对齐等,这也涉及到人工特征提取和方向优化。还是很复杂。大约四年前,百度推出了全球首个基于神经网络的大规模翻译产品。这时候,我们就可以进行端到端的学习了。当然,这样的神经网络,或者说深度学习系统,也有它的缺点。真正在网上运行,每天为数亿人服务的翻译系统,其实就是基于神经网络的机器翻译方法。作为主体,它还融入了一些规则和统计技术。正如我前面提到的,随着深度学习的发展,这些技术越来越标准化和自动化。大家可以看到深度学习有一个很重要的特点,就是通用性。之前我们在做机器学习的时候,有很多大家比较熟悉的模型,比如SVM,CRF等等。深度学习出现后,人们发现它几乎可以很好地解决我们所见过的各种问题,甚至可以得到目前最好的解决效果。这与以前的模型不同。它具有很强的通用性。深度学习的位置,一方面会向下连接芯片,像我们开发的深度学习框架,也会和各个芯片厂商联合优化,前天我们也发布了和华为芯片的联合优化;它将承接各种应用,无论是各种模型还是实际产品。所以我们认为深度学习框架会是智能时代的操作系统。当我们真正将深度学习大规模产业化的时候,也会面临一些需要解决的问题。例如,开发这样的深度学习模型或系统,实现起来非常复杂,开发效率很低,并不容易;在训练的时候,我们在实际工业量产中使用的模型,比如百度的产品,都是非常大的模型,训练超大模型非常困难;速度够快,部署成本是否可控合理。针对这些方面,我们开发了百度的深度学习平台“飞桨”,英文名为PaddlePaddle。我们认为它已经具备了标准化、自动化、模块化的工业量产的特点。Paddle的底层核心框架包括开发、训练和预测。开发可以同时支持动态图和静态图;训练可以支持大规模的分布式训练,以及工业级的数据处理;同时可以在服务器上、端上部署不同的版本,做非常高效的压缩、安全加密等等。在核心框架之上还有很多基础模型库,比如自然语言处理基础模型库、计算机视觉基础模型库等等。同时会提供一些开发包,里面会有各种工具组件,比如自动网络训练、迁移学习、强化学习、多任务学习等。此外,为了真正支持来自所有领域的应用各行各业,我们提供了很多用户不需要了解底层技术,直接调用的服务平台。例如,EasyDL可以定制培训和服务。基本上不需要了解深度学习背后的原理,零门槛就可以用它来开发自己的应用;AIStudio是一个实用的培训平台,很多大学也在用。在平台上课和学习;当然,还包括端计算模型生成平台。飞桨是一个非常大的平台。我们专注于四个方面,拥有领先的技术。首先,从开发的角度,我们提供了一个方便开发的深度学习框架;从训练的角度,可以支持超大规模的训练;从部署的角度,可以部署多终端、多平台的高性能推理引擎;许多行业级模型库。从开发的角度来看,Paddle提供了一个易于开发的深度学习框架。一方面,我们都知道这些软件系统是由很多程序员编写的,程序员都有自己编写程序的习惯。我们的网络化编程范式非常符合程序员的开发习惯,程序员开发的时候会很舒服。另一方面是设计网络结构。深度学习已经发展了很多年。大多数深度学习的系统网络都是由人类专家设计的。然而,设计网络结构非常专业且不容易。事物。因此,我们开发了网络结构的自动设计。现在机器自动设计的网络在很多情况下取得了比人类专家设计的网络更好的效果。另一方面,大规模训练也存在挑战。Paddle支持超大规模特征、训练数据、模型参数、流式学习等。我们开发的系统现在可以支持万亿级别的参数模型,不仅支持这样的训练,还支持实时更新。在多终端、多平台方面,Paddle可以很好地支持服务器到终端、不同操作系统之间,甚至不同框架之间的无缝连接。下面是一些具体的数据,大家可以看到,我们通用架构的推理是非常快的。同时,在刚才提到的与华为的合作中,我们针对华为的NPU进行了针对性的优化,进一步提升其推理速度。另一方面,所有这些基础框架和真正的开发和应用之间还有一个步骤。我们为语言理解、强化学习、视觉等不同的典型应用提供了很多官方模型库,这些飞桨模型已经在大规模应用中得到验证。同时,我们也在一些国际比赛中测试了这些模型,并获得了多项第一。刚才讲的是基础框架模型等,另一方面我们也有完整的工具组件,面向任务的开发包,工业级的服务平台。举几个例子,比如语言理解,大家都知道现在语言理解,我们也是基于深度学习框架做的,像百度的ERNIE。一方面,我们现在使用的深度学习技术是从海量数据中学习,但它没有知识作为前提。百度开发了一个非常庞大的知识图谱,包含超过3000亿个事实。我们用知识来增强基于深度学习的语言理解框架,产生了ERNIE。另一方面,我们加入了持续学习的技术,让ERNIE有很好的表现。下面淡蓝色的线是SOTA现在最好的结果。我们用的是ERNIE+百科知识——我们的知识图谱也有很多来源——添加之后可以看到有明显的提升。我们更欣慰的是,这个系统可以通过不断的添加不同的知识,比如添加对话知识,章节结构知识等,进一步提升性能。这是前面提到的系列工具包之一,一个定制化的培训和服务平台,零准入门槛。我们的平台希望能降低门槛,帮助各行各业加速整个技术创新。目前是什么状态?现在我们已经服务了超过150万的开发者,其中包括超过65000家企业。在这个平台上,他们自己训练了16.9万个模型。飞桨深度学习开源开放平台也与百度智能云很好的融合。依托云服务更多客户,AI赋能各行各业。这里有些例子。比如在农业方面,我们帮助智能种植水培蔬菜;在林业,我们帮助监测和识别病虫害;以及公共场所控烟、商品销售预测、人力资源系统自动匹配、制造零部件监测识别等。分拣,以及地震波、油藏预测,以及更广泛的覆盖通讯业、房地产、汽车等领域,各行各业都基于这个平台进行了智能化升级。比如水培蔬菜的智能种植,我们利用深度学习平台支持,分析生长情况,微调水培方案,控制环境,从而提高产量,降低成本。昆虫智能监测也是如此。系统的识别准确率达到了人类专家水平,监测周期也从一周缩短为一小时。在精密零件智能分拣的情况下,我们在实际使用这个深度学习系统的时候,还有很多事情要做,比如如何选择分拣模型,中间会涉及到一些数据标注,尤其是一些误差案例的积累等等,然后在飞桨平台上进行训练升级。这是工业安全生产监控的一个例子。昨天在另外一个会议上,有位嘉宾问我,他们特别想监控某些场景下的一些不合适的环节,比如生产环境中的手机通话、抽烟、跳过护栏等。等等,这一切都可以通过飞桨平台自动实现。在其他行业,比如国家重大工程现场检测、智慧司法、AI眼底筛查都在用飞桨,还有很多温暖的案例,比如AI寻人,一个孩子4岁走失在家27年后,通过人脸比对技术,帮助家人找回了孩子,实现了一家人的团圆。截至今年6月,百度AI寻人已帮助6700个家庭团圆。此外,还有AI助盲、AI助退伍军人圆梦等案例。回到深度学习,我刚才说了,各行各业都将从中受益,实现自身的智能化升级。这是第三方报告。我们可以看到深度学习会给不同行业带来提升,平均提升幅度在62%左右。这就是我今天要分享的内容。百度飞桨深度学习平台非常愿意与您一起,帮助您实现产业智能化升级,推动人工智能的发展。谢谢你!
