本文内容来自硅谷投资人戴湖,LDVPartners合伙人。严重的编辑。 人工智能(ArtificialIntelligence)是最广义的概念。人工智能的目的是让计算机,机器,像人一样思考。机器学习(MachineLearning)是人工智能的一个分支,专门研究计算机如何模拟或实现人类的学习行为,从而获得新的知识或技能,从而不断提高自身的表现。 深度学习(DeepLearning)是机器学习的一种方法,它试图使用包含复杂结构或由多个非线性变换组成的多个处理层(神经网络)对数据进行高级抽象。 神经网络是一组粗略地设计来模仿人脑结构以识别模式的算法。神经网络通过机器感知系统解释传感器数据,实现原始输入的标记或聚类等操作。神经网络识别的模式是数值形式的,所以图像、声音、文本、时间序列等现实世界的数据都必须转化为数值。 在深度学习网络中,每个节点层根据前一层的输出学习识别一组特定的特征。随着神经网络深度的增加,节点能够识别的特征变得越来越复杂,因为每一层都对前一层的特征进行了整合和重组。(http://fortune.com/ai-artificial-intelligence-deep-machine-learning/) 上图展示了一个神经网络用来判断一张图片是不是狗的过程。输入是一张图片,深度神经网络抽象出狗的低级特征,最终输出是图片是狗的概率。 深度学习的过程也分为两个过程:训练和推理(“评估”)。通过训练过程获得数据模型,然后用于评估新数据。 数据模型有两种,一种是所谓的判别模型(DiscriminativeModel),意思是可以直接用模型来区分事物。这里说的区分事物最典型的就是分类。既然可以直接用于分类,也就是说我们可以在已知属性的情况下对记录进行判断。因此,判别模型是对条件概率即p(Y|X)的建模。这里的X是一组属性,实际上是一个向量;而Y可能是一个值(此时对应分类问题),也可能是一个向量(此时对应序列标注问题)。判别模型常用于处理分类问题(如识别垃圾邮件)、图像识别等。 再来说说生成模型。生成模型可以描述数据的生成过程。也就是说,知道了模型,我们就可以生成模型所描述的数据。数据由两部分组成,即(X,Y),前者是特征,后者是类别(Y是标量)或序列类别(Y是向量)。对整个数据进行描述,也就是对p(X,Y)进行建模,所以就是对联合概率进行建模。生成模型本身不是为了分类或者序列标注,但是可以用来解决这些问题,也可以用来解决生成问题,比如聊天机器人,比如AI作曲等问题。 而机器学习可以分为以下几类:监督学习从给定的训练数据集中学习一个函数。当有新数据到来时,可以根据这个函数预测结果。监督学习的训练集要求是包括输入和输出,也可以说是特征和目标。训练数据中的对象由人类注释。常见的监督学习算法包括回归分析和统计分类。与监督学习相比,无监督学习在训练集中没有人工标注的结果。一种常见的无监督学习算法是聚类。半监督学习介于监督学习和无监督学习之间。主要考虑如何利用少量标记样本和大量未标记样本进行训练和分类。.强化学习通过观察来学习要采取的行动。每个动作都会对环境产生影响,学习对象根据观察到的周围环境的反馈做出判断。 在传统机器学习领域,监督学习最大的问题是训练数据标注的成本比较高,而无监督学习的应用范围有限。使用少量训练样本和大量未标记数据的半监督学习一直是机器学习的研究热点。 当前非常流行的深度学习GAN模型,其思想与半监督学习类似。GAN是“GenerativeAdversarialNetworks”(生成对抗网络)的缩写,包括一个生成模型G和一个判别模型D。GAN的目标函数是一个关于D和G的零和博弈,也是一个最小-最大化问题。 GAN其实是生成模型和判别模型之间的模仿游戏。生成模型的目的是尽可能地模仿、建模和学习真实数据的分布;而判别模型是判断自己得到的输入数据是来自真实数据分布还是生成模型。通过这两个内部模型的不断竞争,提高了两个模型的生成和判别能力。(图片来自Nvidia深度学习训练工坊) 目前主流的深度学习框架:Berkeley提出的Caffe谷歌提出的TensorFlow(Apache2.0)Torch(BSDLicense),facebook是主要用户MXNet比较中性的机器学习框架(Apache2.0),亚马逊使用AWSCNTK2微软提出(MITLicense) 人工智能在各行业公司的分布 (图片来源http://www.shivonzilis.com/)智能各领域(2016年数据):深度学习/机器学习(综合)(123家)深度学习/机器学习(应用)(260家)NLP(综合)(154家)NLP(语音识别)(78家)计算机视觉/图像识别(通用)(106家)计算机视觉/图像识别(应用)(83家)手势控制(33家)虚拟个人助理(92家)智能机器人(65家)推荐系统(60家)nies)情境感知计算(28家)即时语音翻译(15家)视频识别(14家)知名度 上图为2011年至2016年最活跃的人工智能公司投资人 下图为福布斯关注的50家人工智能公司。(图片来自http://fortune.com/2017/02/23/artificial-intelligence-companies/)通过分布式计算和验证新发现策略的科学方法,SentientTechnologies为各个领域的复杂问题提供了新的解决方案。 Ayasdi:机器学习平台、数据可视化、分析、金融科技、医疗保健代理系统: Vicarious:这是一家神秘的人工智能公司,Vicarious的目标是“构建下一代人工智能算法”。他们还声称要打造“像人类一样思考的软件”,实现“人脑级别的视觉、语言和自动控制系统”,致力于通用人工智能的研究。他们目前的研究重点是人工视觉识别系统的实现。 ContextRelevant:ContextRelevant通过使用由机器学习提供支持的自动化数据科学平台,比任何其他解决方案更快、更高效地解决了世界上一些最棘手的大数据、预测和行为挑战。 Cortia:Cortica的技术模仿人类皮层,以前所未有的精确度理解和识别图像。 Workfusion:WorkFusion是一个完整的全球运营自动化解决方案,将复杂业务流程数字化所需的核心功能集成到一个平台中:提供业务流程管理(BPM)、机器人流程自动化(RPA)、劳动力编排和认知自动化通过机器学习。 RapidMiner:开源预测分析平台,使企业能够将预测分析纳入业务流程 数字推理系统:确保合规性、维护安全性并快速准确地分析信息。 H2O.ai:H2O是一个开源的深度学习平台。超过80,000名数据科学家和超过9,000家组织使用H2O。 VivLabs:Viv正在开发语音助手,已被三星收购。 参考: http://fortune.com/ai-artificial-intelligence-deep-machine-learning/ https://en.wikipedia.org/wiki/Artificial_neural_network http://fortune.com/2017/02/23/artificial-intelligence-companies/ https://www.amazon.com/b?ie=UTF8&node=16008589011# http://techemergence.com/人工-智能行业按细分市场的概述/ Nvidia深度学习培训研讨会 Crunchbase CBInsights
