“机器学习”、“人工智能”和“深度学习”经常被人们混淆,但实际上它们看起来相距甚远,而“人工智能”(AI)出现在1950年代,”机器学习”(MachineLearning,ML)出现于1980年代,而“深度学习”(DeepLearning,DL)则是近几年才出现的。三者含而含,如图1-1所示。▲图1-1人工智能、机器学习、深度学习的关系。业界对上述关系仍有不同看法。比如深度学习的一些内容不属于机器学习的范围,这里就不深究了。01机器学习与人工智能“人工智能”一词出现在1956年的达特茅斯会议上,当时人工智能先驱们的梦想是建立一个以人类为主体的软硬件系统,具有人类的特征智力。这里所说的人工智能是“通用人工智能”。这种人工智能梦在影视作品中大放异彩,比如电影中的C-3PO机器人《星球大战》就具备了人类的理性和思考能力。然而,到目前为止,这种高层次的推理和思考仍然难以实现,最好的事情就是退而求其次。目前能实现的属于“狭义人工智能”,比如人脸识别。我们将机器学习描述为实现人工智能的一种方式。机器学习是基于现有数据、知识或经验自动识别有意义的模式。在最基本的情况下,机器学习使用算法来解析数据并从中学习,然后在类似情况下做出决策或预测。简而言之,根据数据进行学习和决策。这样的描述将机器学习与传统软件或普通程序区分开来。在机器学习的过程中,机器学习系统如何对未知环境做出决策或预测,没有人为指导。这个过程是通过机器学习中的算法从数据中学习到的。决策的主体是机器学习算法,决策或者预测是一个非确定性的结果,一般以概率的形式输出,比如80%的概率是晴天。不同的是,传统的应用程序需要软件工程师逐句编写代码(特定的指令集),指示程序或软件执行某些行为,例如输出0和1分别表示注册成功和失败。决策的主体其实是人,程序只是执行动作的工具。因此,机器学习可以归类为间接编程,而不是传统编程。02机器学习和深度学习深度学习使用多层(通常超过5层)人工神经网络来学习数据中的复杂关系。人工神经网络是生物科学、认知科学和人工智能相结合的产物。它已应用于早期的机器学习。其初衷是在计算机中模拟人脑神经元的工作模式。人脑中的神经元数量为数百亿级,它们之间通过突触进行通信,从计算的角度来看是计算密集型的,这限制了复杂人工神经网络在实践中的应用。计算机计算能力的大幅提升带来了新的可能性。2000年,多伦多大学GeoffreyHinton带领的研究团队在不懈研究下,终于在现代超级计算机上验证了深度学习的多层网络结构。GeoffreyHinton因其在深度学习领域的巨大贡献而被誉为深度学习鼻祖,与YoshuaBengio和YannLeCun并称为机器学习三巨头。(三人因在深度学习领域的贡献获得了2018年的图灵奖。深度学习可以看作是一种实现机器学习的技术,是机器学习的一个子集。相对于深度学习,过去的那些只有单层或几层的神经网络被称为浅层学习。对机器学习的描述也曾被专家嘲笑表明某种现象:当你筹集资金时,它属于人工智能;当你招聘时,它属于tomachinelearning;当你执行的时候,这属于线性回归;当你调试的时候,这属于printf()。以上只是从一个侧面简单描述了人工智能、机器学习和深度学习之间的关系。更全面的信息,详见相关资料03机器学习与统计学、大数据与数据科学机器学习与传统统计学密不可分,b其他人从数据中得出结论。在统计学中,首先提出了数据空间假设(如数据呈正态分布),同时我们关心的是样本量增加到无穷大时统计估计的收敛性;机器学习对数据分布做尽可能少的假设,以算法为关键来学习接近数据生成的模型,同时关注有限样本下的学习性能(算法和模型性能)。机器学习和大数据经常同时出现。当有人提到大数据时,需要看一下这个人的背景才能弄清楚大数据的含义。当这个人是大数据相关的技术人员。当从技术角度描述大数据时,他经常提到数据存储、分析、处理和计算的技术。难点不在于具体的算法,而在于存储和计算的分布。系统层面的问题。从行业中我们也可以看到,对于大量数据的建模,往往会使用相对简单的算法。相反,对于少量的数据,由于得来不易,往往需要进行大量的精细分析和处理。我们很难根据一天的天气来预测另一天的天气情况,但是如果有大量的历史天气数据,用常规算法来预测另一天的天气情况会有更大的把握。从某种意义上说,“大数据不难,小数据难”有一定的道理。当这个人从业务角度描述大数据时,往往会提到数据,也就是基于数据进行分析、挖掘、运营、产生商业价值的方法和策略。外行人谈起大数据,往往会提到海量数据、安全、隐私等更直观的概念。值得一提的是,在很多场景下,我们需要扪心自问:我们真的有大数据吗?当然,机器学习所用的数据来自各个渠道,数据量是海量的。存储在大数据平台或大数据存储系统上,从这个角度看,机器学习依赖于大数据。此外,大数据(及其处理能力)也是传统数据分析建模向机器学习和深度学习转变的关键。机器学习也与数据科学密切相关。在我看来,数据科学是从数据的角度总结与数据相关的活动,涉及的范围比机器学习更广泛。数据工程、数据可视化、数据集成和ETL(提取、转换和加载)、商业智能、数据产品、大数据等都可以归入数据科学的范畴。
