当前位置: 首页 > 科技观察

机器学习、数据科学、人工智能、深度学习、统计学等的区别

时间:2023-03-16 19:24:41 科技观察

因为数据科学是一门宽泛的学科,这里我们先从任何业务中可能遇到的数据科学家类型说起。你可以发现你作为数据科学家的隐藏潜力:)像任何科学学科一样,数据科学家也可能从相关学科中学习,尽管数据科学有它自己的部分,尤其是自动处理超大规模非结构化数据的方法和算法,即使没有可以进行人为干预、实时处理或预测。1.各种类型的数据科学家入门和了解一些以前的观点,不妨参考2014年发表的文章《9种数据科学家》或同年另一篇比较数据科学和《16种分析学科》的文章.最近(2016年8月)AjitJaokar讨论了Analytics数据科学家(A型)和Builder数据科学家(B型)之间的区别:A型数据科学家在工作中遇到数据相关性时可以写出好的代码,但没有必要要成为专家,此类数据科学家可能专注于实验设计、预测、建模、统计推断或统计研究的其他典型部分。但总的来说,数据科学家的工作输出并不是学术统计有时建议的“p值和置信区间”(传统药物统计学家有时会使用)。在谷歌,A类数据科学家通常指的是统计学家、定量分析师、决策支持技术分析师或数据科学家,可能还有其他人。B型数据科学家正在构建数据。B类和A类的统计背景有些相同,但他们仍然是更好的编码员,并且可能接受过专业的软件工程培训。他们主要对在产品中使用数据感兴趣,他们在产品中构建用户交互模型,通常用于提供推荐(产品、您可能认识的人、广告电影、搜索结果等)。作者之前也写过ABCD的业务流程优化,D代表数据科学,C代表计算机科学,B代表商业科学,A代表分析科学。数据科学可能包括也可能不包括编码或数学实践,有关详细信息,请参阅低级数据科学与高级数据科学。在初创企业中,数据科学家通常有多个头衔,例如数据挖掘者、数据工程师或架构师、研究员、统计学家、建模者(预测建模)或开发者。尽管数据科学家经常被描述为精通R、Python、SQL、Hadoop和统计学的程序员,但这只是冰山一角,由一些培训机构指导。但就像实验技术人员可以称自己为物理学家一样,真正的物理学家远不止于此,他们拥有各种领域的专业知识:天文学、数学、物理学、核物理学、力学、电学、信号处理(也是数据科学的一个子领域))等等。类比数据科学家,涉及的领域可能是多种多样的,比如生物信息学、信息技术、模拟与质量控制、金融工程、流行病学、工业工程等。作者过去十年一直致力于主机和设备之间的通信,构建自动处理大规模数据集的系统,并执行一些自动化交易:例如购买互联网流量或自动生成内容。这些都隐藏着非结构化数据算法的发展需求,这也是AI(人工智能)、IoT(物联网)和数据科学的交叉点,被称为深度数据科学(deepdatascience)。这部分相对不需要涉及数学,敲代码也不多(主要是一些API),但确实是以数据为中心的(包括构建数据系统),并且是基于专门为此设计的新的统计方法.在此之前,笔者主要做实时信用卡欺诈检测,职业生涯早期从事图像遥感技术,即识别各种事物中的特定模式(或形状、特征,如识别湖泊)insatelliteimagestoachievegraphicseparation:那个时候,这个研究叫做计算统计,和计算机科学做同样事情的人把他们的研究叫做人工智能。今天,同样的研究可能被称为数据科学或人工智能,而子领域可能是信号处理、计算机视觉或物联网。此外,数据科学家分布在数据科学项目的整个生命周期中,在数据收集阶段或数据探索阶段的任何时候,一直到统计建模和维护现有系统。2.机器学习vs.深度学习在深入讨论机器学习和数据科学之间的联系之前,这里先简单讨论一下机器学习和深度学习。机器学习是一组算法,用于训练数据集以做出预测或采取行动来优化系统。例如,监督分类算法用于根据历史数据将寻求贷款的客户分为好或坏的前景。对于给定的任务(例如监督聚类),所需的技术是多种多样的:朴素贝叶斯、支持向量机、神经网络、集成、关联规则、决策树、逻辑回归或多种技术的组合。更详细的算法,请点击这里;对于机器学习问题,请单击此处。所有这些都是数据科学的子集。当这些算法是自动化的时候,比如无人驾驶飞机或无人驾驶汽车,这就叫做人工智能,或者更具体地说,深度学习。单击此处查看另一篇比较机器学习和深度学习的文章。如果收集的数据来自传感器并通过互联网传播,那么这就是应用于物联网的机器学习或数据科学或深度学习。有些人对深度学习有不同的定义,他们认为深度学习是更深层的神经网络(机器学习的一种技术)。最近有人在Quora上问这个问题,这里有一些具体的解释(来源是Quora)AI(人工智能)是计算机科学的一个子领域,创建于1960年代,解决的问题对人类来说很容易,但对计算机来说却很难。.值得一提的是,所谓的强人工智能可能可以做人类可以做的一切(除了纯粹的物理问题)。这是相当广泛的,包括各种各样的事情,比如制定计划、环游世界、识别物体和声音、说话、翻译、社交或商业交易,以及创造性工作(比如写诗和画画)等等。NLP(自然语言处理)就是AI要处理的语言部分,尤其是写作。机器学习是这样一种情况:给定一些可以用离散形式描述的AI问题(比如从一系列动作中选择正确的一个),然后给定一堆关于外部世界的信息,而不需要一个programmer在手动编程的情况下选择“正确”的行为。通常,需要依赖一些外部过程来判断动作是否正确。在数学中,这是一个函数:你给了一些输入,然后你想让他处理它以获得正确的输出,所以整个问题就简化为以某种自动的方式对这个数学函数建模。把它和人工智能区分开来:如果我写了一个特别聪明的带有人类行为的程序,那么这可以是人工智能,但除非它的参数是从数据中自动学习的,否则它不是机器学习。深度学习是一种非常流行的机器学习类型。它涉及一个特殊的数学模型,可以将其视为某种类型的简单块(或块的函数)的组合,可以对其进行调整以更好地预测最终结果。那么,机器学习与统计学有何不同?本文试图回答这个问题。作者写道,统计是机器学习,具有预测或估计数量的置信区间。我倾向于反对,因为我已经建立了对工程师友好的置信区间,不需要任何数学或统计学知识。3.数据科学VS机器学习机器学习和统计学都是数据科学的一部分。机器学习中的Learning一词是指一种算法,它依赖于一定的数据,作为训练模型集来调整一些模型或算法参数。这包括许多技术,例如回归、朴素贝叶斯或监督聚类。但并非所有技术都属于这一类。例如,无监督聚类——一种统计和数据科学方法——旨在通过监控集群或集群结构来帮助分类算法,而不依赖于任何先验知识和训练集。有人需要对发现的集群进行注释。一些技术是混合的,例如半监督分类。一些模式检测或密度评估技术属于这一类。但是,数据科学比机器学习要广泛得多。数据科学中的“数据”可能来自也可能不是来自机器或机械过程(调查结果可能是人工收集的,临床试验需要特殊类型的小数据等),并且可能与提到的“学习”相同above完全没有关系。但主要区别在于数据科学实际上涵盖了数据处理的整个范围,而不仅仅是算法或统计。当然,在许多组织中,数据科学家只关注流程的一部分。想听听我对数据科学的原创贡献。