当前位置: 首页 > 科技观察

如果你是刚刚进入数据科学领域,何不从这些算法入手_0

时间:2023-03-17 20:33:02 科技观察

本文转载自公众号《读芯》(ID:AI_Discovery)。机器学习是数据科学领域最重要的子领域之一。机器学习一词最早由IBM研究员ArthurSamuel于1959年使用。从那时起,机器学习领域引起了很多人的极大兴趣。当您开始数据科学之旅时,您遇到的第一个子领域可能是机器学习。机器学习是用来描述计算机算法集合的名称,这些算法通过在运行时收集信息来学习和改进。机器学习算法基于一些数据。最初,算法会获得一些“训练数据”,以建立关于如何解决特定问题的直觉。一旦算法通过了学习阶段,它就可以使用获得的知识来解决基于不同数据集的类似问题。一般来说,机器学习算法分为4类:监督算法:在运行过程中需要开发人员监督。为此,开发人员可以标记训练数据并为算法设置严格的规则和边界。无监督算法:不受开发人员直接控制的算法。在这种情况下,算法的预期结果是未知的,需要由算法来定义。半监督算法:该算法结合了监督和无监督算法的各个方面。例如,在初始化算法时,并不是所有的训练数据都会被标记,也不会提供规则的子集。强化算法:这种类型的算法使用一种称为探索/开发的技术。技术内容简单;机器执行一个动作,观察结果,然后在执行下一个动作时考虑这些结果,等等。上述每个算法都有特定的目标。例如,监督学习旨在扩大训练数据的范围,并使用它来预测未来或新数据。另一方面,无监督算法用于组织和筛选数据以使其有意义。每个类别都有各种特定算法,旨在执行特定任务。本文将介绍每个数据科学家都必须知道的5个基本算法,涵盖机器学习的基础知识。1.回归回归算法是一种监督算法,用于寻找不同变量之间的可能关系,以了解自变量对因变量的影响程度。回归分析可以看做一个方程,比如假设有一个方程y=2x+z,y是因变量,那么x,z就是自变量。回归分析就是找出x和z对y值的影响程度。同样的逻辑适用于更高级和更复杂的问题。针对各种问题的回归算法也有很多种。最常用的前五种可能是:线性回归:最简单的回归技术使用线性方法来描述因变量(预测值)和自变量(用于预测的值)之间的关系。逻辑回归:这种类型的回归与二元因变量一起使用,广泛用于分析分类数据。岭回归:当回归模型变得过于复杂时,岭回归会修正模型系数的大小。Lasso回归:Lasso(最小绝对收缩选择器)回归用于选择变量并对其进行正则化。多项式回归:这种类型的算法用于拟合非线性数据。使用时最好的预测不是直线,而是试图拟合所有数据点的曲线。2.分类机器学习中的分类是基于预先分类的训练数据集对项目进行分类的过程。分类被认为是一种监督学习算法。这些算法使用训练数据的分类结果来计算新项目落入定义类别之一的概率。分类算法的一个著名示例是将收到的电子邮件分类为垃圾邮件或非垃圾邮件。分类算法有很多种,最常用的有:K最近邻:KNN是一种使用训练数据集寻找某个数据集中k个最近的数据点的算法。决策树:把它想象成一个流程图,将每个数据点一次分为两类,然后分为两类,依此类推。朴素贝叶斯:该算法使用条件概率规则来计算项目属于特定类别的概率。支持向量机(SupportVectorMachine,SVM):在该算法中,数据根据其极性程度进行分类,可能超越X/Y预测。图片来源:Google3。EnsembleEnsemble算法通过组合两个或多个其他机器学习算法的预测来获得更准确的结果。可以通过投票或平均结果来组合结果。投票通常用于分类,而平均用于回归。集成算法分为三种基本类型:Bagging、Boosting和Stacking。Bagging:在Bagging中,算法在相同大小的不同训练集上并行运行,然后使用相同的数据集测试所有算法并投票以确定总体结果。Boosting:在Boosting的情况下,算法按顺序运行,然后使用加权投票选择总体结果。Stacking:顾名思义,Stacking由两层组成。初级学习器是算法的组合,次级学习器是基于基础级结果的元算法。4.聚类聚类算法是一组无监督算法,用于对数据点进行分组,其中同一簇中的点比不同簇中的点彼此更相似。有4种类型的聚类算法:基于质心的聚类:这种聚类算法根据初始条件和离群值将数据组织成类。基于质心的最广泛使用的聚类算法是k-means。基于密度的聚类:在这种类型的聚类中,算法将高密度区域连接成聚类以创建任意形状的分布。基于分布的聚类:这种聚类算法假定数据由概率分布组成,然后将数据聚类为该分布的各种版本。层次聚类:该算法创建层次数据聚类树,通过在正确的级别切割树可以改变聚类的数量。5.AssociationAssociation算法是一种无监督算法,用于求出特定数据集中某些物品一起出现的概率,主要用于购物篮分析。最常用的关联算法是Apriori。Apriori算法是交易数据库中常用的挖掘算法。Apriori用于挖掘频繁项集并从这些项集中生成一些关联规则。例如,如果一个人买了牛奶和面包,那么他可能还会买一些鸡蛋。这可以从各个客户的先前购买记录中得出。然后,该算法计算出这些物品被一起购买的频率,并根据该置信度的特定阈值形成关联规则。图片来源:谷歌机器学习是数据科学中最著名和研究最多的子领域之一。人们也一直在开发新的机器学习算法,以达到更高的准确率和更快的执行速度。无论采用何种算法,它通常可以分为四类之一:监督、非监督、半监督和增强算法。每种算法都有不同的用途。这些算法经过深入研究并得到广泛应用,您只需要了解如何使用它,而不是如何实现它。大多数著名的Python机器学习模块(例如ScikitLearn)都包含这些算法中的大多数(如果不是全部的话)的预定义版本。了解其原理后,快速掌握用法并开始使用。