数据科学家须知的19个机器学习算法

时间：2023-03-18 20:52:01 科技观察

数据科学家应该知道的19种机器学习算法，用于算法分类。第二种是根据形式或功能的相似性对算法进行分类。总的来说，这两个类别是平等的。这一次，我们主要探讨了根据相似性分类的算法，以及它们的各种类型。按学习方法分类的机器学习算法一般来说，同一个算法会根据不同的交互体验对一个问题采用不同的建模方法。而这不会影响我们对输入数据的调用。同时，一些算法经常出现在人工智能领域的热门机器学习和教科书中。因此，面对不同的应用场景，人们首先需要考虑的是一种算法适合的学习方式。下面，我们将讨论机器学习算法的几种主要学习方法，以及不同算法适用的问题场景和用例。通过综合考虑各种输入数据所起的“作用”和模型准备的不同过程，你会根据你的问题选择最合适的算法，最终得到最好的结果。让我们先来看看三种不同的学习方式：监督学习在监督学习下，输入数据称为“训练数据”，它们都有已知的标签或结果，例如“垃圾邮件”、“不是垃圾邮件”或股票价格某个时刻等。监督学习通过一个训练过程建立一个预测模型。他们不断地通过与“训练数据”的实际结果进行比较来修正他们的预测。因此，训练过程一直持续到模型达到期望的水平。常见的应用场景包括：分类问题和回归问题常见的算法包括：LogisticRegressionandBackPropagationNeuralNetworkUnsupervisedlearning在无监督学习中，输入数据没有标签，也没有已知的结果，我们必须准备相应的模型，通过推导输入数据的内在结构。我们可以提取一些通用规则，同时通过一定的数学运算减少冗余理过程。常见的应用场景包括：聚类、降维、关联规则学习。常见的算法包括：先验（Apriori）算法和K均值（k-Means）算法。半监督学习在半监督学习中，输入数据是标记和未标记样本的混合。它还具有所需的预测目标。该模型必须通过学习不同的结构来组织各种数据以进行预测。常见的应用场景包括：分类问题和回归问题。常见算法包括：对其他尝试对未标记数据建模的灵活监督学习算法的一些扩展。按相似性分类的算法机器学习算法通常按功能相似性分类，包括：（决策）基于树的方法和神经网络启发式。我个人认为这是机器学习算法最有效实用的分类方法。当然，也有一些跨越多个类别的算法，例如：LearningVectorQuantization。该算法是神经网络方法和基于实例的方法的结合，常用于描述回归和聚类问题，以及算法的类型。这类算法的特点是不会重复调用同一个算法。1.回归算法回归算法涉及对变量之间的关系建模。我们可以使用这个模型来改进各种预测中产生的误差指标。这些方法是统计学的“主力军”，也是统计机器学习的“利器”。由于“回归”既可以指代问题的类型，也可以指代算法的问题，因此在指代上很容易混淆。最流行的回归算法包括：普通最小二乘回归（OLSR）线性回归逻辑回归逐步回归多元自适应回归样条，MARS）局部估计散点图平滑（LOESS）2.基于实例的算法该模型使用各种实例的训练数据来处理与决策问题。该方法是构建样本数据的数据库。它将新数据与样本数据进行比较，使用相似性方法找到最佳匹配，并进行预测。我们存储不同实例的性能状态，并使用实例之间的相似性度量。因此，基于实例的算法也被称为“赢家通吃学习”或“基于记忆的学习”。最流行的基于实例的算法包括：k-NearestNeighbor(kNN)LearningVectorQuantization(LVQ)Self-OrganizingMap(SOM)LocallyWeightedLearning(LWL))3.正则化算法这种方法是其他算法的扩展（通常regressionalgorithms），它采用的“惩罚”模型与其复杂度有关，即模型越简单，越容易泛化。我在这里挑出来的原因是它很流行，功能强大，并且是其他方法的简单修改。最流行的正则化算法包括：RidgeRegressionLeastAbsoluteShrinkageandSelectionOperator,LASSO弹性网（ElasticNet）Least-AngleRegression(LARS)4.决策树算法决策树方法是根据数据属性的实际值来建立决策模型。树结构不断分叉，直到根据给定记录做出预测决策。决策树针对分类和回归问题的数据进行训练。由于其速度和准确性，决策树是最流行的机器学习算法之一。最流行的决策树算法包括：分类回归树（CART）IterativeDichotomiser3,ID3C4.5andC5.0Chi-squaredAutomaticInteractionDetection(CHAID)Decisionstump（单层决策树，DecisionStump）M5Conditional决策树（ConditionalDecisionTrees）5.贝叶斯算法这类算法适用于那些贝叶斯定理的问题，如分类和回归。最流行的贝叶斯算法包括：NaiveBayesGaussianNaiveBayesMultinomialNaiveBayesAveragedOne-DependenceEstimators，AODE贝叶斯信念网络（BayesianBeliefNetwork，BBN）贝叶斯网络（BayesianNetwork，BN）6.聚类算法聚类和回归一样，可以用于描述问题的类型和方法的类型。这种方法采用基于质心或分层的建模方法，所有这些方法都涉及使用数据的固有结构。它的目标是根据数据之间的最大共性对数据进行分组。最流行的聚类算法包括：K-均值（k-Means）K-中值（k-Medians）期望最大化（ExpectationMaximisation，EM）层次聚类（HierarchicalClustering）7.关联规则学习算法associationRule-basedlearningmethodsaim通过观察提取最能描述数据变量之间关系的规则。这些规则可以从组织可以利用的大型立方体中发现重要且实用的关联。最流行的关联规则学习算法包括：先验算法（Apriorialgorithm）Eclat算法8.人工神经网络算法该算法是受生物神经网络结构启发的模型。它们是一类模式匹配，用于解决回归和分类等问题。由于它结合了数百种算法和变量，因此它包含一个非常大的子集。最流行的人工神经网络算法包括：感知器反向传播Hopfield网络径向基函数网络(RBFN)9.深度学习算法深度学习算法是人工神经网络版本的升级，它充分利用了廉价的计算能力。它们涉及构建更大、更复杂的神经网络。最流行的深度学习算法包括：DeepBoltzmannMachine(DBM)DeepBeliefNetworks(DBN)ConvolutionalNeuralNetwork(CNN)StackedAutoencoder(StackedAutoencoder)-Encoder)10.降维算法与聚类方法类似，降维算法寻找数据中的固有结构。一般来说，对于三维数据的可视化比较实用。我们可以在监督学习方法中使用它进行分类和回归。最流行的降维算法包括：主成分分析（PCA）主成分回归（PCR）偏最小二乘回归（PLSR）SammonMapping多维尺度（MDS）ProjectionPursuit线性判别分析（LDA）混合判别分析（MDA）Quadratic判别分析(QDA)灵活判别分析(FDA)11。模型融合算法该算法由多个训练好的弱模型组成。它以某种方式将单独的预测组合成一个更好的预测。可以看出，模型融合算法是一种非常强大和流行的技术。最流行的模型融合算法包括：BoostingBootstrappedAggregation(Bagging)AdaBoostStackedGeneralization(blending)GradientBoostingMachines(GBM)GradientBoostedRegressionTrees(GBRT)RandomForest(随机森林)常见的机器学习算法Overview1.NaiveBayesianClassifierAlgorithm通常情况下，我们很难对网页、文档或电子邮件进行准确分类，尤其是那些包含冗长文本信息且需要人工分类的。而这恰好是朴素贝叶斯分类器算法的用武之地。而且，它的分类器具有为元素赋予相似度值的功能。例如，垃圾邮件过滤是朴素贝叶斯算法的常见应用。此处的垃圾邮件过滤器充当分类器，为所有电子邮件分配“垃圾邮件”或“非垃圾邮件”标签。粗略地说，它是最流行的相似型机器学习算法。其工作的基本原理是根据贝叶斯定理对各种词进行简单分类，实现对内容的主观分析。2.K-means聚类算法K-means是一种使用无监督机器学习的聚类分析算法。同时，它属于一种非确定性的迭代方法。该算法对给定数据集中预设数量的类别（例如，k）进行操作。因此，K-means算法的输出是在聚类中从输入数据中分离出来的k个分区聚类。3.支持向量机算法该算法是一种使用有监督机器学习的算法，可用于分类和回归分析。SVM（支持向量机，https://data-flair.training/blogs/svm-support-vector-machine-tutorial/）能够对任何新数据集进行分类。它的工作原理是：通过将训练数据集分成不同的类别，可以找到某个线性特征，由多个线性特征构建一些超平面。因此，SVM需要最大化各个类别之间的距离，即：最大化识别出的边，以增加看不见数据的概率。SVMs一般分为两类：LinearSVMs——通过一定的超平面将训练数据线性分门别类。非线性SVM-训练数据不能被超平面分开。4.PriorAlgorithm该算法是一种无监督机器学习算法。我们使用它从给定的数据集生成关联规则。这里的关联规则指的是一定的概率“如果A项发生，B项也会发生”，通常是IF_THEN的形式。例如：如果有人买了iPad，那么他也会买iPad保护套来保护它。所以该算法基本上是这样工作的：如果一个项目经常出现，那么该项目的所有子集也经常出现。相反，如果一个项目只是偶尔出现，那么它的所有超集也很少出现。5.线性回归算法该算法可以通过两个变量之间的关系，即它们之间的依赖关系，表明一个变量（自变量）如何影响另一个变量（因变量）。即使自变量不同，因变量通常具有相似的预测变量。6.决策树算法我们通常用图来表示决策树，即用分支的方法来说明一个决策的所有可能结果。在决策树中，每个分支节点代表一个属性的测试结果。同时，叶子节点代表一个特定类别的标签，即计算所有属性后做出的决定。此外，我们可以用从根节点到叶节点的路径来表示一个类别。7.随机森林算法这是一种首选的机器学习算法。我们使用装袋方法创建一组具有随机数据子集的决策树。我们需要利用随机森林算法，在某个模型数据集上对随机样本进行多次训练，综合所有决策树的输出结果，对每棵决策树的结果进行轮询，以取得较好的效果。最后的预测效果。8.逻辑回归算法这类算法属于广义线性回归的一种，将逻辑函数应用于某些特征的线性组合，通过各种预测变量来预测分类因变量的结果，同时也描述了加权自变量的概率。结论总之，我们讨论了机器学习算法，以及它们的不同分类，包括：回归算法、基于实例的算法、正则化算法、决策树算法、贝叶斯算法、聚类算法、关联规则学习算法、人工神经网络算法、深度学习算法学习算法、降维算法、模型融合算法、监督学习、无监督学习、半监督学习、朴素贝叶斯分类器算法、K均值聚类算法、支持向量机算法、先验算法、线性回归、逻辑回归。相信我们以上图文并茂的插画一定会让你有所收获。原标题：TopMachineLearningAlgorithmsYouShouldKnowToBecomeaDataScientist，作者：RinuGour

上一篇：深度学习碰壁？捅了马蜂窝的LeCun和Marcus

下一篇：微信离电视屏幕还很远

数据科学家须知的19个机器学习算法相关文章