目录正则化算法集成算法决策树算法回归人工神经网络深度学习支持向量机(SupportVectorMachine)降维算法(聚类算法)基于实例的算法(贝叶斯算法)关联规则学习算法(AssociationRuleLearningAlgorithms)图模型(GraphicalModels)正则化算法(RegularizationAlgorithms)它是另一种方法(通常是回归方法)的扩展,这种方法会根据模型的复杂程度对其进行惩罚,它比较喜欢简单且更好的泛化建模。例子:RidgeRegressionLeastAbsoluteShrinkageandSelectionOperator(LASSO)GLASSOElasticNet(ElasticNet)Least-AngleRegression优点:它的惩罚会减少过拟合总会有解决办法缺点:惩罚导致欠拟合难以校准Ensemble算法Ensemble方法是多个较弱模型的集合,其中可以单独训练模型并将它们的预测以某种方式组合起来进行整体预测。该算法的主要问题是找出可以组合哪些较弱的模型以及如何组合。这是一套非常强大的技术,因此非常受欢迎。BoostingBootstrappedAggregation(Bagging)AdaBoostStackedGeneralization(blending)GradientBoostingMachines(GBM)GradientBoostedRegressionTrees(GBRT)RandomForest优势:最先进的几乎所有的预测都使用算法集成。它比使用单一模型预测结果更准确。缺点:需要大量的维护工作。决策树算法(DecisionTreeAlgorithm)决策树学习使用决策树作为预测模型,它会将一个项目(表征在分支上)的观察结果映射成关于项目目标值的结论(用叶子表示)。树模型中的对象是可变的,可以采用一组有限的值,称为分类树;在这些树结构中,叶子代表类别标签,分支代表表征这些类别标签的连接的特征。示例:分类和回归树(CART)IterativeDichotomiser3(ID3)C4.5和C5.0(一种强大方法的两个不同版本)在线学习回归算法回归是一种统计过程,用于估计两个变量之间的关系。当用于分析因变量与一个或多个自变量之间的关系时,该算法提供了许多用于建模和分析多个变量的技术。具体来说,回归分析可以帮助我们理解当自变量中的任何一个发生变化而另一个自变量保持不变时,因变量变化的典型值。最常见的是,回归分析在给定自变量的情况下估计因变量的条件期望。回归算法是统计学中的主要算法,已被纳入统计机器学习中。例子:普通最小二乘回归(OLSR)线性回归逻辑回归逐步回归多元自适应回归样条曲线(MARS)LocalScatterLocallyEstimatedScatterplotSmoothing(LOESS)优点:直接、快速、普及度高缺点:需要严格假设需要处理异常值人工神经网络人工神经网络是一种受生物神经网络启发的算法模型。它是一种常用于回归和分类问题的模式匹配,但它有一个庞大的子领域,由数百种算法和各种问题的变体组成。例子:PerceptronBackpropagationHopfieldNetworkRadialBasisFunctionNetwork(RBFN)优点:在语音、语义、视觉、各种游戏(如围棋)方面表现出色。算法可以快速调整以适应新问题。缺点:训练需要大量数据。训练对硬件配置要求高。模型处于黑盒状态,内部机制难以理解。很难选择元参数和网络拓扑。深度学习深度学习是人工神经网络的最新分支,受益于当代硬件的快速发展。许多研究人员目前的方向主要集中在构建更大、更复杂的神经网络,而目前许多方法都集中在半监督学习问题上,其中用于训练的大数据集只包含几个标签。示例:深度玻尔兹曼机(DBM)深度信念网络(DBN)卷积神经网络(CNN)堆叠式自动编码器优点/缺点:请参阅神经网络支持向量机(支持向量机)给定一组训练示例,每个案例所属的位置对于两个类别之一,支持向量机(SVM)训练算法可以输入一个新案例并将其分类为两个类别之一,使其成为非概率二元线性分类器。SVM模型将训练实例表示为空间中的点,这些点被映射到由清晰、尽可能宽的间隔分隔的图形中,以区分两个类。然后将新示例映射到同一空间,并根据它们落在区间的哪一侧来预测它所属的类。优点:在非线性可分离问题上表现出色缺点:非常难以训练和难以解释降维算法(DimensionalityReductionAlgorithms)类似于聚类方法。降维追求和利用数据的固有结构,旨在用较少的信息概括或描述数据。该算法可用于可视化高维数据或简化可用于监督学习的数据。许多此类方法经过调整以用于分类和回归。示例:主成分分析(PCA)主成分回归(PCR)偏最小二乘回归(PLSR)Sammon映射多维尺度(MDS)投影寻踪线性判别分析(LDA)混合判别分析(MDA)二次判别分析(QDA)灵活判别AnalysisDiscriminantAnalysis(FDA))优点:可以处理大规模数据集无需对数据做假设缺点:难以处理非线性数据难以理解结果的含义聚类算法,对象属于同一类组(即类、簇)被分在一个组中,这些组彼此之间(在某种意义上)比其他组中的对象更相似。例子:K-Means(k-Means)k-Medians算法ExpectationMaximiSealing(EM)MaximumExpectationAlgorithm(EM)HierarchicalClustering(HierarchicalClstering)优点:使数据有意义缺点:结果难以解释,对于异常数据设置,结果可能没有用。基于实例的算法(有时称为基于记忆的学习)是一种学习算法,它不是明确地概括,而是将问题的新示例与训练期间看到的示例进行比较,这些看到的示例在内存中。之所以称为基于实例的算法,是因为它直接从训练示例中构造假设。这意味着假设的复杂性会随着数据的增长而变化:在最坏的情况下,假设有一个训练项目列表,对单个新实例进行分类在计算上是O(n)示例:K最近邻(k-NearestNeighbor(kNN))LearningVectorQuantization(LVQ)Self-OrganizingMap(SOM)LocallyWeightedLearning(LWL)优点:算法简单,结果易于解释缺点:内存占用非常高计算成本高无法在高维特征空间中使用示例:朴素贝叶斯高斯朴素贝叶斯多项朴素贝叶斯平均单相关估计器(AODE)贝叶斯信念网络(BayesianBeliefNetwork(BBN))贝叶斯网络(BN)缺点:如果输入变量相关,则会出现问题。关联规则学习算法(AssociationRuleLearningAlgorithms)关联规则学习方法可以提取数据中变量之间关系的最佳解释。例如,某超市的销售数据中有一条规则{onion,potato}=>{burger},这意味着当顾客同时购买洋葱和土豆时,他很可能会购买汉堡肉。例子:先验算法(Apriorialgorithm)Eclat算法(Eclatalgorithm)FP-growth图模型(GraphicalModels)图形模型或概率图模型(PGM/probabilisticgraphicalmodel)是一种概率模型,通过它一个图可以表示条件依赖结构随机变量之间。示例:贝叶斯网络马尔可夫随机场链图祖先图优点:模型清晰,可以直观理解缺点:很难确定它所依赖的拓扑困难,有时甚至模糊
