2021来了,2020年已经熬过了磨难。希望在新的一年里,大家手中多了一把对抗未知的武器。刚哥为大家送上了Python的免费机器学习课程。线性回归最基本的机器学习算法必须是具有单个变量的线性回归算法。今天,有太多可用的高级机器学习算法、库和技术,线性回归似乎无关紧要。但是,学习基础知识总是一个好主意。这样,您将非常清楚地理解这些概念。在本文中,我将逐步解释线性回归算法。多元线性回归在回归分析中,如果有两个或两个以上的自变量,则称为多元回归。事实上,一种现象往往与多种因素相关,采用多个自变量的最优组合来预测或估计因变量比只用一个自变量来预测或估计更有效、更符合实际。因此多元线性回归比一元线性回归更实用。多项式回归在统计学中,多项式回归是回归分析的一种形式,其中自变量x和因变量y之间的关系被建模为关于x次多项式的n。多项式回归拟合x的值与y的相应条件均值之间的非线性关系,表示为E(y|x),并已被用于描述非线性现象,例如组织的生长速率[1]、湖泊分布碳同位素[2]以及沉积物和流行病的发展[3]。虽然多项式回归是拟合数据的非线性模型,但作为统计估计问题,它是线性的。从某种意义上说,回归函数E(y|x)在根据数据估计的未知参数中是线性的。因此,多项式回归被认为是多元线性回归的特例。LogisticRegression逻辑回归是上个世纪以来流行的方法。它建立了分类变量与一个或多个自变量之间的关系。在机器学习中使用这种关系来预测分类变量的结果。它被广泛应用于许多不同的领域,例如医疗领域、贸易和商业、技术等等。多类分类逻辑回归普通逻辑回归只能用于二分类问题。要实现多类别分类,必须改进逻辑回归以适应多分类问题。关于这种改进,有两种方法可以做到。第一种方式是直接根据每个类别构建一个二元分类器,将属于该类别的样本标记为1,将属于其他类别的样本标记为0。如果我们有k个类别,我们最终得到k个普通逻辑不同标签的二元分类器。第二种方式是修改逻辑回归的损失函数,使其适应多分类问题。这个损失函数不再笼统地只考虑不是1就是0的两个分类的损失,而是具体考虑每个样本标记的损失。这种方法称为softmax回归,逻辑回归的多类版本。神经网络算法神经网络已经被开发来模仿人脑。神经网络在机器学习中非常有效。它在80年代和90年代很流行。最近,它变得越来越流行。可能是因为计算机速度足够快,可以在合理的时间内运行大型神经网络。如何处理效果不佳的算法我们花费大量时间开发机器学习算法。但是在部署之后,如果算法表现不佳,那将是令人沮丧的。问题是如果算法没有按预期工作,下一步该怎么办。什么地方出了错?训练数据量够不够?我们是否使用了正确的功能?我们应该继续收集更多数据吗?我们可以,但那将非常耗时且昂贵。我们应该添加更多功能吗?那也可能很昂贵。往哪个方向走?如果您的机器学习算法不起作用,下一步是什么?有几种选择:获取更多训练数据非常耗时。甚至可能需要几个月的时间才能获得更多研究数据。获得更多训练功能。这也可能需要很多时间。但如果添加一些多项式特征可以工作,那就太酷了。选择一组较小的训练特征。增加正则化项,减少正则化项。那么,您接下来应该尝试哪一个?开始尝试任何事情都不是一个好主意。因为你最终可能会在无用的事情上花费太多时间。您需要先确定问题所在,然后采取相应措施。学习曲线有助于轻松发现问题,从而节省大量时间。学习曲线对于确定如何提高算法性能很有用。这对于确定算法是否存在偏差或欠拟合、方差或过拟合或两者均有帮助。Precision,Recall如何处理机器学习中的偏斜数据集使用偏斜数据集开发有效的机器学习算法可能很棘手。例如,数据集涉及银行欺诈活动或癌症检测。正在发生的事情是,您将在99%的时间内看到数据集中没有欺诈活动或癌症。您可以通过始终仅预测0(如果癌症为1,如果没有癌症则为0)轻松作弊并获得99%的准确率。如果我们这样做,我们将拥有99%准确的机器学习算法,但我们永远无法检测到癌症。如果某人患有癌症,他/她将永远得不到治疗。在银行中,没有采取任何措施来防止欺诈活动。因此,仅凭准确性无法确定一个偏斜的数据集,就像算法是否有效运行一样。有不同的评估矩阵可以帮助处理这些类型的数据集。这些评估指标称为精确召回评估指标。要了解准确率和召回率,您需要了解下表及其所有术语。考虑二元分类。它将返回0或1。对于给定的训练数据,如果实际类别为1且预测类别也为1,则称为真阳性。如果实际类别为0而预测类别为1,则为误报。如果实际类别为1,但预测类别为0,则称为漏报。如果实际类别和预测类别均为0,则为真阴性。使用所有这些,我们将计算精度和召回率。K-means聚类K-means聚类是最流行和广泛使用的无监督学习模型。它也被称为聚类,因为它通过聚类数据来工作。与监督学习模型不同,无监督模型不使用标记数据。该算法的目的不是预测任何标签。相反,更好地理解数据集并对其进行标记。在k-means聚类中,我们将数据集聚类到不同的组中。异常检测异常检测可以看作异常值分析的统计任务。但是如果我们开发一个机器学习模型,它可以自动化并且像往常一样节省很多时间。有许多异常检测用例。信用卡欺诈检测、故障机器检测或基于其异常功能的硬件系统检测、基于病历的疾病检测都是很好的例子。还有更多的用例。并且异常检测的使用只会增加。单变量和多元高斯分布高斯分布是统计学中最重要的概率分布,在机器学习中也很重要。因为许多自然现象,如人口身高、血压、鞋码、教育措施(如考试成绩)以及自然界的许多其他重要方面,都倾向于遵循高斯分布。我相信您已经听说过这个词并且在一定程度上了解它。如果没有,请不要担心。本文将解释清楚。我在AngkorLum教授在Coursera上的机器学习课程中发现了一些惊人的视觉效果。他知道如何将主题分解成小块,使其更容易并详细解释。他使用一些视觉效果来轻松理解高斯分布及其与相关参数(如均值、标准差和方差)的关系。在本文中,我从他的课程中截取了一些视觉效果,并在这里使用它来详细解释高斯分布。推荐系统现在我们到处都能看到推荐系统。当您在Amazon、eBay或其他任何地方的在线市场上购买东西时,他们会推荐类似的产品。在Netflix或youtube上,您会在主页上看到与之前的活动或搜索类似的建议。他们是如何做到的呢?他们都遵循这个想法。也就是说,他们从您之前的活动中获取数据并进行相似性分析。根据该分析,他们会推荐更多您喜欢的产品或视频或电影。希望这些课程能帮助您学习机器学习的基础知识,并在新的一年里解决更复杂的问题。
