当前位置: 首页 > 科技观察

从原理到应用:Logistic回归算法简介_0

时间:2023-03-16 10:08:09 科技观察

Logistic回归是二元分类任务中最常用的机器学习算法之一。它的设计思路简单,易于实现,可以作为性能基准,在很多任务上都有很好的表现。因此,每个接触机器学习的人都应该熟悉它的原理。逻辑回归的基本原理也可以用于神经网络。在本文中,您将了解逻辑回归是什么、它是如何工作的、它的优缺点等等。什么是逻辑回归?与许多其他机器学习算法一样,逻辑回归借鉴了统计学,尽管它的名字叫它,但它并不是一种需要预测连续结果的回归算法。相反,逻辑回归是二元分类任务的首选方法。它输出一个介于0和1之间的离散二进制结果。简单来说,它的结果要么是1,要么是0。癌症检测算法可以看作是逻辑回归问题的一个简单示例,它输入病理图片,应该识别是否患者患有癌症(1)或未患癌症(0)。它是如何工作的?逻辑回归通过使用其固有的逻辑函数估计概率来衡量因变量(我们要预测的标签)与一个或多个自变量(特征)之间的关系。然后必须将这些概率二值化以实际进行预测。这是logistic函数(也称为sigmoid函数)的任务。sigmoid函数是一条S形曲线,它将任何实数值映射到0到1之间的值,但不取0/1。然后使用阈值分类器将0和1之间的值转换为0或1。下图说明了逻辑回归进行预测所需的所有步骤。这是逻辑函数(sigmoid函数)的图形表示:我们想要最大化随机数据点被正确分类的概率,这就是最大似然估计。最大似然估计是统计模型中估计参数的通用方法。您可以使用不同的方法(例如优化算法)来最大化概率。牛顿法也是其中之一,可用于寻找许多不同函数(包括似然函数)的最大值(或最小值)。也可以使用梯度下降代替牛顿法。逻辑回归与线性回归您可能想知道:逻辑回归和线性回归之间有什么区别。逻辑回归得到离散结果,而线性回归得到连续结果。预测房价的模型是返回连续结果的一个很好的例子。该值根据房屋大小或位置等参数的变化而变化。离散结果总是一回事(你得了癌症)或另一回事(你没有癌症)。优点和缺点逻辑回归是一种广泛使用的算法,因为它非常高效,不需要太多计算,易于理解,不需要缩放输入特征,不需要任何调整,并且易于调整,并且输出校准预测概率。与线性回归一样,当您删除与输出变量无关的属性和高度相似的属性时,逻辑回归确实表现更好。因此,特征处理在逻辑回归和线性回归的性能中起着重要作用。逻辑回归的另一个优点是它非常容易实施且训练高效。在我的研究中,在尝试更复杂的算法之前,我通常使用逻辑回归模型作为基线。由于其简单性和快速实施,逻辑回归也是一个很好的基准,您可以使用它来衡量其他更复杂算法的性能。它的缺点之一是我们不能使用逻辑回归来解决非线性问题,因为它的决策面是线性的。让我们看一下下面的例子,两个类各有两个实例。显然,我们不能在不犯错误的情况下画一条直线来区分这两个类。使用简单的决策树是更好的选择。逻辑回归不是最强大的算法之一,它很容易被更复杂的算法超越。另一个缺点是它高度依赖于正确的数据表示。这意味着在您确定所有重要的自变量之前,逻辑回归不会成为有用的工具。由于其结果是离散的,逻辑回归只能预测分类结果。它也因容易过度拟合而闻名。适用时正如我已经提到的,逻辑回归通过线性边界将您的输入分为两个“区域”,每个区域一个。因此,你的数据应该是线性可分的,就像下图所示的数据点:换句话说:当Y变量只有两个值时(比如你面临分类问题时),你应该考虑使用逻辑回归。请注意,您还可以使用逻辑回归进行多类分类,如下一节所述。多分类任务现在有很多多分类算法,例如随机森林分类器或朴素贝叶斯分类器。虽然有些算法貌似不能用于多分类,比如Logistic回归,但是通过一些trick也可以用于多分类任务。我们从MNIST数据集开始讨论这些最常见的“技巧”,该数据集包含手写数字0到9的图像。这是一个多分类任务,我们的算法应该告诉我们图像对应的是哪个数字。1.一对多(OVA)按照这一策略,您训练10个二元分类器,每个数字一个。这意味着训练一个分类器检测0,一个检测1,一个检测2,等等。当你想对图像进行分类时,只需查看哪个分类器的预测得分最高为2。一对一(OVO)按照这种策略,为每对数字训练一个二元分类器。这意味着训练一个可以区分0和1的分类器,一个可以区分0和2的分类器,一个可以区分1和2的分类器,等等。如果有N个类,则需要训练N×N(N-1)/2个分类器,对于MNIST数据集,需要45个分类器。当您想要对图像进行分类时,您可以单独运行45个分类器中的每一个,然后选择性能最好的一个。这种策略比其他策略有很大的优势,因为你只需要在它试图分类的两个类的训练集上进行训练。像SVM分类器这样的算法在大型数据集上不能很好地扩展,因此在这种情况下使用逻辑回归等二元分类算法的OvO策略会更好,因为在小数据集上训练大量分类器比在大型数据集上训练分类器更快。在大多数算法中,sklearn可以识别何时使用二元分类器进行多分类任务,并自动使用OvA策略。特殊情况:当您尝试使用SVM分类器时,它会自动运行OvO策略。其他分类算法其他常见的分类算法包括朴素贝叶斯、决策树、随机森林、支持向量机、k-最近邻等。我们将在其他文章中讨论它们,但不要被这些机器学习算法的数量吓倒.注意,最好真正了解4、5个算法,专注于特征处理,这也是以后工作的主题。总结在本文中,您了解了什么是逻辑回归及其工作原理。您现在也对它的优点和缺点有了深入的了解,并且知道何时使用它。此外,您还探索了使用逻辑回归和sklearn进行多类分类,以及为什么前者是比其他机器学习算法更好的基准。原文链接:https://towardsdatascience.com/the-logistic-regression-algorithm-75fe48e21cfa【本文为《机器之心》专栏原文翻译,微信公众号《机器之心》(id:almosthuman2014)"]戳这里,阅读更多本作者的好文