当前位置: 首页 > 科技观察

机器学习的工作原理

时间:2023-03-16 20:18:00 科技观察

机器学习是一种数据分析技术,它在数据集上建立预测模型以提供可用于做出重要决策的有用答案。它利用统计概念和数学方法,通过python和R等编码语言处理大数据。机器学习技术有多种多样。但是,本文将涵盖回归和分类。回归回归用于预测连续的数值数据。它是一个广泛使用的统计概念,可以手动应用于具有两个变量和少量元素的小型数据集。当处理具有多个变量和元素负载的大型数据集时,回归是通过将包含数据集的文件上传到编码平台并运行一堆代码来完成的。有不同的回归技术,例如线性回归、多项式回归、多元线性回归和多元多项式回归。它们的应用根据用于预测因变量的自变量的数量而有所不同。以下是一些与回归相关的有用术语:回归方程回归方程是使用自变量对因变量进行预测的方程。可以表示为y=mx+b,y=ax^n+bx^n-1+...+c,y=ax+bx2+...+cory=ax^n+bx^n-1+...+c分别表示线性回归、多项式回归、多元线性回归和多元多项式回归。回归系数回归系数是应用于线性回归或多元线性回归的常数值。它可能对因变量产生增加或减少的影响。让我们举一个例子,其中使用年龄和身高(cm)等变量来确定体重(lbs)。对于线性回归,这可以表示为体重=5*年龄+30。这个等式表明,年龄每增加1岁,体重就会增加5磅。对于多元线性回归,可以表示为体重=4年龄+2.5身高+30。这个方程的意思是,假设年龄为零,体重每增加一厘米,体重就会增加2.5度。身高零,体重4磅,一岁。Y截距如果回归系数或x设置为零,则这可以描述为因变量的值。可以表示为y=c。这也是回归线与y轴相交的点。训练模型和测试模型数据集分为两组:训练数据集和测试数据集。将数据集拆分成组后,使用训练数据集生成回归方程。开发完成后,将回归方程应用于测试数据集以创建预测。可以将预测值与实际值进行比较以测试准确性。用于评估预测的指标如下:确定系数r平方是一种有用的机制,用于解释回归方程对进行预测的准确性。它通过将预测值与实际值进行比较来做到这一点。它提供了一个值,表示因变量被自变量解释的比例。为了提高r平方分数,可以从一种回归风格切换到另一种。相关系数这是另一个非常有用的值,它描述了实际结果与预测结果中的值之间的关系。范围是-1到1。如果相关系数为负,则预测结果随着实际结果的减少而增加,反之亦然。如果为正,则预测结果会随着实际结果的增加而增加。值越接近|1|,关系越完美。均方根误差均方误差是每个数据点的预测值和实际值的总平方差的平均值。该值衡量数据集与回归线均值的接近程度。该值的平方根称为均方根误差。目标是使均方根误差接近0以获得最佳拟合。分类分类是另一种出色的机器学习算法,可用于对分类数据集进行预测。自变量可以是连续的或分类的,而因变量是分类的。分类可用于构建提供是(1)或否(0)答案的模型,或者可用于构建多个类别(0,1,2...),具体取决于用户的议程。与回归一样,它利用训练和测试数据集。使用我之前预测贷款申请状态的项目的结果,K-最近邻和决策树分类器等分类方法及其指标解释如下:K-最近邻这是一种使用数据点的分类方法预测数据点应该属于的类别。它通过评估每个数据点的自变量和因变量并将它们与k个最接近的变量进行比较,使用训练数据集创建预测模型。该模型用于预测测试数据集中每个数据点的类别,并测量其准确性。通过将k设置为1进行多次迭代,测量精度并增加k的值,直到达到峰值精度。通过将预测模型拟合到训练模型并使用预测模型对测试数据集中的数据点进行分类,可以使用该k-max值预测模型进一步分析数据集。决策树分类器决策树分类器使用与K最近邻不同的方法。首先查看训练模型中的所有数据点并评估自变量,然后根据变量的值为其分配是(1)或否(0)标签。然后它根据一个或多个先前自变量的输出与其他自变量进行处理,以得出最终标签Y或N作为预测结果。从决策树分类器训练数据集生成的预测模型可用于预测测试数据集中数据点的类别。混淆矩阵混淆矩阵是在分类中使用的表格,用于显示有多少值被正确预测,有多少被错误预测。有两种类型的错误:I类错误和II类错误。I类错误被认为是误报,即负值被归类为正值。II类错误是漏报,正值被归类为负值。分类性能可以使用使用精度、召回率和准确性等指标的混淆矩阵来计算。exactprecision是看实际记录的正值有多少是正的。它的公式是TP/(TP+FP)。对于上面的混淆矩阵,精度为:119/(119+54)=0.69recall召回率也称为真阳性率。它计算真实阳性在真实阳性中的比例。它的公式是TP/(TP+FN)。回想一下上面的混淆矩阵是119/(119+10)=0.92真实负率真实负率衡量真实负数占真实负数的比例。其公式为TN/(TN+FP)。对于上面的混淆矩阵,它是9/(9+54)=0.15。准确度准确度就是所有准确记录值的总和除以所有记录值的总和。它的公式是(TP+TN)/(TP+TN+FP+FN)。上面的混淆矩阵的准确度是(119+9)/(119+9+54+10)=0.67。F-1分数F-1分数类似于r平方分数。它衡量自变量解释自变量的程度。它通过将预测值与实际值进行比较来做到这一点。它越接近1,预测模型越强。F-1分数可以针对不同分类方法的预测模型进行测量,以决定使用哪种分类方法。结论机器学习是一个可以指导我们在日常活动中做出有效决策的领域。这将非常有助于帮助人类和公司在未来做出明智的决定。例如,分类可以告诉我们是否投资某项业务,而回归可以告诉我们如果投资该业务可能赚多少钱。