当前位置: 首页 > 科技观察

7大分类,40多个关键概念,入门机器学习要掌握的概念都在这里了

时间:2023-03-12 16:36:02 科技观察

7大类,40多个关键概念,入门级机器学习要掌握的概念都在这里……似乎进入了一个死循环。明明都学会了,结果就是想不起来。有时候我想在脑子里植入一个记忆,把我想学的东西复制到脑子里。这会很棒。机器学习就是这样一个例子。很多时候,我们在学习过程中迷失了方向,从而失去了继续学习的动力。许多概念需要系统化。但是今天,我想向您介绍机器学习的所有概念,以帮助您更快地了解该领域。这篇文章将适合那些刚刚起步和已经开始在实践中使用机器学习的人。概述:动机分类问题类型类性能分析算法调试废话不多说,直入正题!机器学习概念这些概念中的每一个都会导致其他更小的衍生概念。在这里,我将对每个术语给出最短和最简单的定义:1.动机动机对机器学习很重要,因为它形成了模型与数据进行比较的过程。机器学习的动机有两种:预测。非线性模型认为海带的预测变量可以作为判别结果的输入,但并不是每一个输入都会影响预测。例如,面向预测的观点最适合回答这个问题:我的车是被高估了还是被低估了?如果对此进行推理,模型的可解释性将大大降低。推断。区分每个输入如何影响预测的线性模型。例如,它会给你一个准确的答案:如果我的车可以在没有车顶的情况下行驶,它要花多少钱?通过比较模型的预测,推理比非线性预测更容易理解。2.分类与其他方法一样,训练机器学习算法有不同的方法,各有优缺点:监督学习。一种任务驱动的方法,其中计算机由“教师”提供示例输入及其预期输出,目的是学习将输入映射到输出的一般规则。无监督学习。一种数据驱动的方法,其目标是通过对数据中的底层结构或分布进行建模来了解有关数据的更多信息。它可以有两种类型:发现数据中隐藏的模式,或到达那里的方法(特征学习)。强化学习。此类别基于从错误中学习,使用奖励和惩罚系统训练算法。3.问题类型如果要深入研究机器学习类别,还有五种其他类型的问题:回归。我们需要预测连续响应值的监督问题。回归拟合数据并给出地图所有特征点的答案,如果预测值趋于连续值则下降。例如:给定地区名称、土地面积等作为特征,预测土地的预期成本。分类。监督问题,主要目的是分离数据。如果预测值倾向于是/否、正/负等类别,那么就属于机器学习中的分类问题。例如,给定一个句子来预测它是消极的还是积极的。簇。无监督问题,我们将相似的事物分组到给定数量的集群中。对于这些分数,我们不给出答案。示例:给定3、4、8、9,并且簇数为2,则机器学习系统可以将给定的集合划分为簇1–3,4和簇2–8,9。密度估计。它是基于观测数据对不可观测的潜在概率密度函数的估计。查找输入在某个空间中的分布。降维。通过将输入映射到低维空间来简化输入。4.类机器学习算法可分为参数化或非参数化:参数化-具有固定数量的参数,分两步完成:第1步:假设函数(f)的函数形式或形状,即:f是线性的,因此我们将选择线性模型。第2步:选择一个程序来拟合或训练我们的模型。这意味着估计线性函数中的beta参数。一种常见的方法是(普通)最小二乘法。非参数-使用灵活数量的参数,参数数量通常随着从更多数据中学习而增加。由于这些方法不能将f的估计问题简化为少量参数,需要大量的观测数据才能得到f的准确估计。例如薄板样条模型。5.性能分析算法的性能分析是计算算法所需空间和时间的过程。算法的性能分析采用以下措施:混淆矩阵-通常用于描述分类模型(或“分类器”)在真实值已知的一组测试数据上的性能的表格。准确性。正确预测的分数,当数据集不平衡时不可靠(即不同类别的样本数量差异很大)f1分数-测试准确性的另一种衡量标准,其计算基于:1)精度-在分类器标记的所有正面的例子,哪个分数是正确的?2)召回。在所有正例中,分类器提取的分数是多少?ROC曲线-接受者操作特征。真阳性率(召回率/灵敏度)与假阳性率(1-特异性)偏差方差权衡-一组预测模型的属性,其中参数估计偏差较低的模型在跨样本的参数估计中具有较高方差,反之亦然同样的道理。均方误差(MSE)-测量误差或偏差的平方的平均值-估计值与估计值之间的差值。错误率。在分类上下文中,应用程序将模型的错误率估计为训练观察的函数。6.算法机器学习真正有趣的部分来了!以下内容可以帮助您如何将机器学习付诸实践:决策树学习-由一种算法构建,该算法可以根据不同条件识别数据集的拆分方法。关联规则学习——一种基于规则的机器学习和数据挖掘技术,可以发现数据集中变量或特征之间的重要关系。人工神经网络-一种信息处理模型,其灵感来自生物神经系统(例如大脑)处理信息的方式。深度学习——网络在没有监督的情况下从非结构化或未标记数据中学习的能力。它教会计算机通过层过滤输入,学习如何预测和分类信息。归纳逻辑编程——使用逻辑编程作为背景知识和假设等的统一表示。支持向量机-分析数据以进行分类和回归分析。聚类-对一组对象进行分组的任务,使得同一组(称为集群)中的对象(在某种意义上)比其他组(集群)中的对象彼此更相似。贝叶斯网络-一种概率图形模型,用于通过有向无环图表示一组变量及其条件依赖性。强化学习-通过与环境互动来学习。特征学习——允许从原始数据中发现特征检测或分类所需的表示。相似性和度量学习-学习衡量两个对象相似性的函数。稀疏字典学习——旨在寻找输入数据稀疏表示的基本元素的线性组合。遗传算法-一种受自然选择过程启发的元启发式算法。基于规则的机器学习-一种数据驱动的方法,使用标记文本的语料库及其情绪进行预测。学习分类器系统-结合了发现和学习组件。7.调试调试是为学习算法选择最佳超参数集的问题。以下是它的组成部分:交叉验证——一种用于评估统计分析结果推广到独立数据集的效果的技术。一轮交叉验证涉及将数据样本划分为互补子集,对一个子集(称为训练集)进行分析,并对另一个子集(称为验证或测试集)进行分析验证。方法:Leave-p-out交叉验证、Leave-one-out交叉验证、k-fold交叉验证、Holdout方法和重复随机抽样验证。超参数-其值用于控制学习过程的参数。相反,其他参数(通常是节点权重)的值是通过训练得出的。可以使用以下方法对其进行优化:1)网格搜索。传统方法只是简单地穷举搜索学习算法的超参数空间的手动指定子集。2)随机搜索。它只是简单地对参数设置进行采样,发现在高维空间中,固定次数比穷举搜索更有效。3)基于梯度的优化。对于特定的学习算法,可以根据超参数计算梯度,然后使用梯度下降优化超参数。正则化(早期停止)——早期停止规则指导学习者在开始过度拟合和停止算法之前可以运行多少次迭代。过度拟合。当模型学习训练数据中的细节和噪声时会发生这种情况,在一定程度上影响模型在新数据上的性能。欠拟合。模型从训练数据中“学习不足”的情况,导致泛化能力差和预测不可靠。指导。它是任何使用有放回随机抽样的测试或指标,属于更广泛的重抽样方法。Bootstrapping将准确性度量(偏差、方差、置信区间、预测误差等)分配给样本估计。套袋。它是一种集成机器学习算法,结合了许多决策树的预测。综上所述,以上内容基本囊括了机器学习的所有知识点。如果你不回顾你学到的东西,你可能有一天会完全忘记它。希望以上内容可以帮到你~