当前位置: 首页 > 科技观察

用十张图解释机器学习的基本概念

时间:2023-03-20 17:27:43 科技观察

在解释机器学习的基本概念时,我发现自己总是回到有限数量的图片上。以下是我认为最有启发性的条目列表。测试和训练误差为什么低训练误差并不总是一件好事:上图中以模型复杂度为变量的测试和训练误差函数。欠拟合和过拟合欠拟合或过拟合的示例。上图中的多项式曲线有各种命令M,用红色曲线表示,是通过绿色曲线适配数据集生成的。奥卡姆剃刀上图说明了为什么贝叶斯推理可以体现奥卡姆剃刀原理。这张图给出了为什么复杂模型最终变成小概率事件的基本直观解释。横轴表示可能的数据集D空间。贝叶斯定理根据模型预测数据发生的程度按比例反馈模型。这些预测通过数据D上的归一化概率分布进行量化。给定模型Hi的数据概率P(D|Hi)据说支持Hi模型的证据。一个简单的模型H1只能做有限的预测,如P(D|H1)所示;例如,更强大的模型H2可以比模型H1拥有更多的自由参数,并且可以预测更多种类的数据集。这也表明,无论如何,H2在预测C1域中的数据集方面不如H1强大。假设为两个模型分配了相等的先验概率,则数据集落在C1区域,而功能较弱的模型H1将是更合适的模型。特征组合(1)为什么集体相关的特征单独无关紧要,这就是(2)线性方法可能失败的原因。来自IsabelleGuyon关于特征提取的幻灯片。不相关的特征为什么不相关的特征会损害KNN、聚类和其他聚合相似点的方法。左图和右图显示两种类型的数据在垂直轴上很好地分开。右边的图添加了一个不相关的水平轴,它打破了分组并使许多点成为相反类别的邻居。基函数非线性基函数是如何将一个低维的非线性边界分类问题转化为一个高维的线性边界问题。AndrewMoore的支持向量机SVM(SupportVectorMachine)教程幻灯片包括:一个输入为x的一维非线性分类问题被转化为一个二维线性可分的z=(x,x^2)问题。Discriminativevs.Generative为什么discriminativelearning比production简单:上图中两类方法的分类条件的密度为例,有一个单一的输入变量x(左图),连同对应的后验概率(右图)。请注意,左侧分类条件密度p(x|C1)的模式(由左图中的蓝线表示)对后验概率没有影响。右图中的垂直绿线显示了x中的决策边界,它给出了最小的误报率。Lossfunctionslearningalgorithm可以看作是优化不同的损失函数:上图应用于支持向量机中的“铰链”误差函数图,用蓝线表示,用于逻辑回归,误差函数由1/ln(2)Rescale,经过点(0,1),用红线表示。黑线表示错误分类,均方误差由绿线表示。最小二乘几何最小二乘回归的N维几何,上面有两个预测。生成的向量y正交投影到由输入向量x1和x2跨越的超平面上。投影y^表示最小二乘预测的向量。稀疏性为什么Lasso算法(L1正则化或拉普拉斯先验)给出稀疏解(例如:0较多的加权向量):上图中lasso算法的估计图像(左)和岭回归算法的估计图像(右)).显示不正确的轮廓和约束函数。分别当红色椭圆为最小二乘误差函数等高线时,蓝色实心区域为约束区域|β1|+|β2|≤t且β12+β22≤t2。