一直以来的观点是,在测试集上表现更好的模型一定有更好的泛化能力,但事实真的如此吗?LeCun团队最近发表了一篇论文,通过实验证明,在高维空间中,测试集和训练集之间没有关系,模型一直只做外推,不做内插,也就是说性能训练集下的模型和测试集没关系!这样一来,刷榜岂不是没有意义了?插值和外推是机器学习和函数逼近中的两个重要概念。在机器学习中,当测试样本的输入在训练集的输入范围内时,模型预测过程称为“插值”,落在范围外时称为“外推”。深度学习研究依赖于两个概念:最先进的算法工作得很好,因为它们正确地插入了训练数据;并且在任务和数据集中只有插值,没有外推。但图形奖获得者YannLeCun团队在arxiv上发文公开质疑这两个概念是错误的!在他们的论文中,他们表示,从理论上和经验上看,无论是合成数据还是真实数据,几乎可以肯定的是,无论数据流形(datamanifold)的基本内在维度如何,插值都不会发生在高维上空格(>100)。内在维度是指在降维或者数据压缩的过程中,为了最大程度的保留你的数据特征,你至少需要保留哪些特征,它也告诉我们数据可以压缩到什么程度,所以你您需要了解哪些特征对您的数据集影响最大。鉴于当前计算能力可以承载的实际数据量,新观察到的样本极不可能位于该数据集的凸包中。因此,他们得出两个结论:目前使用和研究的模型基本上都是外推的;鉴于这些模型实现的超人性能,外推机制不一定要避免,但这不是一个通用的性能指标。本文第一阶段的研究主要包括理解环境维度(即数据所在空间的维度)的作用,也包括基本数据流形的内在维度(即是,数据的最小表示所需的变量数),以及所有数据流形的包含。的最小仿射子空间的维度。人们可能会认为像图像这样的数据可能位于低维流形上,因此凭直觉和经验认为插值的发生与周围的高维空间无关。但这种直觉可能会产生误导,事实上,即使在一维流形的极端情况下,底层流形维度也不会改变。在描述新样本位于插值区域的概率演变时,上图显示了在对数尺度上看到的不断增加的数据集大小,以及基于500,000次试验(d)的蒙特卡罗估计的各种环境空间维度,左边的图像是来自高斯密度N(0,Id)的采样数据,中间图像是来自固有维度为1的非线性连续流形的采样数据,右边的图像来自具有常数的高斯密度维度为4数据在仿射子空间中采样,同时环境的维度增加。从这些图中可以清楚地看出,为了保持插值区域的概率恒定,训练集的大小必须随d呈指数增长,其中d是包含整个数据流形的最低维仿射,与底层流形无关维度空间的维度。在所有情况下,数据集的特征维数均为1,并且流形是连续的、非线性的和分段平滑的,对应于单纯形的遍历。因此,可以得出结论,为了增加处于插值区域的概率,应该控制d而不是控制流形的基础维度和环境空间的维度。在研究像素空间中的测试集外推时,研究人员首先查看了MNIST、CIFAR和Imagenet序列集中处于插值状态的测试集所占的比例。为了掌握数据维数的影响,使用从两种策略获得的不同维数来计算该比率。第一种策略只保留距离图像中心的一定数量的维度,其优点是在仅考虑有限数量的维度的同时保留流形几何;第二种策略对图像进行平滑和子采样,其优点是能够在去除高频结构(图像细节)和压缩较少维信息的同时保留流形的整体几何形状。在这两种情况下都可以看出,尽管自然图像的数据流形几何形状,但很难在数据维度d的插值区域中找到样本。在研究降维空间中的测试集外推时,一组实验使用非线性或线性降维技术可视化高维数据集。为了明确了解所使用的降维技术是否保留了内插或外推信息,研究人员创建了一个由d=8,12的d维超立方体的2d个顶点组成的数据。这些数据集的特殊性在于任何样本都是相对于其他样本进行推断的。这些顶点使用8种不同的常见降维技术以2D形式表示。可以观察到,降维方法丢失了内插/外推信息,并导致明显偏向于内插的视觉误解。内插和外推为给定数据集提供了新样本位置的直观几何特征,这些术语通常用作几何代理来预测模型在未见样本上的性能。从以往的经验来看,似乎已经得出结论,模型的泛化性能取决于模型的插值方式。本文通过实验证明了这种误解。并且研究人员特别反对使用插值和外推作为泛化性能的指标,从现有的理论结果和充分的实验证明,为了保持新样本的插值,数据集大小应该相对于数据维度呈指数增长。简而言之,模型在训练集中的表现对该模型的泛化性能几乎没有影响,因为新样本几乎肯定位于该凸包之外。无论是否考虑原始数据空间或嵌入,该观察结果都成立。因此研究人员认为,这些观察结果为构建更合适的与泛化性能一致的插值和外推几何定义打开了大门,尤其是在高维数据的情况下
