当前位置: 首页 > 科技观察

有人号称已经“解决”了MNIST和CIFAR10,达到了100%准确度

时间:2023-03-21 10:44:14 科技观察

MNIST识别准确率已经滚到100%了?近日,预印本平台arXiv中的一篇论文《Learning with Signatures》引起了人们的关注。在这项工作中,作者调查了签名转换在学习环境中的使用。该论文提出了一个监督框架,该框架使用很少的标签提供最先进的分类准确性,不需要信用分配,并且几乎没有过度拟合。作者通过使用Signature和LogSignature来利用谐波分析工具,并将其用作评分函数RMSE和MAESignature和LogSignature。研究人员使用一个封闭式方程来计算最佳可能的比例因子。生成的分类结果在CPU上的执行速度比其他方法快几个数量级。作者报告了AFHQ数据集、FourShapes、MNIST和CIFAR10的结果,在所有任务上实现了100%的准确率。MNIST被认为是机器学习的HelloWorld。是大家入门时都会用到的数据集。它包含70,000张手写数字图像,其中60,000张用于训练,10,000张用于测试。MNIST中的图像是灰度图像,分辨率仅为28×28像素。问题虽然“简单”,但是达到100%识别准确率的算法总感觉不靠谱,看看论文是怎么说的。论文链接:https://arxiv.org/abs/2204.07953v1代码:https://github.com/decurtoydiaz/learning_with_signatures有了Signature,少量标注样本的好处堪比深度学习最后世纪以来,赋予计算机学习能力一直是重要的研究方向。近年来,在深度学习中使用有监督和无监督学习已成为SOTA解决方案的代表。一个由基于模型的解决方案主导的领域已经迅速转向数据驱动的框架,并取得了前所未有的成功。然而,由于此类模型的大量超参数难以解释,并且其鲁棒性缺乏收敛性的理论保证,因此在某些领域进展停滞。近年来,在将签名转换集成到学习框架方面取得了良好进展,主要作为ML范例中的特征提取器或深度网络中的池化层。由于签名的良好理论特性,许多研究人员将其用作构建学习问题的方法。然而,签名的通用框架尚未建立,主要是因为没有正确定义的评分函数来指导学习机制。在这里,我们建议通过使用SignatureTransform来研究一种新的学习机制,SignatureTransform是一种最近开发的谐波分析工具,可以提供对不规则采样数据流的紧凑而丰富的描述。我们探讨了这样一种想法,即通过将数据转换为紧凑且完整的域,这项研究可以通过使用更少的标记样本来实现与深度学习相同的经验收益。此外,签名的一般非线性特性不受时间重新参数化的影响,使其成为更适合计算机推理的知识替代表示的理想候选者。毕竟,人类不需要成千上万的例子来学习简单的概念,只需要少数精心挑选的例子就能快速猜对。Signatures的出现实现了这一目标,计算机可以快速推断信息,因为它的表示易于理解、丰富和完整。这也需要一个评分函数,就像传统学习框架的损失和信用分配提供了将优化导向潜在好的解决方案的能力一样。该研究使用RMSE、MAESignature和log-signature来评估图像分布之间的视觉相似性,以确定GAN收敛性。从另一个角度来看,RMSE、MAESignature和logsignature确实是正确定义的评分函数,可用于分类、聚类等任务。在此假设下,本研究旨在进一步研究行为、属性和泛化这个学习框架在几个任务上的能力。对于Signature,该研究建议使用基于SignatureTransform的相似性度量。该框架在CPU上的工作速度比深度学习方法快几个数量级,并且避免了在GPU上以高计算和环境成本对数百万个超参数进行繁琐的信用分配。这些指标可以捕获详细的视觉线索,并且可以用于内存占用非常小、执行速度快、准确率高的分类任务。关于信用分配,例如反向传播,已经成为现代自动学习技术的基础;仅通过一次(即使用一个时期)从数据中提取所有后续信息在理论上是可行的。但实际上,由于学习机制的限制,许多方法使用不止一次的训练数据,这些特性不能归因于它们的优势。给定一个适当的评分函数,签名提供了一种紧凑的表示形式,计算机可以使用它来推断细粒度的信息,而无需使用反向传播,从而避免优化数百万个超参数。与其他训练机制相比,使用带有签名的学习具有计算优势,因为标记示例的数量可以大大减少,并且训练被逐元素方式取代,这赋予了良好泛化所需的统计稳健性。给定一组签名顺序定义为元素的均值:那么RMSE和MAE签名可以定义为:Few-shotclassificationusingSignature作者认为可以使用签名和定义的得分函数(在可选增强和计算元素平均值之后),实现Few-shot样本分类。实现非常高的分类精度所需的签名数量可能取决于任务的复杂性,一些类可能只需要一个,而具有更多可变性的类可能需要数万到数千个训练样本。为了进一步研究通过平均同一测试实例的多个转换版本引入的多重性的影响,作者使用特定的增强技术(例如随机比较)呈现可视化结果。)图1:PCA自适应t-SNE,带有来自AFHQ的300张图像的签名,类别:猫(红色)、狗(绿色)和野生(蓝色)。图2:给定AFQH样本的特征变换光谱及其与随机对比(a)-(d)相比的相应变换。通常,人们会认为在训练集上达到100%的准确率一定是数据泄漏。对于这项研究,社交网络上有很多质疑的声音。在reddit上,有网友表示:“MNIST数据集中有几张图的分类与标签不同。100%的测试集准确率表明网络实际上比那些99.7%的错误率还差。所以正如其他人所说的100%准确率数字非常可疑。”