当前位置: 首页 > 科技观察

机器学习的七大罪过:影响可信度的七个常见错误

时间:2023-03-17 18:35:22 科技观察

机器学习是改变我们世界的伟大工具。在很多优秀的应用中,机器学习(尤其是深度学习)的性能远远优于传统方法。从用于图像分类的Alex-Net到用于图像分割的U-Net,人们看到了计算机视觉和医学图像处理领域的巨大成功。最近,机器学习专家AndreasMaier在一篇文章中列出了人们在机器学习方面常犯的七个错误。这些问题很严重,会导致错误的结论,甚至机器学习专家在工作时也会犯这样的错误。其中许多错误很难发现,即使对于专家来说也是如此,因为需要详细查看代码和实验设置才能弄清楚。只有当您完全确定自己不会陷入这些谬误中的任何一个时,您才应该继续前进或公开您的工作。错误1:滥用数据和模型滥用数据和模型是初学者常犯的错误。在常见情况下,实验设计存在缺陷,例如将训练数据用作测试数据时。使用简单的分类器,这会导致对大多数问题的100%识别。在更复杂、更深入的模型中,准确率可能不是100%,而是98-99%。因此,如果在第一张照片中获得如此高的识别率,则应仔细检查实验设置。但是,如果使用新数据,模型将完全崩溃,甚至可能产生比随机猜测更糟糕的结果,即精度低于1/K,其中K是类数,例如不到50%的问题是两类。同理,也可以通过增加参数的数量,使训练数据集被充分记忆,从而很容易使模型过拟合。另一种变体是使用太小的训练集,这不能代表您的应用程序。所有这些模型都可能破坏新数据,即在实际应用场景中使用时。错误2:不公平比较即使是机器学习专家也会犯这个错误。如果你想证明你的新方法比state-of-the-art更好,通常会提交。为了让审稿人相信他们的方法的优越性,研究论文尤其倾向于屈服于此。在最简单的情况下,从某个公共存储库下载模型并使用该模型而无需微调或适当的超参数搜索,该模型是针对手头的问题开发的,您可以调整所有参数以获得测试数据的良好性能。这个错误的一个最近的例子是Isensee等人的论文。这表明原始U-net在10个不同问题上的表现优于自2015年以来提出的方法的几乎所有改进。因此,当应用于新提出的方法时,应始终在较新的模型上执行相同数量的参数调整。错误3:微不足道的进步在完成所有实验后,您最终得到的模型比最先进的模型产生的结果更好。但是,即使此时,您还没有完成。机器学习中的一切都是不精确的。此外,由于学习过程的概率性质,您的实验会受到许多随机因素的影响。为了解释这种随机性,需要进行统计测试。这通常是通过使用不同的随机种子多次运行实验来执行的。这样,您就可以报告所有实验的平均性能和标准差。使用显着性检验(如t检验),您现在可以观察到的改进只是与机会相关的概率。为使您的结果有意义,此概率应至少低于5%或1%。您不必为此成为统计专家。有在线工具可以计算它们,例如识别率比较或相关性比较。如果进行重复实验,请确保应用Bonferroni校正,这是您想要的显着性水平除以相同数据的实验重复次数。错误4:混淆和错误的数据数据质量是机器学习的最大陷阱之一。它可能导致严重的偏见,甚至导致种族主义人工智能。然而,问题不在于训练算法,而在于数据本身。错误五:标签不当普罗泰戈拉曾说过:“万物的尺度是人”。这也适用于许多分类问题的标签或基本事实。我们训练机器学习模型来反映人类类别。在很多问题中,我们认为类在定义的时候就已经很明确了。但是当你查看数据时,它通常包含歧义。错误6:CrossValidationMess这和错误1几乎一样,但它是变相的错误。因此,即使是专家也会犯这样的错误。典型的设置是第一步需要选择模型、架构或功能。由于您只有几个数据样本,因此您决定使用交叉验证来评估每个步骤。因此,您可以将数据分成N份,选择N-1份的特征/模型,并在第N份进行评估。如此重复N次后,可以计算出平均性能,选择性能优异的特征。现在您知道什么是好的功能,接下来使用交叉验证为您的机器学习模型选择最佳参数。这似乎是正确的,但它是有缺陷的,因为您已经在第一步中看到了所有测试数据并对所有观察结果进行了平均。这样,数据中的所有信息都传递到下一步,甚至可以从完全随机的数据中得到很好的结果。为避免这种情况,您需要遵循嵌套过程,将第一步嵌套在第二个交叉验证循环中。当然,这是非常昂贵的,并且会产生大量的实验运行。请注意,在这种情况下,由于对相同数据进行了大量实验,您也会偶然获得良好的结果。因此,统计检验和Bonferroni校正同样是强制性的(见错误三)。我通常尽量避免大型交叉验证实验,并尝试为训练/验证/测试拆分获取更多数据。错误七:过度解读结果抛开之前的种种错误,我认为在现阶段,我们在机器学习中经常犯的最大的错误就是过度解读和夸大自己的结果。当然,每个人都对通过机器学习创建的解决方案感到满意,您也有权利为此感到自豪。但是,应避免将结果外推到看不见的数据或状态。你应该小心你所说的话,并以事实为依据。您可以根据讨论中清楚显示的推测假设该方法的普遍适用性,但要真正说明这一点,必须提供实验或理论证据。这些天来,可能很难让您的方法获得应有的知名度,虽然提出重要观点可以帮助推广您的方法,但我建议您保持低调并坚持事实。