当前位置: 首页 > 科技观察

模型花了几十万,指导了无数项目,结果发现负样本为null?

时间:2023-03-19 14:58:02 科技观察

人们经常提到流行的深度学习模型是黑盒状态——给它一个输入,模型会做出决定,过程未知。没有办法确切知道深度学习对什么做出决定以及结果是否可靠。近年来,越来越多的新研究在构建可信的机器学习方法方面取得了成果。然而,最近的一件事告诉我们,广泛使用的机器学习模型在很多情况下出现问题的原因根本没有深入到算法层面。数据稍有误差就会造成讽刺的结果,最重要的是,这样的事情造成的伤害要比所谓的“模型无法解释”大得多。上周,宾夕法尼亚州历史保护官员和交通部之间发送的大量电子邮件中夹杂着悲伤、困惑和沮丧。这起丑闻的后果仍在继续,在官方回应之前我们不会知道更多(尽管当地考古学家对此事众所周知)。一个价值365,000美元的机器学习模型失败了。发生了什么?五年前,有人访问了宾夕法尼亚州交通部,想为史前考古遗址创建一个全州范围的预测模型。最终,政府选择与一家一直在考古调查上投入资金的大型工程公司合作。我们从合同中可以看出,该公司向纳税人支付了365,900美元,承诺提供最强大的模型之一,该模型还结合了GIS(地理信息系统)叠加分析,其结果可供考古学家使用。从那时起,直到今天,宾夕法尼亚州交通部的绝大多数项目,以及所有需要文化资源调查的项目,在进行之前都使用了这个机器学习模型的推论。这个项目从数据准备、模型选择到性能测试,本来看起来还过得去,但一旦错误暴露,情况就变得不堪设想了。他们将要预测的区域作为负样本。从2013年年中到2015年,项目承包商用了大约一年半的时间向宾夕法尼亚州交通部交付了一个模型和7卷文件。不幸的是,到目前为止似乎还没有人阅读过文档。该模型似乎在输出没有意义的数字,其背后的原因非常神奇。咨询公司使用未调查的土地作为负数据集,但这不是模型将预测的结果吗?一个价值超过300,000美元的模型实际上存在这样的错误。无论如何,在模型(混合回归和随机森林)中使用空数据是不合适的,这些不应该作为负样本数据出现。即使这些零值存在于自变量中,但不存在于因变量中,它们仍然会对模型的推理结果造成严重破坏。他们在没有使用数据处理最佳实践的情况下检查了项目,但为什么开发团队中的数据科学家辛苦工作了一年半而没有意识到他们在第一步中犯了错误?这与他们检查物品的方式有关。一般来说,检查的黄金标准是随机抽取一部分。此时,只要训练好模型,就可以知道模型在给定真实数据时是否有效。显然,在这件事上,相关研究人员从未进行过这样的验证。也许他们使用了一些神秘的统计方法?这是未知的。他们将已知地点作为随机抽样的结果进行处理。众所周知,并非所有土地都以相同的比率进行抽样,即使在一个项目区域内也是如此。只用ShovelTestPit,假设你有100英亩的土地,50英亩的高概率和50英亩的低概率,将它们排列成不同的间隔(通常是15m,30m)进行测试。这意味着您80%的测试都在高概率土地上进行,因为您可以在一英亩土地上以15m的间隔进行16次铲土测试,以30m的间隔进行大约4次。所以你需要在高概率部分找到80%的站点。所以我们知道一些遗址不是从随机的土地样本中发现的,而是从人们认为可以找到的地方发现的。凭直觉,大多数考古学家都知道这一点。这很重要,因为已知阳性数据集的自变量分布已用于这些统计测试。这种分布是有偏差的,数据科学家不知道如何解释这些偏差。因此,我们需要留出一部分数据。项目管理,没有管理?花费365,000美元并不意味着让承包商派一个人在办公室的角落里修修补补几年,而无需其他人管理。追溯到2014年初,这个项目在交付给宾夕法尼亚州交通部的第三卷文件中犯了一个致命错误(使用空数据作为负样本数据)。这个项目是无人监督的吗?为什么这个结合了GIS和机器学习的模型在向宾夕法尼亚交通部收取数十万美元之前没有引起其他人(无论是同事还是上司)的关注?交通部门的工作做好了吗?PennTransit的谁在文件交付后阅读这些文件?作者推测没有人阅读或理解这些文档。但这纯粹是猜测,我们宁愿相信文档已经阅读,但并不仔细。任何上过大学统计课的人都应该能够找出这个模型中最大的错误。但正如有人指出的那样,考古学家很少上这些数学课,所以可能不会有考古学家指出这些错误。教训这个错误让纳税人损失了365,000美元,可见美国交通部和销售该模型的公司在质量控制方面的粗心大意,也说明一些有问题的模型仍在一些重要的大型项目上使用.老实说,如果你想要一个预测模型,你可以花费项目预算的3-5%。保持模型简单,以便您可以自己更新和测试它。即使模型没有大量的质量控制问题,复杂的数学模型也不会优于简单的模型。爆料人Medium博主ArchaicInquiries表示,目前还在等待SHPO和DOT的回复。他特别强调,他既没有在这种状态下工作,也没有在近期内这样做的计划,并且他没有因撰写这篇批评文章而获得任何报酬。他的动机很简单:作为一名专业人士,看到该模型由于缺乏监管而被用来指导政策,他感到很尴尬。机器学习的推理结果错误造成的损失有大有小。在这里,可能意味着很多古人类遗骸被忽略了,但最可怕的是,在机器学习技术广泛应用的今天,这样的错误并不少见。在社交网络上,宾夕法尼亚算法事件被机器学习圈内人士广泛讨论。有人说:“我遇到的大多数数据科学家完全没有意识到这个错误推理(数据泄露)的问题,而且因为对机器学习的无条件信任,甚至信任算法,而不是信任自己的领域知识。”“我认识一个政府机构的数据科学家,有很多次我不得不向他解释数据科学领域的一些基本概念。我没有说出他在哪个机构,但它是第一个部门当美国人的生命受到威胁时,人们求助于他们,”Reddit上的用户Stereoisomer说。不知道这样的技术难题要解决的会不会越来越少。

猜你喜欢