当前位置: 首页 > 科技观察

数据科学的下一个“超能力”:模型可解释性

时间:2023-03-21 01:15:12 科技观察

在过去的10年里,我采访了许多数据科学家,模型可解释性是我最喜欢的话题,我用它来区分***数据科学家和一般数据科学家。有些人认为机器学习模型是做出预测但无法理解的黑匣子;然而,最好的数据科学家可以通过任何模型深入了解现实世界。给定任何模型,这些数据科学家都可以轻松回答以下问题:模型认为数据中最重要的特征是什么对于模型做出的任何单个预测,数据中的每个特征如何影响该预测?模型的特征之间什么样的相互作用会对模型的预测产生影响***这些问题的答案比大多数人想象的更有意义。受此启发,我在Kaggle上开设了一个关于模型可解释性的微课程。无论您是在Kaggle上学习还是在其他综合资源上学习,如《统计学习基础(Elements of Statistical Learning)》,这些技术都将彻底改变您构建、验证和部署机器学习模型的方式。为什么这些见解很有价值?模型洞察力的五个最重要的应用是:调试指导特征工程指导未来的数据收集方向指导人类做出决策建立信任数据有很多噪音。当您编写预处理代码时,您会添加一个潜在的错误来源。再加上目标泄漏的可能性,在真正的数据科学项目中,某些时候的错误是常态,而不是例外。考虑到错误的频率及其潜在的灾难性后果,调试是数据科学中最有价值的技能之一。了解您的模型正在寻找的模式可以帮助您识别您的模型何时与您对现实世界的了解不一致,并且通常是追踪错误的第一步。2.引导特征工程特征工程通常是提高模型准确率最有效的方法。特征工程通常涉及转换原始数据或先前创建的特征以迭代地创建新特征。有时,您可以仅凭对基本主题的直觉来完成此过程。但是当原始特征超过100个或者您缺乏手头项目的背景知识时,您需要更多的指导。关于预测贷款违约的Kaggle竞赛就是一个极端的例子。这个问题有100多个原始特征。出于隐私原因,这些功能不使用常见的英文名称命名,而是使用代号,如f1、f2、f3。这模拟了您对原始数据了解不多的场景。一位参赛者发现了f527~f528这两个特征之间的差异,创建了一个强大的新特征。具有这种差异的模型比没有这种差异的模型表现得更好。但是当有数百个变量时,你怎么会想到创建这个变量呢?您在本课程中学到的技术将使您能够轻松分辨出f527和f528是重要的特征并且它们密切相关。这指导你考虑变换这两个变量来找到f527-f528的“黄金特征”。今天的数据集很容易包含成百上千个原始特征,因此这种方法的重要性与日俱增。3.指导未来数据收集的方向你无法控制你在线下载的数据集。但是对于许多使用数据科学的企业和组织来说,有机会扩展他们收集的数据类型。收集新类型的数据既昂贵又不方便,因此他们只收集值得付出努力的数据。基于模型的洞察力可以让您更好地了解当前特征的价值,这将帮助您推断出哪些新价值最有用。4.引导人类做出决定有些决定是由模型自动做出的——当你登录亚马逊时,网站上没有人会即时决定向你展示什么。但是有许多重要的决定必须由人类做出。对于这些决策,模型的洞察力比其预测能力更有价值。5.建立信任如果不验证groundtruth,人们就不会信任你的模型,也不会根据你的模型做出重要的决定。就数据出错的频率而言,这是一种明智的预防措施。在实践中,展示符合他们普遍看法的见解有助于为用户建立对模型的信任,即使他们对数据科学知之甚少。原文链接:https://towardsdatascience.com/why-model-explainability-is-the-next-data-science-superpower-b11b6102a5e0【本文为微信《机器之心》专栏原文翻译公众号《机器之心(id:almosthuman2014)》】点此查看该作者更多好文