数据挖掘的几大错误

时间：2023-03-16 10:57:21 科技观察

根据Elder博士的总结，这些主要错误包括：Lackofdata（缺乏数据）FocusonTraining（RelyonOneTechnique）)AsktheWrongQuestionListen(only)totheDataUse未来的信息(AcceptLeaksfromtheFuture)丢弃不应忽略的案例(DiscountPeskyCases)轻信预测(Extrapolate)尝试回答所有问题(AnswerEveryInquiry)随机抽样(SampleCasually)相信最好的模型(BelievetheBestModel）0.缺乏数据（LackData）对于分类问题或预测问题，往往缺乏准确标注的案例。例如：-欺诈检测：在数百万笔交易中，欺诈交易可能只是屈指可数，很多欺诈交易都没有被正确标记，这需要大量的人力在建模之前进行修复。-信用评分（CreditScoring）：需要对潜在的高风险客户进行长期（比如两年）的跟进，积累足够的评分样本。1.专注于训练（FocusonTraining）IDMer：就像在运动训练中一样，越来越重视实战训练，因为简单的封闭训练往往导致训练时状态勇猛，比赛时却一塌糊涂。事实上，只有样本外数据的模型评分结果才是真正有用的！（否则，只需使用参考表！）示例：-癌症检测：MDAnderson(1993)的医生和研究人员使用神经网络进行癌症检测，并且令人惊讶地发现训练时间越长（从几天到几周），性能训练集的改进很小，但测试集的性能显着下降。-机器学习或计算机科学研究人员经常试图让模型在已知数据上表现最佳，而这样做的结果通常会导致过度拟合（overfitting）。解决方案：解决这个问题的典型方法是重采样（Re-Sampling）。重采样技术包括：bootstrap、交叉验证、jackknife、留一法等。2.只依赖一种技术（RelyonOneTechnique）IDMer：这个错误与第10个错误类似，请同时参考其解决方法。没有比较就没有好坏之分，辩证法的思想在这里体现得淋漓尽致。“当孩子拿着锤子时，整个世界看起来都像钉子。”要想做好一份工作，你需要一个完整的工具箱。不要简单地依赖单一方法分析你的结果，至少要与传统方法（如线性回归或线性判别分析）进行比较。研究成果：据《神经网络》期刊统计，近3年只有1/6的文章达到了以上两点。即，开集测试是在独立于训练样本的测试集上进行的，并与其他广泛采用的方法进行比较。解决方案：使用一套好的工具和方法。（每个工具或方法最多可能带来5%~10%的提升）。3.问错问题（AsktheWrongQuestion）IDMer：一般在分类算法中都会给出分类准确率作为衡量模型好坏的标准，但在实际项目中我们几乎看不到这个指标。为什么？因为那不是我们关注的重点。a)项目的目标：一定要瞄准正确的目标。例如：frauddetection（focusonpositivecases！）（ShannonLab对国际电话的分析）：不要试图把一般电话中的欺诈和非欺诈行为结合起来分类之后，重点应该放在如何描述特征上正常通话，进而发现异常通话行为。b)模型的目标：让计算机做你想让它做的事。大多数研究人员着迷于模型的收敛性以最小化错误，这使他们能够获得数学美感。但计算机应该做的应该是如何改进业务，而不是只关注模型计算的准确性。4.Listen(only)totheData（听（只）听数据）IDMer：“让数据说话”没有错，关键是要记住另外一句话：Listeningtobothwillleadtoclarity，偏听会导致黑暗！如果数据+工具可以解决问题4a。机会主义数据：数据本身只能帮助分析师发现什么是显着的结果，但它不能告诉你结果是对还是错。4b.设计实验：一些实验设计是人为混合的，这样的实验结果往往是不可靠的。5.使用未来的信息（AcceptLeaksfromtheFuture）IDMer：这似乎是不可能的，但在实践中这是一个很容易犯的错误，尤其是当你面对成千上万的变量时。认真、细心、有序是对数据挖掘者的基本要求。预测实例：预测芝加哥银行某一天的利率，采用神经网络建模，模型准确率达到95%。但是，当天的利率被用作模型中的输入变量。金融中的预测示例：使用3天移动平均线进行预测，但设置今天移动平均线的中点。解决方案：仔细查看使结果表现出色的变量。这些变量可能不会被使用，或者不应该被直接使用。时间戳数据以避免误用。#p#6。DiscountPeskyCases（DiscountPeskyCases）IDMer：是“宁做鸡头不做凤尾”还是“大隐于市，小隐于野”？不同的生活态度你可以拥有同样精彩的人生，不同的数据也可能蕴含着同样重要的价值。离群值可能会导致错误的结果（例如价格中的小数点错误），但它们也可能是问题的答案（例如臭氧层空洞）。所以需要仔细检查这些异常。研究中最激动人心的话不是“啊哈！”，而是“这有点奇怪……”数据中的不一致可能是解决问题的线索，深入挖掘可能会解决一个大的商业问题。示例：在直邮营销中，在合并和清理家庭地址期间发现的数据不一致可能代表新的营销机会。解决方案：可视化可以帮助您分析大量假设是否成立。7.外推IDMer：还是辩证法的观点，事物是不断发展变化的。人们往往在经验不足的情况下很容易得出一些结论。即使找到了一些反例，人们也不太愿意放弃原来的想法。维度咒语：低维度的直觉在高维度空间中通常毫无意义。解决方案：进化。没有正确的结论，只有越来越准确的结论。8.尽量回答所有问题（AnswerEveryInquiry）IDMer：有点像我在爬山时鼓励自己的一句话，“我不知道什么时候能爬上山，但我知道一步就是离终点更近一步。”“我不知道”是一个有意义的模型结果。模型可能无法100%地回答问题，但它们至少可以帮助我们估计某个结果的可能性。9.随机抽样（SampleCasually）9a，降低抽样水平。例如MD直邮进行响应预测分析，但发现数据集中无响应客户比例过高（一共100万直邮客户，其中99%以上没有响应营销).于是建模者做了如下抽样：将所有应答者放入样本集中，然后在所有无应答者中进行系统抽样，即每10人抽入样本集，直到样本集达到10万人。但该模型提出了以下规则：居住在阿拉斯加凯奇坎、兰格尔和沃德湾的任何人都会对营销做出回应。这显然是一个有问题的结论。（问题出在这种抽样方式上，因为原始数据集已经按邮编排序，上面三个地区的无应答者没有被抽入样本集，所以得出这个结论）。解决办法：“喝前摇一摇！”先打乱原始数据集中的顺序，保证采样的随机性。9b增加采样水平。比如在信用评分中，由于违约客户的比例普遍很低，建模时往往会人为增加违约客户的比例（比如将这些违约客户的权重提高5倍）。在建模过程中发现，随着模型越来越复杂，识别违约客户的准确率越来越高，但正常客户的误判率也越来越高。（问题出在数据集的划分上，在将原始数据集划分为训练集和测试集时，增加了原始数据集中违约客户的权重）解决方法：先对数据集进行划分，然后改进培训集中违约客户的权重。10.过分相信最佳模型IDmer：还是那句老话——“没有最好，只有更好！”可解释性并不总是必要的。看起来不完全正确或无法解释的模型有时可能很有用。“最佳”模型中使用的一些变量过多地分散了人们的注意力。（不可解释性有时也是一种优势。）一般来说，许多变量看起来彼此相似，而最好模型的结构看起来截然不同且无法追踪。但需要注意的是，结构上的相似并不意味着功能上的相似。解决方案：聚合多个模型可能会导致更好、更稳定的结果。【编者推荐】代号：Denali，SQLServer又来袭说说SQLServer编年史简单说说SQLServer上的加密擦亮眼睛看SQLServer

上一篇：Windows 10的三个隐藏功能：好用，却很少人知道

下一篇：微信版本更新支持“新年红包”功能

数据挖掘的几大错误相关文章