当前位置: 首页 > 科技观察

如何识别虚假数据?

时间:2023-03-20 18:50:26 科技观察

决策本身就已经很困难了,更不用说基于一些糟糕的数据了。好的决策应该是“数据驱动”的,但如果数据无效,就不可能根据数据做出好的决策。我的整个职业生涯几乎都在做市场研究和分析调查数据,根据我的经验,我发现了一组商业数据是否值得在决策过程中引用的试金石。要从有效(因此可能)有用的数据中剔除虚假(因此)无效数据,您需要提出以下九个问题。如果对这些问题中的任何一个的回答是“是”,那么数据就是伪造的。1.这个数据的来源是为了盈利吗?如果收集数据的机构可以通过扭曲数据获得经济利益,那么数据就是扭曲的。例如,我曾听一位市场研究人员(外部顾问)问雇用他的营销人员:“你希望数据说明什么?”那么他提交的研究报告中的数据一定经过了仔细的调整,以反映这一观点。2.原始数据没有公布吗?任何缺乏原始数据的研究结果都是虚假的。不得出于以下原因之一发布原始数据:原始数据实际上完全证明了其他事情。原始数据可以揭示该研究使用了奇怪的定义或有偏见的问题。(见下文第3点和第5点。)原始数据不存在,因为研究结果完全是某人的“欺骗”,正如他们在交易中所说的那样。3.它是否扭曲了正常的定义?尽管人类语言天生就是不精确的,但如果问卷或调查大纲对一个词的定义超出了其普遍接受的含义,那么与该词相关的所有数据都是错误的。例如,一项将“客户满意度”定义为“购买的产品未退回”的调查显然会误导读者判断您的客户服务的好坏。4.受访者不是随机选择的吗?如果一项调查只询问那些承诺提供特定答案的人,那么收集到的数据将反映这种意见。例如,我曾经看到一家广告公司通过调查购买广告的出版商的销售经理来衡量“广告效果”。不用说,这则广告的效果一定是“效果很好”。5.调查中是否使用了引导性问题?你问问题的方式往往会让接受调查的人以可预测的方式做出回应。我们可以看一个政府的例子,如果研究人员问退休人员“你赞成政府援助吗?”你得到与“你支持医疗保险吗?”相反的答案6.结果是平均的吗?如果按照“平均”来分析,即使是好数据也可能变成坏数据。例如,在一个房间里有一个亿万富翁和九百九十九个身无分文的乞丐,他们的平均财富是一百万美元。有效数据应该使用“中位数”,也就是所有其他值都排列整齐时的中位数。在上面的例子中,财富中位数为零。7.被调查的人是自选的吗?企业经常进行在线调查,由访问网站的人决定是否参与调查。但任何基于“自我选择”的发现都必然是虚假数据。例如,如果我在我的网站上发布一个问题,比如“我们的客户服务怎么样?”只有拥有非常好的或非常糟糕的客户服务体验的人才会参与回答。结果,您不知道客户通常会获得什么样的服务体验。8.因果关系是先入为主的吗?即使两组数据看起来步调一致,您也不知道这种一致性是否有意义,除非您绝对确定一组数据导致了另一组数据。例如,如果您的销售人员参加销售培训课程后销售收入增加,则增加可能是由于销售培训,也可能是与销售培训无关的因素,例如经济复苏。因素。相关性不一定是因果关系。9.是否缺乏独立确认?在其他人(原始研究人员除外)独立证明研究结果之前,科学研究不被认为是有效的。不幸的是,绝大多数市场研究都是单一来源的,这使得它在本质上是不可靠的。比如上面的例子,你的销售收入在销售员参加了销售培训后增加了,那么这个增加可能是销售培训的原因,也可能是其他与销售培训因素无关的因素,比如经济复苏。相关性不一定是因果关系。让我们看看在查看真实的市场研究报告时如何应用这些规则。昨天,一家名为MillwardBrown的公司发布了该公司的“世界品牌100强”榜单。由于本报告的目的是吸引对MillwardBrown的关注和客户,因此第一个问题的答案是“是”。MillwardBrown并未在公布的报告中披露原始数据,因此第二个问题的答案也是“是”。第三到第七个问题的答案未知(因为我们没有原始数据),但第九个问题的答案是“是”,因为MillwardBrown使用了“专有”方法,所以只是无法独立证实报告的结论。我将以极不信任的眼光看待这份报告,并且不会相信其中的内容。