今天给大家介绍两种数据分析中常见的偏差:选择偏差和幸存者偏差。1、选择性偏差选择性偏差是指研究过程中由于样本选择的非随机性而导致得出的结论存在偏差,是人为主观选择造成的数据偏差。让我们看一个选择偏差的例子。现在一个研究机构想研究一个“医院是否能让人更健康”的课题。这个机构随机抽取了10万人,测量了这10万人的健康水平,然后根据过去一年是否去过医院,将这10万人分为两组。去过医院的人群健康水平优于去过医院的人群。我们能解释医院让人更不健康吗?这是一个非常典型的选择偏差的结果,因为过去一年没有去过医院的人群整体健康水平可能比去过医院的人要好,所以检测结果也是一样的,并不代表医院让人更不健康。我们在日常的分析过程中应该尽量避免这种偏差。衡量是否存在选择偏差的一个重要标准是被比较的两组是否具有可比性。2.幸存者偏差幸存者偏差是指只看到某次筛查的结果,却不知道筛查的过程,从而忽略了已经被筛查出的关键信息。我们来看一个比较长期的例子。二战期间,为了加强战斗机的防御能力,美军对参战的飞机进行了研究。结果发现,飞机的大部分弹孔集中在机翼和尾翼。因此,分析中心的工作人员认为,最好对受损最严重的地方进行加固。统计学家亚伯拉罕沃尔德得出了一个违反直觉的结论。他发现,参与调查的飞机都是没有遭受致命袭击的战斗幸存飞机。相反,机舱、发动机等看似毫发无损的地方,却更加危险,因为一旦这些区域被击中,飞机就会失事坠毁。其实我们看到的飞机都是经过筛选的,还有一些坠毁的飞机我们是看不到的。这就是幸存者偏差。再比如我经常在脉脉、知乎等平台看到,好像人人年薪百万,只有自己是战斗力不到5的渣。这实际上是一种幸存者偏差。年薪过百万的都会主动展现自己,很多年薪不到百万的人都被过滤掉了。这和我们平时工作中遇到的情况是一样的。你经常会遇到各种各样的抱怨,比如抱怨你的产品价格太高。如果直接把产品降价,是不是就能解决问题呢?真正认为你的产品贵的人可能根本不会向你抱怨。比如买千元手机的人,肯定不会去苹果官网抱怨你的苹果手机太贵了。3、最后,我们在日常的数据分析或工作中,往往会不自觉地陷入以上两个问题,那么如何避免以上两个偏差呢?办法就是多问几个why?上述偏差也是通过数据分析得到的。通过分析得出结论后,再问几个why?为什么会这样,为什么这些飞机飞回来,为什么这些人抱怨价格高。如果能找到数据背后的原因,就不会犯上面的错误了。以上两种偏见既相似又不同。前者是我们人为选择研究对象不准确造成的偏差,后者是我们只看到别人想让我们看到的东西造成的偏差。两者也有一个共同点,就是都是因为没有看到数据的全貌而造成的偏差。
