从数据稀缺到现在数据丰富,近年来可用数据量呈指数级增长,大数据无处不在。这是由于数据记录设备数量的巨大增长以及这些设备之间通过物联网的连接。似乎每个人都有收集和分析大数据的能力。但大数据真的无所不能吗?毫无疑问,大数据在某些领域产生了至关重要的影响。例如,几乎每一个成功的人工智能解决方案都涉及大数据处理问题。首先要注意的是,虽然人工智能目前非常擅长在大型数据集中寻找模式和关系,但它仍然不是很智能。处理数字可以有效地识别和揭示数据中的微妙模式,但它并不能直接告诉我们这些相关性中哪些是真正有意义的。相关性和因果关系我们都知道“相关并不意味着因果关系”。然而,人脑天生会寻找模式,当我们看到曲线倾斜在一起,数据中出现模式时,我们的大脑就会自动给出规则。“然而,从统计数据来看,我们仍然无法实现这一飞跃。”《虚假相关性》(假)一书的作者泰勒·维根(TylerVigen)在他的网站上对此进行了取笑,并提供了大量示例来说明冰淇淋显然是如何导致许多坏事的,从森林火灾到鲨鱼袭击和小儿麻痹症爆发。看看这些情节,有人可能会争辩说我们早就应该禁止冰淇淋了。事实上,1940年代的小儿麻痹症在一个例子中,公共卫生专家建议人们停止吃冰淇淋,作为“反政治饮食”的一部分。幸运的是,他们最终意识到脊髓灰质炎爆发和冰淇淋消费之间的相关性“完全是由于脊髓灰质炎爆发在夏季最为普遍”。在统计学中,虚假关系或虚假相关是一种数学关系,其中两个或多个事件或变量是相关的,但由于某些机会或某些第三个看不见的因素(称为“共同响应”变量、“混杂因素”或“潜在变量”)。这种“潜在变量”的一个例子可能是冰淇淋销售和鲨鱼袭击之间的相关性(尽管冰淇淋销售的增加不会导致鲨鱼袭击人)。然而,这两个数字之间有一个共同的联系,那就是温度。气温升高导致更多人购买冰淇淋,更多人去游泳。因此,这个“潜在变量”确实是造成明显相关性的原因。幸运的是,我们已经学会了因果分离。而且,我们仍然可以在炎热的夏日享受冰淇淋,而不用担心小儿麻痹症爆发和鲨鱼袭击!相关性的力量和局限有了足够的数据、计算能力和统计算法将揭示模式。但并非所有模式都有意义,因为虚假模式的数量很容易超过有意义的模式。如果正确应用于解决问题,将大数据与算法相结合可能是一个非常有用的工具。然而,没有科学家会认为仅靠操纵数据就能解决这个问题,而且无论统计分析多么强大,您的分析都应该始终基于对您要解决的问题的基本理解。数据科学是科学的终结吗?2008年6月,《连线》杂志的前任主编C.安德森写了一篇题为《理论的终结:数据使科学方法过时》的挑衅性文章。“相关性取代因果关系,即使没有连贯的模型和统一的理论,科学也能进步。”这种方法的优势和普遍性取决于数据量:数据越多,基于计算发现的相关性的方法就会越好。强大而有效。我们可以简单地将数字输入计算机,让统计算法自动发现有趣的模式和见解。然而,这种简化的分析方法也有一些潜在的缺陷,JohnPoppelaars博客上的一个例子很好地说明了这一点:假设我们想为某个变量Y创建一个预测模型。例子包括公司的股票价格,点击率通过在线广告的速率或下周的天气。接下来,我们收集所有可能的数据并将其放入统计过程中以找到Y的最佳预测模型。一个常见的过程是首先使用所有变量估计模型,过滤掉不重要的变量,然后使用重新估计模型选定的变量子集,并重复这个过程,直到找到一个重要的模型。然而,安德森提出的分析方法存在一些严重的缺陷。我选择了一个实例,从0到1的均匀分布中抽取了100个样本,并为Y创建了一组数据点,因此它是随机噪声。接下来,我通过从0和1之间的均匀分布中抽取100个样本创建了一组50个解释变量X(I)。因此,所有50个解释变量也是随机噪声。我使用所有X(I)变量估计线性回归模型来预测y。由于没有任何相关(所有统一变量和独立变量),人们会期望R2(0),但事实并非如此。结果是0.5。对于基于随机噪声的回归来说还不错!幸好模型无所谓。逐渐剔除无关紧要的变量,重新估计模型。重复此过程,直到找到重要的模型。经过几个步骤后,找到了一个显着模型,其调整后的R平方为0.4,并且7个变量的显着性水平至少为99%。同样,我们正在回归随机噪声,它完全没有关系,但我们仍然找到了一个具有7个重要参数的重要模型。如果我们简单地将数据输入统计算法以寻找模式,就会发生这种情况。数据集越大,噪声越强最近的研究表明,随着数据集的增长,它们必然包含任意相关性。这些相关性仅由于数据的大小而出现,表明许多相关性是虚假的。不幸的是,很多信息往往表面上看不出来。这是处理多维数据的应用程序中的一个主要问题。例如,假设您从一家工厂的数千个传感器中收集传感器数据,然后挖掘该数据以获得模式以优化性能。在这种情况下,很容易被数据的表象所迷惑,而不是真正的运营绩效指标。这可能是个坏消息,无论是在财务上还是在工厂的安全运行方面。添加数据和添加信息作为数据科学家,我们可能经常会说改进AI模型的最佳解决方案是“添加更多数据”。然而,简单地“添加更多数据”就可以提高模型性能吗?不是这样。我们应该关注的是“添加更多信息”。“添加数据”和“添加信息”之间的区别至关重要:添加更多数据并不等于添加更多信息(至少是有用和正确的信息)。相反,通过盲目地添加越来越多的数据,我们冒着添加包含错误信息的数据的风??险,这些错误信息相应地降低了模型的性能。随着访问的大量数据和处理数据所需的计算能力,考虑到这一点变得越来越重要。结论那么,上述挑战是否会阻止您采用数据驱动的决策制定?不,数据驱动的决策将继续存在。随着我们获得更多关于如何最好地使用数据和信息来提高绩效的知识,这些将变得越来越有价值。但要意识到,要使解决方案成功,不仅需要硬件和大量数据,大数据和计算能力也是重要组成部分。此外,您应该了解连接数据的基本机制。数据不能说明一切,赋予数字意义的是人。数据的数量和类型无法更改。
