目前,大数据的理论和应用在国民经济和生活的各个领域如火如荼。很多人已经了解了大数据的基本概念和特点,所以我们仅仅获取、存储、检索和共享大数据是不够的。怎样才能从大数据中找出未知的、有价值的信息和信息呢?知识呢?知识发现(KDD)是从大数据中识别有效、新颖、潜在有用且最终可理解的模式的过程。知识发现流程图数据挖掘是大数据知识发现(KDD)中不可或缺的一部分,是大数据理论与应用的重要组成部分。数据挖掘是从海量的、不完整的、嘈杂的、模糊的和随机的数据中提取隐藏的、未知的但可能有用的信息和知识的过程。大多数人是通过一个案例认识数据挖掘的:这是因为沃尔玛通过数据分析发现,男性顾客在购买婴儿纸尿裤时,往往会用几瓶啤酒款待自己,因此他们尝试推出啤酒和纸尿裤的组合。没想到,此举大大增加了纸尿裤和啤酒的销量。尽管这个故事很可能是假的,但它确实向许多人介绍了数据挖掘。最常用的数据挖掘算法:(1)预测建模:利用现有数据和模型对未知变量进行语言化处理。分类,用于预测离散的目标变量回归,用于预测连续的目标变量(2)聚类分析:发现密切相关的观察组,从而使属于同一聚类的观察更有可能与属于不同聚类的观察进行比较值尽可能彼此相似。(3)关联分析(又称关系模型):反映一个事物与其他事物之间的相互依存关系和相关关系。用于发现描述数据中强相关特征的模式。(4)异常检测:识别其特征与其他数据显着不同的观测值。有时数据挖掘也分为:分类、回归、聚类、关联分析。数据挖掘的四种典型算法数据挖掘和机器学习既有区别,也有联系。我们将在以后的文章中介绍它们。
