本文将按照以下四个部分来讲述如何从业务数据中分析数据并构建模型。希望对大家有所帮助!数据从何而来如何分析数据机器学习算法介绍预测效果评估Part1:数据从何而来数据分析一般来说,实际的业务数据不能直接用于数据建模。我们需要进行一系列的分析和转换,以获得建模所需的数据。数据分析项目需要准备数据。占整个项目60%~70%的时间,建模可能是数据分析项目中最(相对)容易的事情。试想一下,如果你的领导让你去分析某个业务数据,对你来说,你只是知道这部分数据的名字,你会怎么做?会有什么问题?数据安全、权限、部门沟通、业务了解,每一个环节都是一个“坑”!常用数据准备工作:梳理业务逻辑:明确业务表、关联逻辑、跨部门、跨职级的字段含义,理解差异设定训练目标:理解业务目标,确定模型目标基于实际数据训练数据样本评估:极值、数据分布、方差、信息熵特征工程:用数据表达数据,建立建模所需的大而宽的表建模:建模是最简单的事情?Part2:如何分析数据从传统的统计角度,我们可以进行数据分析的一系列探索Part3:机器学习算法介绍在建模之前,我们需要了解最简单最基本的问题,什么是预测:使用数据和统计科学地做出预测,不仅要定量推理,还要定量推理的确定性/不确定性另外,为了更好地理解模型,我们还需要知道一些建模术语如:损失函数、梯度下降等。sklearn的官方文档为算法选择提供了很好的指导。GoodroadmapPart4:预测效果评估很多时候准确率不符合我们对模型预测能力的评估,因为样本是不平衡的,所以我们需要其他的评估方法,比如ROC,AUC,KS
