回归是一个广义的概念,它包含了用一组变量来预测另一个变量的基本概念。预测另一件事发生的概率,最简单的就是线性双变量问题(即简单线性)。比如下午老婆要买包,我不买。结果是我肯定不吃晚饭;比较复杂的是multivariate(也就是多元线性。这里有一点要注意,因为我最早犯了这个错误,就是我认为预测变量越多越好。在做模型的时候,我一直希望选择几十个指标来预测,但是你要知道,一方面,每增加一个变量,就相当于增加了这个变量上的误差,变相扩大了整体误差,尤其是当自变量选择不当时,影响更大;反之,当所选择的两个自变量本身高度相关但不独立时,两个指标对结果产生双重影响),或者上面的例子,如果我婆婆来了,那么我老婆大概率会做饭;如果加上一个事件,如果我公公也在,那我老婆肯定会做饭;为什么会有这些判断,因为这些之前已经发生过很多次了,所以我可以根据这几件事来预测我老婆会不会做晚饭。当然大数据时代的问题是肉眼看不出来的,否则海量计算也没用,所以除了以上两种回归,我们还经常用到多项式回归,即模型是n阶多项式;逻辑回归(类似的方法还有决策树),即结果是分类变量的预测;泊松回归,即结果变量代表频率;非线性回归,时间序列回归,自回归等等,太多了,这里主要是一些常用的,容易解释(所有模型都要注意一个问题,就是要容易解释,是否是参数选择,变量选择还是结果,因为模型建好之后,业务人员会用到,老板会看到结果,你要给他们解释,如果你说结果是这样的,我不不知道问什么,那升职加薪基本没有希望),比如你发现某个地方的日照时间和葡萄销量成正比,那你可能要解释为什么是有正比关系的。进一步统计表明,日照时间与葡萄的含糖量有关,即日照时间长的葡萄好吃。此外,日照时间与产量有关。日照时间长,产量大,价格自然低廉,物美价廉。吃的葡萄销量一定很大。再举个例子,如果某个产油区的咖啡销量增加,那么国际油价就会下跌。两者是相关的。除了要告诉领导两人有关系外,还要弄清楚为什么会有关系。咖啡是一种进步。工人能量的主要饮料,咖啡的销量有所增加。跟踪发现,工人工作强度增加,石油运输和出口增加。获取船舶信息预测食品价格的真实案例感觉不够典型,改一下就好了,实际油价是人为操纵的)。回归工具——最小二乘法,牛逼的数学家高斯用过(另一位法国数学家说是他先创造的,但是没办法,谁让高斯出名了),这种方法主要是根据样本数据来寻找样本和预测的预测值与实际值的关系最小;和上面我老婆做晚饭的例子类似,但是我的例子只是在不确定性方面讲了高概率,但是概率有多大呢?square方法写出这个关系表达式。这里就不讲最小二乘法和公式了。你可以使用工具。基本上所有的数据分析工具都提供了这种方法的功能。我主要跟大家说说之前的一个误区。最小二乘法可以在任何情况下计算一个方程,因为这种方法只是使误差和最小,所以即使是巨大的误差,只要是误差和最小的,都是这种方法的结果,写在这里你应该知道我要说什么。即使自变量和因变量没有任何关系,这种方法也会计算出一个结果,所以我主要讲一下最小二乘法对数据集的要求:1.正态性:对于固定的自变量和因变量是正态的,这意味着对于同一个答案,大部分原因是集中的;做回归模型,用大量的Y~X映射样本进行回归。如果Y个样本很乱,那么是不可能返回2的。独立性:每个样本的Y是相互独立的。这很好理解。答案和答案之间不能有任何联系,就像抛硬币一样。如果你预测两次抛出反面的概率,那么就没有必要预测结果了。3.线性:X和Y是相关的。其实世间万物皆有关联。蝴蝶和龙卷风(或海啸)是相关的。,只是直接相关或间接相关。这里的相关性是指自变量和因变量之间的直接相关性。4、同方差性:因变量的方差不随自变量的水平而变化。Variance我在描述性统计的分析中写到,代表数据集的变异性,所以这里的要求是结果的变异性是恒定的。比如头轴偏了,想不出例子了。画个图来说明。(我们希望每个自变量对应的结果都在一个尽可能小的范围内。)我们使用回归建模来尽可能地消除以上几点的影响。下面详细说一下简单回归的过程(其他的其实都差不多。能把这个说清楚,其他的也差不多):首先,找指标,找到你要预测的变量的相关指标(第一步应该是找出你要预测的变量是什么,这个话题有点大,涉及到你的业务目标,老板的目的,达到目的最关键的业务指标等等,我们接下来会讲到——上题,先把方法说清楚),找到相关的指标,标准的方法是业务专家搞出一些指标,这些指标我们测试的是哪些?相关性高,但是我经历过的公司业务人员大部分在建模初期都是不靠谱的(真的不靠谱,没思路,没想法,没意见),所以我的做法是把所有的业务目的都搞定相关指标(有时几百个),然后做相关性分析,再做主成分分析,过滤差不多就搞定了,然后拿给业务专家看,他们就会有想法(先Somethingactivatesthem),会给出一些你可能意想不到的指标。预测变量是最重要的,与您的结果和输出直接相关,因此这是一个多轮优化过程。第二,找数据,这个我就不多说了,要么按时间轴(我觉得比较好,大部分都是有规律的),要么按横截面法,也就是说不同的横截面的点可能波动较大,需谨慎;同时还要对数据进行基本的处理,包括极值和空值的处理。第三,建立回归模型。这一步是最简单的。所有的挖掘工具都提供了各种回归方法。你的任务是告诉计算机你准备了什么。第四,检查和修改。我们使用工具计算的模型具有用于各种假设检验的系数。您可以立即看到您的模型是好是坏,并??同时修改和优化它。这里主要涉及到一个verificationRate,表示预测部分真正正确的比例;另一个是召回率,它表示预测到所有真正正确的例子的概率;准确率和召回率一般是成反比的,所以我们要找到一个平衡点。五、解释与运用。这是见证奇迹的时刻。见证人通常需要很长时间。这个时候是你跟老板或者客户解释的时候,解释为什么会有这些变数,解释我们为什么选择这个平衡点(是因为业务实力不够还是别的什么原因),为什么之后生产出来的产品如此早就这么穷了(这很尴尬)等等。先说这么多回归。下一轮我会讲主成分分析和相关分析的研究,然后讲另一个数据挖掘的利器——聚类。
