当前位置: 首页 > 科技观察

面板数据分析中标准误差的估计校正

时间:2023-03-21 14:21:19 科技观察

众所周知,在进行标准平方线性无偏估计时,我们假设残差是独立同分布的(i.i.d.)。而一旦这个假设在实际数据中被打破,估计就会有偏差(bias)。彼得森指出,过去在很多实证金融文献中,很多研究者实际上并没有根据残差项与时间或企业的相关性,正确选择合适的方法来修正标准误,或者只是盲目地照搬他们的方法。其他文献来纠正偏见,这实际上可能完全误导对方。错误的标准误会导致判断变量显着性时得出不可靠甚至错误的结论,从而大大降低研究的可信度。在文章中,Peterson研究并比较了应该用于不同面板数据结构的标准误差估计方法。下面我将延续Peterson的文章思路,对不同面板数据的结构进行归纳总结。为了编辑方便和提高文章的可读性,我省略了数学推导,直接用文字说明逻辑和结论。1.只有“企业固定效应”的面板数据首先,我们要明确什么叫企业固定效应。面板数据一般是二维的,有时间和对象两个元素。对象可以是个人、企业、国家等,为了简化文中的意思,我们将对象更名为企业,因为这也是金融实证数据中最常见的对象。企业固定效应是指在面板数据的时间维度上,每个企业个体都具有影响被解释变量的独特特征,并且该特征会伴随企业贯穿整个时间维度,并且独立于其他企业,在其他情况下言,不受其他公司的影响。例如,某企业的管理能力是该企业的一个特征,不受其他企业的影响,可以假设在有限的时间维度内保持不变。Peterson指出,在这种情况下,OLS的标准误差会被低估,因为每个额外的观察结果所提供的信息都少于OLS模型假设的信息。在这种情况下,研究人员应使用聚类标准误差并按公司聚类。简单地说,企业集群标准误考虑了同一企业在不同时间点的变量可能存在的相关性,从而提供了一个修正的标准误。彼得森的论点指出,在处理具有公司固定效应的面板数据时,公司集群标准误差的有效性是突出和可靠的。除此之外,其他估计标准误差的方法也可能存在问题。例如,OLS估计值的标准误差将有偏差。至于偏差的大小,取决于残差和变量之间有多少相关性。又如Fama-MacBeth两阶段回归法也会产生偏差(标准误被低估),而由于F-M方法的计算方式,F-M会比OLS产生更大的偏差。F-M方法旨在考虑横截面相关性(同一时间点不同观测值之间的相关性),而不是序列相关性(不同时间点相同观测值之间的相关性),因此不适合用在这里。再比如,使用Newey-West方法也会造成标准误的低估。Newey-West方法是只考虑同一聚类中滞后期残差之间的相关性,最佳滞后期比面板数据提供的时间维度小1。Peterson的实验发现,随着滞后期的增加,Newey-West的偏差会逐渐减小,但由于滞后期的限制,它永远无法消除估计中的偏差。2.只有“时间效应”的面板数据同样,先弄清楚什么是时间效应。简而言之,它是指同一时间点不同企业的变量之间的相关性。这可能是由一些外部因素引起的,例如宏观经济条件,它在同一时间点影响所有公司,但在不同时期独立变化。彼得森发现,当面板数据存在时间效应时,普通最小二乘估计仍然低估了标准误差。按时间聚类的聚类标准误差可以提供相对准确的估计,但这仅在时间维度(即面板数据可以提供的时间点数)较大时受到限制。例如,当数据中只有几年时,聚类标准误差就不够准确。彼得森指出,在这种只有时间效应的情况下,最理想的方法应该是使用Fama-MacBeth两阶段回归法来估计标准误差。简而言之,先对各个企业的时间序列进行回归,得到beta系数后,将beta系数作为已知变量,再对横截面数据进行回归。该方法的本质是通过第一步得到每个企业受每个变量影响的超额收益,还有一些未观察到的随时间变化的影响因素,所以在第二步的回归中,做横截面对所有企业在同一时间点进行数据回归,找出这些因素的影响,这就是时间效应所在。3.同时具有“公司效应”和“时间效应”的面板数据综上所述,如果研究者有足够的信心选择某种方法(聚类标准误或F-M法)来估计标准误,她必须确保有在面板数据中只是公司效应或时间效应,而不是同时存在两种效应。但通常这是一个过于理想化的假设。彼得森指出,最常见的方法之一是对一个维度使用虚拟变量,然后对另一个维度使用集群标准误差。一般在研究中比较常见的是取时间虚拟变量,然后做企业的聚类标准误,因为一般的面板数据有很多企业,但时间聚类标准误可能没有足够的时间点。此外,还可以在两个维度上进行聚类,只要每个维度的数量足够大即可。在该方法中,Thompson(2006)提出了一个简单的算法,即:V_{firmtime}=V_{firm}+V_{time}-V_{white}二维标准误=企业集群标准误+时间集群标准误-稳健标准误差其中,稳健标准误差是怀特标准误差(Whitestandarderrors),这也是处理异方差时最常用的稳健标准误差。4.结论以上是面板数据中几种效应的最基本处理方法,但在实证研究中,有些情况会更加复杂。例如,彼得森提到,有时企业效应是暂时的,即某些影响因素会随着时间的推移逐渐消退。广义线性估计器(GLS)可以更有效地估计随机效应模型,但如果残差之间的相关性随时间消退,则GLS估计也可能有偏差。对此,Peterson提出使用adjustedF-M方法来处理,但前提是残差之间的相关性要快速消退,面板数据的时间维度要足够。此外,在实证研究中,研究者也可以简单地比较使用不同聚类所产生的标准误差的估计值,从而确定数据中主要影响在哪个维度上,然后采用适当的方法对其进行修正处理。参考资料:Peterson在他的个人网站上提供了获取Stata和SAS文章中提到的各种标准误差估计的代码:ProgrammingAdvice36BigDataKnowledgeGraph:PanelData,PanelData,也叫“平行数据”,指取时间序列上的多个部分,同时选择由这些部分的样本观测值组成的样本数据。它有时间序列和横截面两个维度。这类数据在二维排列时,是排列在一个平面上,这与只有一维排列在一条直线上的数据有明显区别。整个表格就像一个面板,所以面板数据翻译为“面板数据”。但就其内在含义而言,将面板数据翻译成“时间序列截面数据”更能揭示这类数据的本质特征。又译作“平行数据”或“TS-CS数据(时间序列-横截面)”。