当前位置: 首页 > 科技观察

因果推理在项目价值评估中的应用

时间:2023-03-14 19:18:04 科技观察

WildLi,携程算法工程师,专注于因果推理在实际工业项目中的探索与应用。1.背景我们的日常生活充满了需要推断因果关系的问题。例如,吸烟会导致肺癌吗?大学教育会增加收入水平吗?有时,当我们试图回答这些问题时,我们会陷入相关性陷阱,认为相关性等于因果关系。例如,伦敦的一家调查机构曾根据数据发现,在很长一段时间内,车祸的数量与司机所穿衣服的重量之间存在显着的正相关关系,因此他们得出结论,厚重的衣服就可以了。会影响司机的行动能力,更容易导致车祸。基于这一结论,调查机构的研究人员建议政府立法规定司机在驾驶时不得穿厚重的衣服。但事实真的如此吗?其实这是一个典型的伪相关结论。因为后续调查发现,司机因为下雨而穿厚衣服,下雨时路况变差,能见度低,而且大多数司机在雨天不会减速,这是大多数车祸的原因之一.得出这种错误相关性的结论往往是因为我们在分析过程中忽略了像下雨这样的混杂变量(如图1-1所示),从而认为观察到的两个结果变量(司机衣服的重量和车祸次数)),有可能不存在的因果关系。图1-1伦敦出租车司机着装与车祸的因果结构前文提到,由于混杂因素的存在,会导致我们在分析数据和得出结论时出现偏差。那么,有没有一种方法可以帮助我们回答这样的因果问题呢?答案是肯定的,那就是因果推理。因果推理是一门专门研究这类因果关系的科学,即寻找变量之间的因果关系,并通过因果关系来估计影响的大小。互联网公司每天都在进行的随机实验(AB实验)是因果推理中的黄金标准,就是将研究对象随机分组,对不同的群体实施不同的干预/处理,然后观察结果的变化验证干预/治疗是否是结果变化的原因,然后是干预/治疗导致结果变化的程度。但需要承认的是,在大多数情况下,由于某些原因(如成本限制或道德风险)或项目本身的性质,我们无法实施严格的随机试验。例如,携程营销部为了促进用户在暑假期间的旅游消费,推出了营销活动。在这种场景下,我们想知道营销活动是否有效(是否能带来收入增量),能带来多少价值增量,随机实验似乎无望。因为我们无法在活动期间通过随机分配来控制某个版本的用户参与活动,而另一个版本的用户不参与活动。这首先是对用户的价格歧视(假设活动会有折扣),当然还有可能给公司带来重大的收入损失(假设活动有效)。那么,没有黄金法则,我们还能做些什么来获得项目的价值增量呢?仔细思考后不难发现,用户是否参与活动,最终是否下单,可能会同时受到其他混杂因素的影响(如图1-2所示,例如短仓用户-短期休闲旅游意向更可能参加活动下单,而短期商务旅行用户可能不参加活动但仍会下单。还有许多其他混杂因素,例如消费能力和长期-如何剔除或控制这些混杂因素,从而准确评估活动对用户下单的价值,是此类分析任务的难点和挑战。图1-2活动/项目因果结构评估问题在因果推理领域,有很多方法可以帮助我们解决上述分析中的困难和挑战,这些方法大致可以分为分为两类:(1)完全消除混杂因素的方法,如差异中的差异(DifferenceinDifference)、工具变量(InstrumentalVariable)和断点回归等,但这些方法的应用需要满足严格的要求.额外的假设,在工业应用中较少;(2)控制混杂因素的方法,如倾向得分匹配PSM、逆倾向得分加权法(IPTW)、Lookalike算法、合成控制等,这些方法都是通过调整样本来减少样本不平衡的情况混杂因素,可以达到控制混杂因素影响的目的,但不能完全消除变量之间的内生性。对于不能用随机实验评价的活动/项目,基于数据的可用性和方法的易操作性,本文最终在因果推理中采用通过调整观测样本来模拟随机实验的方法——倾向得分匹配(倾向得分匹配)。ScoreMatching,PSM),控制同时影响用户参与活动和下单的混杂因素,从而完成评价活动/物品价值增量的任务。2.倾向得分匹配(PSM)的基本原理倾向得分匹配是通过倾向得分匹配控制组和实验组的观察样本来控制和调整混杂因素的一种方法。倾向得分最早由Rosenbaum和Rubin于1983年提出[1],其定义如下:即在给定混杂因素的情况下,样本进入实验组的倾向。其中,T为实验组/对照组的识别变量。当T=1时代表实验组,T=0代表对照组;X是一组混杂因素变量。Rosenbaum和Rubin在论文中证明了在给定倾向得分的条件下,混杂因素与样本是否参与实验变量是条件独立的。该性质表明,通过匹配观察样本的倾向得分,将控制组和控制组中倾向得分相似的实验User进行匹配,从而可以得到控制组和实验组中混杂因素的分布平衡,从而达到控制混杂因素的目的。2.1倾向得分估计倾向得分匹配的第一步是估计观察样本(用户)的倾向得分。其实这里的估计目标就是我们熟悉的监督分类学习任务。其实就是根据观察到的样本拟合一个分类模型,得到P(T=1|X=x)。理论上,这里可以使用常见的分类模型,如支持向量机SVM、逻辑回归LR、树模型等,但一般来说,根据奥卡姆剃刀原理,简单实现就可以解决LR预测问题倾向得分。2.2匹配得到每个观察样本的倾向得分后,下一步就是匹配倾向得分相近的用户(如图2-1所示)。完成这个匹配步骤的方法有很多种,常见的有以下几种:(1)设置阈值,当两个用户的倾向得分之间的距离小于或等于阈值时,认为它们是相似匹配;(2)K个近邻,选择倾向得分最接近的K个样本作为紧密匹配;(3)K近邻+阈值设置,选择倾向得分距离最近的K个样本,倾向得分差必须小于或等于阈值才能认为是相似匹配。在实际应用中选择哪种方法取决于哪种方法能够在混杂变量上平衡实验组和对照组。值得注意的是,PSM方法看似简单,但在使用时需要满足以下三个假设:(1)可忽略性(Ignorability),当可观察的混杂变量得到控制时,不可观察的混杂变量对结果的影响可微不足道;(2)个体处理稳定性假设(SUTVA),样本个体不受其他个体影响,即样本独立性假设;(3)共同支持假设(CommonSupport),在观察样本中,实验组和对照组之间的关系为存在具有相似混合特征的人群,即0