当前位置: 首页 > 科技观察

第一次介绍!Partiallyobservablereinforcementlearningwithcausalinference

时间:2023-03-19 16:11:07 科技观察

这篇文章《Fast Counterfactual Inference for History-Based Reinforcement Learning》提出了一种快速的因果推理算法,大大降低了因果推理的计算复杂度——达到可以与在线强化学习相结合的程度。本文的理论贡献主要有两个:1.提出了时间平均因果效应的概念;2.将众所周知的后门准则从单变量干预效果估计扩展到多变量干预效果估计,称为步进后门准则。背景需要准备关于部分可观察强化学习和因果推理的基础知识。这里不做过多介绍,给几个传送门:PartiallyObservableReinforcementLearning:POMDPExplanationhttps://www.zhihu.com/zvideo/1326278888684187648CausalReasoning:CausalReasoninginDeepNeuralNetworkshttps://zhuanlan.zhihu.com/p/425331915Motivation从历史信息中提取/编码特征是解决部分可观察强化学习的基本手段。主流的方法是使用序列到序列(seq2seq)模型对历史进行编码。比如领域内比较流行的LSTM/GRU/NTM/Transformer的强化学习方法就属于这一类。这类方法的共同点是根据历史信息与学习信号(环境奖励)之间的相关性对历史进行编码,即历史信息的相关性越大,分配的权重就越高。然而,这些方法不能消除采样引起的混杂相关性。举个拿起钥匙开门的例子,如下图所示:这里的agent能否开门只取决于历史上是否拿到过钥匙,与历史上的其他状态无关。但是,如果代理的采样策略偏向某些路径,则会导致这些首选路径上的状态高度相关。比如agent拿到钥匙后,倾向于开门(上面的方式)而不是去开门(下面的方式),这就会使得开门与电视高度相关。这种非因果但高度相关的状态会被seq2seq赋予比较高的权重,使得编码后的历史信息非常冗余。在这个例子中,当我们估计电视和开门之间的相关性时,由于钥匙的存在,两者产生了令人困惑的高相关性。为了估计电视对开门的真实影响,有必要消除这种混杂的相关性。这种混杂相关性可以通过因果推理[1]中的一个do-calculus去除:将可能造成混淆的后门变量key和ball分开,从而切断后门变量(key/ball)和电视机之间的统计相关性,然后p(Open|,key/ball)的条件概率对后门变量(key/ball)进行积分(图1右图),得到真实效果p(Open|do())=0.5。由于具有因果效应的历史状态相对稀疏,当我们去除混杂相关性时,历史状态的规模可以大大缩小。因此,我们希望利用因果推理去除历史样本中的混杂相关性,然后利用seq2seq对历史进行编码,得到更紧凑的历史表征。(这篇文章的动机)[1]注:这里考虑后门调整的do-calculus,一个科普链接https://blog.csdn.net/qq_31063727/article/details/118672598很难进行因果运算历史序列的推理,不同于一般的因果推理问题。历史序列中的变量既有时间维度也有空间维度,即观察-时间组合,其中o是观察,t是时间戳(相比之下,MDP很友好,马尔可夫状态只有空间维度).两个维度的重叠使得历史观测的规模相当大——用每个时间戳的观测值个数,用T表示总时间长度,那么历史状态值有多种(其中正体O(·)为复杂度符号)。[2]以往的因果推理方法都是基于单变量干预检测,一次只能做一个变量。对大规模历史状态进行因果推理会导致时间复杂度极高,难以与在线强化学习算法相结合。[2]注:单变量干预因果效应的正式定义如下。如上图所示,给定历史,估计对转移变量的因果效应,做以下两步:1)干预历史状态做,2)以前的历史状态是后门变量和响应变量。计算以下积分作为所需的因果效应。由于很难将单变量干预检测与在线强化学习相结合,因此有必要开发一种多变量干预检测方法。想法本文的中心观察(假设)是因果状态在空间维度上是稀疏的。这种观察是自然而普遍的。比如用钥匙开门,过程中会观察到很多状态,但是钥匙的观察值决定了门能否打开。该观测值占所有观测值的比例很小。利用这种稀疏性,我们可以通过多变量干预一次性筛选出大量没有因果关系的历史状态。但时间维度上的因果效应并不稀疏。也是一把开门的钥匙,钥匙大部分时间都可以被特工观察到。因果效应在时间维度上的密集性使得我们无法进行多变量干预——不可能一次性去除大量没有因果效应的历史状态。基于以上两个观察,我们的核心思想是先在空间维度推理,再在时间维度推理。利用空间维度上的稀疏性,大大减少干预次数。为了分别估计空间因果效应,我们建议先求出时间平均因果效应,即对多个历史状态随时间的因果效应进行平均(具体定义见原文)。基于这个思路,我们关注的问题是:要解决的核心问题是如何计算在不同时间步具有相同值的干预变量(记为)的联合因果效应。这是因为后门准则不适用于多个历史变量的联合干预:如下图所示,考虑联合干预双变量求和,可以看出时间步长后面的一些后门变量被包括在内,并且没有共同的后门变量。方法改进后门准则,提出适用于多变量联合干预效果估计的准则。对于任意两个要干预的变量和(i