当前位置: 首页 > 网络应用技术

为了练习和应用游戏的个性化价值,原因和效果

时间:2023-03-08 17:06:43 网络应用技术

  在游戏方案中,通常有多种游戏数字设计。由于不同用户在偏好和游戏体验上有差异,因此相同的值并不适用于所有用户。为了允许用户具有更好的游戏体验,我们可以根据算法来个性化用户,从而改善用户在游戏中的持续时间和保留率,从而使用户具有更好的游戏体验。

  传统的监督学习方法着重于响应结果y的估计,我们的场景更关心变量变化对结果的影响。在行业中,这些问题通常在因果阶层的框架下讨论。我们通常将变量t(处理)称为变量,并且变化变化将结果y的变化带到t(治疗效果)。估计TE模型称为因果模型。

  目前,行业中最常用的因果模型包括元学习者,DML,因果森林等,但是尚未全面比较不同因果模型的优点和缺点以及不同因果模型的实际表现。因此,在我们的场景中,我们已经对这些问题进行了详细的探索。

  本文将比较和分析来自两个方面的不同因果模型的优势和缺点:理论和实践。我希望在处理以下处理中的类似问题时为每个人提供灵感和帮助。

  元学习者是主流因果建模方法之一。该方法是使用基本的机器学习模型来估计不同治疗的条件平均治疗效果(CATE)。常见方法是S-Stearner,T-Learner.Meta-Learner的想法相对简单。本质上,他们使用基础学习者在不同的治疗组中学习Y的Y,然后减少TE。区别在于,在S-Learner中,所有治疗的数据都在模型中训练,并且通常用作模型输入功能。T-Learner训练每个治疗组的模型。

  2.2双机器学习

  在元学习者中,中间变量的预测误差导致我们出生于隆起估计中。为了解决此问题,DML引入了残余,交叉拟合和其他订阅方法的方法,并最终获得了不公正的估算。。

  DML的核心思想是通过拟合残差来消除中间变量的偏差的影响。该论文确认错误的收敛速度比N^(-1/4)更快,从而确保最终估计结果的收敛性。下图显示了不使用DML,使用DML但不使用交叉拟合的效果,使用DML-CROSS拟合:比较:

  GRF是一种广泛的随机森林算法。传统的随机森林算法之间的区别在于,进行分裂时,传统的随机森林算法分为最大的损失方向。方法可以最大程度地提高两个子节点对干预效果的差异。需要建造多棵树。每当您建造一棵树的时间,您还需要随机取样而不返回。一半的提取样品用于构建一棵树,一半用于评估。

  GRF算法继续DML的想法。在第一阶段,使用任何机器模型适合残差。在第二阶段,GRF算法引入了评分函数ψ(OI),目标函数θ(x)和辅助函数v(x)。分数函数的计算公式为:

  很容易看到得分函数ψ(OI)实际上是残差,这是由公式y =θ(x)t + v(x)获得的。该算法试图满足部分估计的θ(x):对于所有X,满意:

  实际上,它本质上是学习θ(x),因此实验组和对照组数据的估计结果是最小的。

  因果关系模型有两种常见的评估方法:提升箱和隆重曲线

  训练组和对照组的训练集数据将被预测获得两组人的隆升分数。根据隆升分数的顺序,拦截TOP10%,TOP20%....最高的1100%用户,计算每个点两组两组的两组的得分的差异。不同的模型不好。

  根据隆福箱,我们可以绘制一条曲线,以类似于AUC的方式评估模型的性能。该曲线称为隆较曲线。当计算前一天之前的样品增加时,获取相应的隆重曲线。

  计算公式是:

  其中,y_t^t表示先前T样品的先前样品增量数量。当转换实验组的样品时,当实验组的总量相同时,N_T^t表示实验组样品的总量。

  如上图所示,蓝线代表隆起曲线的效果,实际黑线代表随机的效果。两者之间的面积用作模型的评估指标。区域越大,模型的效果越好,比随机选择的结果越好。与AUC相似,我们称此指标AUUC(在抬高曲线下的区域)。

  因果建模对样本有很高的要求,并且需要样本遵守中央情报局的独立假设(有条件的独立辅助),也就是说,样本特征x和t彼此独立。样品收集需要随机实验。通常,用户将用户随机分配给不同的治疗方法,以在不同的处理下观察用户的性能。

  常规机器学习的样本结构和样本结构基本相同,但是您需要特别注意以下方面:

  功能关联:用户特征X必须严格使用随机实验组之前的特征,例如:用户进入实验组,然后用户的特征必须使用T-1 Day和以前的功能。其原因是在用户之后进入治疗,某些特征可能受到治疗的影响。模型训练效果特征的使用有机会导致信息泄漏。

  客观选择:在某些情况下,治疗的效果需要一段时间才能起作用。例如,调整有关用户保留的道具的数量可能需要一段时间来反映它。因此,选择目标时,您可以选择一个更长的周期目标。例如,与第二天相比,选择7天保留或14天保留的选择会更好。增加的模型,效果减少。在小样本的场景中,这种情况更为突出。选择合适的目标可以在很大程度上改善模型的在线性能。

  在我们的情况下,用户完成该任务的道具的数量是治疗,用户保留和用户的主动持续时间变化为我们所关心的提升。在实验中,我们比较了S-Learner,T-Learner和DML的效果。这三个模型选择的基础学习者是LightGBM。

  在实验过程中,我们发现,当使用S-arearner对活动时间建模时,无论如何调试模型,治疗效果为0,即在不同处理下用户活动持续时间的主动预测结果。我们用T-Learner或DML替换模型,处理效果数据返回正常。输出S-Learner的特征,我们发现重要的治疗特征是0.我们分析不同处理下用户的活动数据,并发现不同组的主动数据很小,也就是说,不同处理下的用户的主动变化很小。

  S-Learner对这种微弱的变化具有低敏感性,因此效果不好。当T-Learner进行训练时,它将每次训练模型,这相当于增加治疗特性的特征,并且DML主要聚焦在培训过程中训练训练。因此,模型的这两个分类效应比S-learner更好。当数据弹性不足时,这也反映了S-Learner的效果缺陷。因此,在随后的培训中,我们放弃了S-Learner,主要关注T-Learner和DML。

  在随后对不同指标的离线评估中,DML模型的效果明显优于T-Learner。这也证实了该理论:由于引入了中间变量和DML,将T-Learner引入了最终提升的估计中。最后,通过拟合残余差异来实现不公正的估计。

  根据培训效果,我们选择了DML作为最终估计模型,并在不同处理下获得了用户的提升价值。我们将分配用户根据不同处理下的用户的提升价值分配的用户。分销方案主要分为基于实际情况的两种类型:在约束和人群分配条件下,人群的分布在约束条件下。

  在我们的业务情况下,我们还限制了用户保留,积极持续时间和流水的目标的限制。因此,我们在限制下进行了人群分配解决方案。

  根据训练有素的DML模型和约束分布的结果,我们开始了在线A/B实验。与基准策略相比,测试了数周后,我们的策略在指标的情况下获得了10%+保留收入在目前,我们基于因果模型的策略已经完全启动了,例如流动和主动。

  目前正在实践和应用因果模型,并在主要的互联网场景中应用,并获得了良好的好处。随着越来越多的营销活动,营销方法变得越来越复杂,治疗方面逐渐从普通的多重治疗转变为连续治疗,对样本和模型学习能力的处理变得越来越近。

  原始:https://juejin.cn/post/709854833123207176