当前位置: 首页 > 科技观察

主搜与店铺搜索联合优化的初步探索与尝试

时间:2023-03-14 10:29:55 科技观察

背景与介绍淘宝平台上有很多子场景,比如搜索、推荐、广告等。每个子场景都有很多细分。例如,搜索包括默认排序、店内搜索、门店搜索等;推荐包括猜你喜欢什么、今日推荐、每日好店等。数据驱动的机器学习和优化技术目前在这些场景中被广泛应用,并取得了不错的效果——在单一场景的A/B测试中,点击-通过率、转化率、成交额、客单价都可以做到。看到显着的改善。但是,目前每个场景都是完全独立优化的,这会带来几个比较严重的问题:a.用户在淘宝购物时经常会在多个场景之间切换,例如:从主搜索到猜你喜欢什么,从猜你喜欢什么到店内。不同场景下的商品排序只考虑自身,会导致用户的购物体验不连贯或雷同。例如:从冰箱详情页进入店铺,却显示手机;每个场景显示相同,并且包含太多U2I(点击或销售的产品)。b.多个场景之间存在博弈(竞争)关系。不保证每个场景的改善都会带来整体的改善。很有可能一个场景的提升会导致其他场景的下滑,更可怕的是,某个场景带来的提升甚至比其他场景更大的下滑还要小。这也不是不可以,所以这种情况下,单一场景的A/B测试意义不大,单一场景的优化也会出现明显的问题。因为这一点特别重要,所以我们举一个更简单易懂的例子,如下图所示。1000米长的沙滩上有A、B两个饮料摊位。沙滩上游客很多,均匀分布,一般都会找比较近的饮料摊买饮料。一开始,A和B分别位于距海滩250米和750米处。这时候海滩左边的人会去A买,右边的人会去B买。然后A发现自己向右移动时,用户会更多(A/B测试的结论),于是A向右移动,B也向左移动。A和B分别‘优化’,城市将在海滩中间。从博弈论的角度来看,它已经达到了一个均衡点。但是***‘优化’得到的位置并没有一开始的位置好,因为很多游客会因为距离太远而放弃购买饮料。在这种情况下,两个饮料摊位的优化结果不如没有优化的结果。多场景问题其实不仅仅存在于淘宝上。目前比较大的平台或者无线APP的场景都不止一个。即使不谈雅虎、新浪等综合性网站,对于百度、谷歌等功能相对单一、集中的应用,也会有几种场景(如网页、咨询、地图等)。那么这些平台或者应用都会面临类似的问题。综上所述,无论是从淘宝平台的应用还是从科学研究的角度,研究大型在线平台上多个子场景的联合优化都具有重要意义。为了解决上述问题,本文提出了一种多场景联合排序算法来提高整体指标。我们将多场景排序问题视为一个完全合作的、部分可观察的多智能体顺序决策问题,并使用多智能体强化学习的方法尝试对该问题进行建模。该模型将每个场景作为代理,使得每个场景中的不同排序策略具有相同的目标,一个场景中的排序结果会考虑用户在其他场景中的行为和反馈。这样,各个场景的排序策略就从各自为政转变为合作共赢。由于我们要利用用户在所有场景下的行为,而DRQN中的RNN网络可以记住历史信息,并利用DPG探索连续状态和连续动作空间,所以我们的算法命名为MA-RDPG(Multi-AgentRecurrent确定性策略梯度)。系统概述传统单场景优化目前,单场景排序策略的总体结构如下。每个商品都由一组特征表示,排序策略通过给定一组特征权重来决定排名,因此商品的得分是各个特征的加权和。主搜索和店内搜索都有各自的排序策略,独立优化,互不影响。多场景联合优化目前,单场景排序策略的总体结构如下。每个商品都由一组特征表示,排序策略通过给定一组特征权重来决定排序结果。分数是每个特征的加权和。主搜索和店内搜索都有各自的排序策略,独立优化,互不影响。具体方法及应用请点击查看