当前位置: 首页 > 科技观察

淘宝:3万字深度解析强化学习在电商环境下的一些应用与研究

时间:2023-03-22 16:14:29 科技观察

背景随着搜索技术的不断发展,我们逐渐意识到监督学习算法在搜索场景中的局限性:在搜索中场景下,只有当前投放策略排名第一的产品才会获得曝光机会,从而形成监督学习的正负样本,而曝光的产品只占召回产品总数的一小部分,训练样本是受当前模型偏差的影响很大。监督学习的损失函数与业务关注的指标存在不一致。用户的搜索、点击、购买行为是一个连续的顺序决策过程。监督模型无法对这个过程进行建模,也无法优化长期累积奖励。.同时,强化学习的深度学习以及以雅达利游戏、围棋游戏为代表的应用在近几年取得了前所未有的发展,使我们开始关注这项古老而时尚的技术,并将其作为一项重要的技术开发路线,先后在多个业务和场景进行了强化学习建模,取得了一些初步成果,相关工作已经整理发布。同时我们也知道,目前强化学习算法的理论上限与业界的大规模噪声数据还有很大差距,需要更多的智慧来填补。基于强化学习的实时搜索排序规则淘宝的搜索引擎涉及到数亿种商品的毫秒级处理响应,淘宝的用户不仅数量庞大,而且具有丰富多样的行为特征和商品偏好。因此,如何针对不同特征的用户进行针对性排名,从而带动搜索引导交易的提升,是搜索引擎极具挑战性的问题。传统的LearningtoRank(LTR)方法主要是在商品维度进行学习,根据商品的点击和交易数据构建学习样本,返回排序权重。ContextualLTR方法虽然可以根据用户的上下文信息对不同的用户给出不同的排序结果,但是没有考虑到用户对物品的搜索是一个连续的过程。这个连续过程的不同阶段不是孤立的,而是密切相关的。也就是说,用户最终选择购买还是不够购买商品,并不是由某种排序决定的,而是一系列搜索排序的结果。本文接下来将详细介绍淘宝的具体解决方案。点击了解更多详情!为什么强化学习有用?——延迟奖励在搜索排名场景中的作用分析我们使用强化学习(ReinforcementLearning,RL)在搜索场景中做了很多尝试,比如:动态调整商品排序策略、控制个性化展示比例、控制价格T-变换等虽然从顺序决策的角度来看,RL在这些场景中的应用是合理的,但我们没有回答一些基本问题,例如:在搜索场景中使用RL与使用多臂老虎机之间的本质区别是什么?整体优化累积收益与独立优化每个决策步骤的即时收益之间有什么区别?每当同事提出这些问题时,我们总不能给出令人信服的答案。因为我们还没有思考一个重要的问题,那就是:在搜索场景的顺序决策过程中,任意一个决策点的决策与后续能够得到的结果之间的相关性有多大?从强化学习的角度来看,也就是后续的结果应该按多大比例发回,作为对之前决策的延迟激励。也就是说,我们需要弄清楚延迟反馈在搜索场景中的作用。本文将继续以搜索场景下调整商品排名策略为例来探讨这个问题。本文的其余部分组织如下:第2节回顾了搜索排名问题的建模。第三部分介绍了最近在线数据分析的结果。第四节形式化了搜索排名问题的定义。第五和第六部分分别进行理论分析和实验分析并得出结论。点击了解更多详情!基于强化学习分层流量调控,今天的淘宝已经成为一个规模经济体。因此,社会经济学所讨论的问题几乎都出现在我们这里。早期的淘宝,大多以效率优先的方式优化商品陈列方式,造成了消费者最初的刻板印象:低价爆款。这是当时某些历史局限的结果,但在很长一段时间内绝对不是我们愿意看到的。因为社会环境在变,人们的消费意识也在变。如果跟不上,甚至提前布局,就有可能被竞争对手追上,错失先机。所以,以我们这几年对品牌的管理,现在搜索“连衣裙”这样的词,三年前还是很普遍的,9元9包邮的产品已经很难找到了。这里的品牌、客户订单等因素是通过一系列计划经济手段进行干预的,类似于上面福利经济学第二定理中的禀赋分配,基于整体的观察和思考,很难而且不可能做到本地封闭系统(例如搜索排序优化器)。所以,越来越多的运营和产品同学,针对以上的思考,提出了很多层次的介入。这里的分层指的是商品/商户类型的划分,可以从不同的维度进行划分。例如,根据平台的重要性,将天猫商家分为A、B、C、D商家;根据品牌影响力,产品分为高端产品和普通产品;产品按价格分为高档、中档、低档等。早期的算法同学可能对这些关注不够。一个经典的方法是简单的加权,这通常会导致效率上的损失,所以大部分结果都是空的。但是我们仔细看这个问题,其实可以预料到亏损是不可避免的,因为一个纯市场竞争在当前的供求关系下会逐渐优化达到局部最优,所以一旦这个局部最优被一个a取了的时候大扰动破发,破发的那一刻肯定是效率的损失,但之后有机会到达比之前的稳定点更好的地方。点击了解更多详情!虚拟淘宝(联合研究项目)在部分场景(如围棋中的AlphaGo)应用了强化学习,策略探索的成本非常低。在电商场景下,策略探索的成本会比较昂贵。一项战略评估可能需要一天的时间,糟糕的战略往往会造成经济损失。这是强化学习在线应用中遇到的普遍问题,限制了强化学习在实际应用中的应用场景。针对这一问题,我们与强化学习领域的知名专家、南京大学机器学习与数据挖掘研究所于洋副教授进行了深度合作,并尝试通过构建“淘宝模拟器”环境的逆向建模。在服务端,策略探索的成本几乎是免费的,可以快速进行策略评估。而且,在这样的模拟器上,不仅可以离线尝试各种强化学习算法,还可以进行各种生态模拟实验,辅助战略决策。参会人员:阿里巴巴搜索事业部-AI技术与应用:胡玉静、詹玉森、潘春祥、大庆、曾安祥虚拟淘宝合伙人南京大学:史景成、陈世勇、于洋(副教授)这四篇文章,结合实际淘宝经验用近3万字深入剖析了强化学习在电商环境下的一些应用和研究!点击了解更多详情!