当前位置: 首页 > 科技观察

电商搜索算法技术演进

时间:2023-03-20 15:24:10 科技观察

2018年9月28日,阿里巴巴电商搜索事业部迎来了一场以“搜索·推荐未来”为主题的技术峰会。搜索和推荐算法经过多年发展,从最初的简单统计模型、机器学习,到形成完整的离线、在线、实时的深度学习和智能决策系统,每年都有新的算法突破,助力搜索和推荐的体验和效果得到显着提升,成为驱动电子商务业务创新发展的新引擎。站在今天总结过去算法的演进,同时展望未来电商搜索和推荐算法的发展,期待实现真正的认知智能,从机器智能到结合人类智能,实现全新的交互搜索和推荐的经验。今天,我们请清风先生带大家回顾一下搜索算法技术的发展历程。一、淘宝搜索的一些特点淘宝拥有数十亿种商品,链接上千个叶子类目,上百个一级类目,十几个行业。如何让用户找到符合其意图的商品,是淘宝搜索需要解决的首要问题。淘宝搜索在大的结构或流程上与传统搜索引擎有很多相似之处。包括对数据进行排序、分析和索引建立索引库,如何根据用户输入的关键词在索引倒排列表中进行搜索,完成产品与搜索相关性的评估,排序输出结果,以及实现某种用户相关性反馈机制等。当然,作为电商产品搜索,其天然的商业属性带来更多的是自身独有的技术特性。从数据更新来看,淘宝的数据变化更新非常快。每天都有大量的新产品数据上传到网站。上传新产品后,需要搜索该产品。与网络搜索不同,任何人都可以发布新网页,但是否被搜索引擎收录则是另一回事。同时,大量的商品每天都在淘宝上不断更新,包括商品标题描述的变化、商品价格的变化、商品图片的更新、商品下架等,这些变化也需要实时更新时间在搜索。为了让用户及时找到更新的产品信息。在整个网络搜索中,很多网页是静态的,网页之间的关系也在缓慢变化。大量索引的更新没有像淘宝搜索那样的实时性要求。从搜索数据来源来看,淘宝商品图片在用户研究和购买过程中占有重要地位,搜索结果中有很大一部分被图片占据。如何更有效地利用图片信息,无论是基于图片进行搜索,还是考虑图片的质量、图片与文字的关系等等,都是淘宝搜索需要考虑和应对的和。另一个功能是完整链接功能。搜索、比较和购买都发生在淘宝上。与一般的搜索引擎不同,用户搜索后跳转至其他网站。很难获取搜索前后的用户行为数据。在淘宝搜索中,用户搜索后,会点击其中的一些商品,然后比较这些商品,与卖家沟通,然后下单购买,或者返回继续搜索。搜索前、搜索中和搜索后的数据和信息有很大的不同。丰富的全链路用户行为数据可以帮助我们设计更好的搜索排名算法。***更重要的是,淘宝是一个生态系统。搜索排名算法的设计不仅体现了搜索本身的技术追求,还包含了更多的商业诉求。在全网搜索中,一个普通的网页是否被收录,收录后能否显示,对于网页拥有者来说并不是一个关系到生活的决策点。淘宝上就完全不一样了。许多商家依靠淘宝来解决民生和就业问题。网店的流量和交易关系到很多人的生活。在淘宝搜索的算法设计中,不仅要考虑用户的搜索体验,还要考虑业务规则,保证公平性和流量分散性。很多搜索算法原理、规则或者算法结果都会被宣传给卖家,引导卖家向更好的方向发展。2、搜索算法技术演进淘宝搜索作为淘宝海量消费者与平台的交互行为,是平台上大量商家开展商业活动的主要载体,是大数据智能化应用的最佳场景。数据;淘宝搜索算法在多年的发展过程中,依托工程架构体系的逐步完善,逐步实现了从简单的人工操作加简单的算法规则到形成完整的线下、线上、实时深度学习与智能决策系统,成为阿里电商平台的流量分发平台。有了业务驱动的智能枢纽,总结搜索算法技术的迭代进程大致可以分为以下四个阶段:2.1检索时代该阶段对应业务,搜索排序主要围绕规则和轮播进行。现阶段,数据量和用户量仍处于可控水平。具有领域知识的专业运营和产品往往充当信息展示规则的制定者,根据主观判断和市场敏锐度制定查询词背后的产品展示逻辑。当然,这个阶段的搜索也会使用一些基本的算法逻辑来保证信息匹配的正确性和人货匹配的公平性。销售人气模式是否能保证被消费者接受的产品获得更多的展示机会。但总的来说,仍然是根据人为的规则,综合各种相关因素来获得最好的排名。“人为规则”的优点是易于理解和操纵,但缺点不言而喻。随着平台规模的扩大,简单的规则无法准确表达人货匹配效率,容易被一些不法商家利用,扰乱市场。命令;2.2大规模机器学习时代随着平台规模的扩大,大规模商户入驻,主动管理平台上的店铺,发布产品,相对结构化的商品组织体系、品类结构、属性信息,基于商品的关键销售和评论的积累为更好地了解产品积累了重要的原始数据;消费者通过搜索各级产品页面与平台的互动越来越频繁;数据的组织形成了一个人为的关键结构体系,反馈信号也可以在闭环系统中有效循环;这些都为了解用户积累了重要的数据。有效数据的积累为大规模应用机器学习技术解决问题提供了必要的土壤。搜索也进入了各种大规模模型的研发,如点击预测模型等,研究数据特征规模大、特征复杂度高、数据时效性高、模型训练频繁等问题。分析和挖掘数百万甚至数十亿级超大规模数据的处理能力。这时候参与排序的因素越来越多,从品类相关性和文本相关性开始,商品人气分;然后为了平衡卖家流量,增加卖家积分;后来为了更好的用户体验,加入了个性化人物和产品点击预测、图片质量等因素,开始使用学习排名(LTR)的方法,根据产品点击和交易数据构建学习样本,并学习回归排序权重。2.3大规模实时在线学习时代首先,与一般搜索相比,电商搜索对实时计算/学习的要求更高,用户将拥有更丰富的多维交互和更长的浏览链接。因此,如果用户在链接前期的行为能够被系统实时捕捉到并建模到引擎中并作用于链接后期,对整个链接的效率和效率将极为关键。用户体验。其次,用户行为的分布不是一成不变的,打破了离线训练的监督学习算法所依赖的独立同分布假设。尤其是在双11这样的大促场景中,一天的流量相当于每天的流量,分布发生变化。会更激烈。***,由于产品的搜索和展示有限,能进入日志系统获取用户反馈的产品合集只占完整产品合集的一部分,所以线下培训和线上会存在不一致的情况训练。这种不一致可以通过在线学习在一定程度上得到系统缓解。为此,我们构建了实时计算和在线学习系统,支持秒级实时分析处理海量用户行为和关联的海量商品,提取多维用户/商品数据特征,采用分布式ParameterServer架构进行在线学习。学习,使用户行为可以在几秒钟内影响在线服务,例如搜索排名。我们逐步实现了“实时特征”->“实时排名因子模型”->“实时顶层LTR/Bandit模型”,完成了三位一体的实时构建。我们先后实现了秒级更新的pointwise-basedFTRL、实时pairwise矩阵分解模型、实时双线性模型等一系列微观特征,并在此基础上实现real-timeLearningtorank和real-timeMulti-Bandit等武装宏控机型实现了双链路实时系统的升级。同时,在线学习系统有力支持流量精准调控,使业务决策更加快速有效。此外,我们还对在线学习的算法部分进行了抽象,建立了通用的一站式在线机器学习算法平台AOP(AlgorithmOne-stopPlatform),使得在线学习模型的建立和部署更加便捷高效,并且具有高度可扩展性。至此,在线学习系统已经成为搜索架构的基本组成部分之一,在提升用户搜索体验、支持业务决策、支持双11等大促效果方面发挥了巨大作用。2.4时代深度学习与智能决策以深度学习和强化学习为代表的人工智能给搜索技术带来了全新的变革,尤其是在语义搜索、搜索个性化和智能决策三个方向。在语义搜索领域,我们设计并实现了Query的表示学习框架,通过多任务学习和协同训练技术,为Query的标注、类别预测、重写、推荐等一系列应用提供统一的表示向量.同时,我们还实现了产品表征学习框架,为产品内容理解、产品智能创意、产品语义召回和语义匹配提供统一的产品表征。基于query和product的表示框架,我们实现了语义召回和语义相似度模型,从而完成了从字面匹配到语义匹配的质变。此外,语义搜索除了增加搜索结果的相关性,提升用户体验外,还可以在一定程度上遏制淘宝商品标题被热门关键词填满的问题。在搜索个性化领域,我们通过多项技术对原有的个性化系统进行了升级:通过多任务学习的深度用户感知模型,从海量用户行为日志中学习用户的通用表达,可以用于针对用户行为的识别、偏好估计、个性化召回、个性化排序等任务;通过多模态融合学习,我们可以自动将产品的文本、图像、标签、品牌、类别、店铺、统计特征等多维特征融合在一起,形成统一的产品表征;通过在线深度排序学习,整合用户状态,实现更加精准的千人排序模型;通过向量召回引擎,我们得到了泛化更好的召回结果,有效提高了Keyword和个性化匹配深度;通过深度迁移学习,我们将搜索个性化技术广泛应用于搜索以外的多个场景。随着这些深度模型在个性化领域的广泛使用,个性化系统的准确性得到了显着提高。在智能决策领域,我们根据搜索过程中用户与引擎的交互,对用户的决策序列进行建模,提出搜索会话马尔可夫决策过程模型,引导强化学习进行搜索排行。同时,为了解决不同场景下搜索结果收敛和曝光浪费的问题,我们提出了一种基于多智能体的协同学习,实现环境感知、场景交流、个体决策和联合学习。多个异构场景,实现共同利益***变化无常,潮起潮落。经过“检索时代->大规模机器学习时代->大规模实时在线学习时代->深度学习与智能决策时代”四个历史阶段的努力和积累,我们逐渐形成今天的搜索算法排名系统(如下图)。3、未来发展:认知智能的探索如上图所示,经过多年的发展,搜索和推荐作为阿里电商的两大天然流量入口,已经AllinAI,形成了对用户偏好的完整在线学习,流量的细粒度匹配,以及基于强化学习等智能决策能力的购物决策系统。但在这个过程中,大部分通过搜索、排序或推荐学习到的知识,都是通过已有的商品标签数据和用户行为数据获得的。对产品和用户还缺乏更深入的了解,还不能完全了解用户。多重意图所表达的真实需求。例如,如果用户搜索“sexydress”,他们可能想查找“适合晚会的低胸晚礼服”或“适合海滩度假的露肩沙滩裙”;用户收藏了“登山鞋”和“拐杖”,可能对“登山装备”有需求,需要寻找更多与登山装备相关的产品;有孩子的父亲,暑假伊始,选择“转换关节”,查看“大英博物馆门票”,可能想带家人来一场“暑期英国亲子游”,需要寻找更多相关产品究其原因,目前人工智能技术,尤其是以深度学习为代表的模型,在现实应用中发展迅速,主要得益于海量大数据和大规模计算能力,通过数字化抽象和程式化学习对物理世界的认识,使得人工智能有很强的获取有限知识的能力,但是获取数据以外的知识却很困难,更不用说知识类比、迁移和推理了。机器的认知智能,比如自主学习和发现,甚至创造力是人工智能的更高层次。当然,通用人工智能还有很多工作要做,但在这个p过程中,如何将人类知识与机器智能相结合,实现初步的认知智能,让淘宝搜索和推荐具有智能体验,是我们目前正在探索的方向。要实现认知智能,首先需要对用户、商品、卖家等有更深入的了解,系统地建立电子商务领域的认知知识体系。下图是我们定义的电商-商品-市场的三维认知图谱,由用户、场景、品类(淘宝品类/虚拟品类)、商品四部分组成。这些不同类型的概念构建了一个异构图谱,实现了用户-场景-产品的关联,以及对数据各个维度的深度认知。图:由三维人-货-场组成的电商认知图谱示例。场景是产品关系的语义描述,是用户需求的概念表达,是连接用户和产品的桥梁。从商品的角度来看,场景可以理解为对商品关系的描述和语义解释。例如,属于“中秋送礼”场景的商品,具有中秋送礼属性。从用户端的角度来看,场景可以看作是对用户需求的概念描述,比如“户外烧烤”、“度假穿搭”等。因此,我们也可以说,场景是连接用户和用户的桥梁。产品。这些场景关系可以通过行为数据挖掘获得,也可以从行业或专家知识中输入。场景、类别和商品最终形成一个统一的场景图。有了这样的认知地图系统,再通过推理和计算识别用户的真实场景诉求,逐步实现搜索和推荐的认知智能。这就涉及到认知智能系统的另一个重要部分:基于认知图谱的在线图计算推理引擎。借助计算推理引擎,可以实现:当用户需求已经表达为行为时,识别用户需求场景,挖掘并满足用户更深层次的需求;扩大和激发用户需求的信息;同时,基于在线投放数据和用户反馈,优化场景挖掘和认知图谱构建,持续修改和发现场景,提升推理能力。认知图谱和在线图计算推理引擎的背后,一方面是我们已经积累和积累的一系列技术的深度应用,包括一些传统技术如知识表示存储和推理、信息检索等和自然语言处理;一方面,认知图谱可以与深度学习、强化学习等近年来取得突破的技术深度融合,如实体和关系的向量化表示(embedding),从离散中进行实体检索和关系推理。连续;认知图谱作为优化约束与现有的深度监督网络融合,领域知识更平滑地应用到模型中,而不是简单的规则生效;在知识推理过程中引入序列决策过程建模,利用强化学习减少搜索空间,加快推理过程等。借助认知地图和在线推理引擎,全球搜索推荐导购、智能交互、内容生成等各个领域都会发生各种微妙的化学反应,在认知应用过程中,根据用户对推理结果的认知反馈,系统不断迭代优化认知图谱和推理算法,从而提升认知计算能力。逐步构建具有自学习能力、推理能力和验证能力的综合电子商务认知智能系统。4.总结多年来搜索和推荐算法的发展都是围绕着商品与人的联系以及相应的业务需求,从最初简单的统计模型、机器学习到形成完整的线下线上和实时深度学习和智能决策系统。突破自我,让连接匹配的质量更高,连接的广度更广,同时通过机制设计促进整个业务和生态的健康发展,成为驱动整个新业务发展的引擎。站在今天,总结过去算法的演进,展望未来电商搜索和推荐算法的发展,期待如何将机器智能与人类智能相结合,实现真正的认知智能,实现新交互、新体验在搜索和推荐中。作者简介:青峰,搜索与推荐算法技术负责人,阿里巴巴研究员【本文为专栏作者《阿里巴巴官方技术》原创稿件,转载请联系原作者】点此阅读更多本文好文作者