当前位置: 首页 > 科技观察

孙轩:转身如何构建AI工程架构体系

时间:2023-03-17 10:30:26 科技观察

[.com原稿]2018年5月18-19日,由座谈会主办的全球软件与运维技术峰会在北京召开。峰会围绕人工智能、大数据、物联网、区块链等12个核心热点,汇聚了60位海内外一线专家。错过平台。在“容器下的AIOps”分会场,转转资深架构师/架构算法部负责人孙轩以《转转如何打造AI工程架构体系》为主题进行了精彩的演讲。演讲的核心内容涉及转转AI工程系统中推荐和搜索架构的演进、召回和排序算法。基于微服务架构的转转二手交易平台“一个帮你赚钱的网站”是转转二手交易平台的定位,主要解决从买卖到买卖的问题。在共享经济的情况下,大家可以通过二手交易平台出售自己闲置的手机、电脑等物品,赚取一些零花钱。转转二手交易平台整体架构设计采用微服务架构,于2015年11月12日发布。图1整体微服务架构图如图1所示,可以直观的看出整个架构从左到右垂直分割,从上到下水平分层。该架构还包括网关、业务逻辑层、数据访问层、数据存储层、注册中心和配置中心等部分。基于转转整体的微服务架构,孙轩还详细阐述了推荐和搜索两种架构的演进。推荐架构的演进转转二手交易平台的推荐场景分为用户和商品两个维度。进入首页后,“查看推荐和附近购物”两个版块和点击类目后看到的“为你推荐”版块属于用户维度。“同类商品”推荐栏目属于商品维度。图2用户维度和产品维度场景推荐这些推荐场景背后的技术架构是如何构建的?接下来,我们来看看转转二手交易平台推荐架构的演进过程。转转二手交易平台推荐框架的演变可以分为三个阶段:“石器时代”、“铁器时代”和“工业革命时代”。石器时代推荐架构最初0到1的过程称为石器时代,如图3所示。图3“石器时代”架构图当“石器时代”的所有用户进入首页时,会看到同样的推荐内容。用户请求通过转APP统一网关连接到推荐业务逻辑层,进行一系列操作:如参数校验、搜索请求参数组装等,最后接入搜索引擎。搜索引擎进行召回排序,将结果返回给推荐业务逻辑层,业务逻辑层对结果进行过滤、去重、打散,将返回结果渲染给APP客户端。总结一下,“石器时代”的特点包括全局推荐、无个性化、召回源单一、基于人工规则排序、不支持在线ABTest。铁器时代“铁器时代”首先要解决的问题是个性化推荐,如图4,该阶段的架构图。图4《铁器时代》架构图《铁器时代》整个架构最大的变化是推荐排序层和召回层的物理分离。在召回层面,《铁器时代》做了很多与个性化推荐相关的事情,比如计算用户产品特征、计算产品相似度、实时用户画像等。总结一下,《石器时代》的特点是,第一引入了个性化召回源,第二记录了推荐源的谱系,第三反馈了用户的行为过程,第四支持ABTest分组实验。经历了工业革命时代的两个时代,推荐系统的排序结果依然不理想,主要是排序层只进行层次排序,并没有对多个召回源进行融合排序。“工业革命时代”的核心是实时+机器学习驱动。图5“工业革命时代”架构图如图5所示,“工业革命时代”推荐排名层发生了重大变化,引入了统一的机器学习排名模型。如果要引入机器学习排序模型进行排序,需要一些基础设施支持,所以《工业革命时代》增加了推荐统一召回服务层,涉及统一召回服务和统一特征服务。“工业革命时代”的推荐框架实现了特征和模型的实时化,秒级捕捉用户产品的变化,进而有针对性地推荐产品,从而提高转化率。此外,内部架构组件化,可定制DSL,灵活编排组件。未来,推荐架构将全面流线化(如图6所示),一键完成模型训练和模型上线,实现复杂模型的持续集成和快速迭代,从而大幅提升生产效率。图6转转推荐架构流水图搜索架构演进转转二手交易平台的搜索场景分为类目搜索和关键词搜索,如图7所示。图7分类搜索和关键词搜索在转转二手交易平台中,搜索架构的演进分为三个阶段:规则化、机器学习模型化和平台化。规则阶段搜索架构的最后阶段是手动规则排序,如图8所示的规则阶段架构图。图8RuleStage架构图RuleStage由搜索逻辑层处理请求参数,搜索访问代理层解析参数后访问搜索集群。搜索集群承担召回和排序两个阶段。在规则阶段,所有的召回和排序规则都是人工确定的,参数调整权是主观的,不支持在线ABTest。最终的网上搜索效果无法有效评估。机器学习模型阶段在这些阶段中,搜索架构主要引入了机器学习模型。图9显示了机器学习模型的阶段架构图。图9模型阶段架构图模型阶段最重要的特征是机器学习。不仅在召回过程中使用了机器学习模型,在排序阶段也大量使用了机器学习模型。简单的模型用于粗排序,复杂的机器学习模型用于细排序。该阶段还实现了Query预分析、ABTest分组实验和用户行为数据反馈。在平台化阶段,搜索通常是一个中台的角色,很多业务线都会用到搜索功能,所以搜索架构一定要平台化,如图10所示,是平台化阶段的架构图。图10平台化阶段架构图平台化阶段最大的变化是queryrewriting、recall、prediction、ABTest等面向服务的功能。未来搜索架构致力于成为大中型平台,通过云搜索引擎实现一键访问服务(图11)。图11转转云搜索引擎算法演进架构图在孙轩看来,该算法无论是推荐还是搜索场景,都是为了解决召回和排序两大问题。召回算法的演进可分为非个性化召回、基于兴趣的召回、基于项目的协同过滤(Item-BasedCF)和基于用户的协同过滤(User-BasedCF)。排序算法的演进可分为人工规则、逻辑回归模型、GBDT+LR、Deep&Wide和FTRL。该算法的未来发展将是实时的和基于模型的。从实时的角度来说,就是针对特征的获取和模型的变化。在建模方面,针对召回层和排序层模型的复杂性。未来的模型越复杂,给工程架构带来的挑战就越大。电商AI系统的未来对于电商AI系统未来应该如何演化,孙轩表示,本质是解决商品的匹配(召回问题)和分拣问题(见图12)。在排序方面,sortedset比较少,架构挑战不大。在匹配方面涉及到大量的商品候选集,架构挑战比较大。图12电商AI系统架构图图13电商AI系统质量提升架构图图14电商AI系统规模化架构图如何解决商品匹配问题?孙轩表示,我们从两个方面入手:一是提高质量(如图13所示),通过在召回层应用更复杂的深度学习模型来提高产品召回的准确率;二是扩大数量(如图14所示),扩大匹配商品候选集,尽可能匹配接近全量的商品数据。以上内容根据孙璇在WOT2018全球软件与运维技术峰会上的演讲整理而成。更多WOT资讯请关注51cto.com。【原创稿件,合作网站转载请注明原作者和出处为.com】