一家拥有超过7000万家门店、超过10亿件商品的微店如何构建AI系统？

时间：2023-03-21 10:59:42 科技观察

【.com原创文章】AI技术对于电商来说非常重要，但是AI实践的门槛很高，尤其是对于初创公司来说。那么电子商务初创公司如何构建人工智能系统呢？他们如何利用人工智能解决实际问题？2018年11月30日至12月1日，由WOT主办的WOT全球人工智能技术峰会在北京JW万豪酒店举行。本次峰会的主题是人工智能。微点AI负责人夏健在行业赋能环节与嘉宾们分享了《微店AI实践》的主旨演讲。笔者将从以下三个方面与大家分享微店在AI方面的一些实践：消费者带来各种好玩、好吃、好用的产品。所以我们的定位是打造回头客的私人小店，卖家可以通过手机在我们的平台上开设各种微店。目前，微店平台上有超过7000万家店铺，超过10亿种商品。长期以来，我们通过“网络×平台”的商业模式驱动公司的成长。这里的“人脉”是指利用微信网络实现用户增长；“平台”是指我们通过会员俱乐部平台获得的收入。微店AI环境目前微店的简单AI环境如上图所示。我们来看看它的具体层次：最底层是日志采集（VLOG）、数据库同步（VTS/VSS）、外网爬虫（Spider）。这些中间件为我们提供了各种数据源。中间层是消息队列（Kafka）和微店消息队列（VdianMQ），提供实时数据。相应的，离线数据可以同步到HDFS。下一层是数据开发平台和算法平台。其中，数据开发平台主要服务于数据仓库和BI，算法平台主要提供各种算法，开发各种实时或离线的算法任务。在近线或实时环境中，我们主要使用SparkStreaming、Storm、Flink和Python。当然，我们目前正在计划将所有Storm相关的内容迁移到Flink。在离线计算中，我们使用Hive和Impala等查询引擎，可以被数据仓库和BI使用，以及可以运行Spark任务的集群。目前我们的大部分Spark任务都是用Scala写的，当然也有一些传统的MapReduce任务。顶层是数据中心。其中：GDS是微电的统一存储系统，封装了开源的Key-Value对存储、HBase、Redis（内存缓存）。ES提供数据服务。考虑到需要为部门提供VIO报表服务，我们让LIGO简单封装Impala查询引擎，实现离线或近线数据查询。微店AI探索案例我们对微店AI做了大量的探索工作，如上图所示，大致可以分为以下几个方面：业务端。包括：理解用户意图、关联建模、猜你喜欢推荐、预估点击率和转化率，以及广告优化等创意概念。图像类别。包括：提供内容服务、推荐服务、搜索排名服务、风控服务、图片搜索服务、语义标签抽取能力。此外，还涉及画质评分和文字识别能力。用户画像。包括：用户偏好分析、人群属性挖掘、位置服务（LBS，即获取用户手机位置信息）、基于用户的产品画像、用户生命周期管理。数据挖掘。包括：品类预测、结构化数据、SPU（StandardProductUnit，标准产品单元）的构建。自然语言处理(NLP)。包括：分词、实体识别、文本分类、词向量模型等。下面通过几个简单的案例来介绍一下微点对AI的探索。图像流计算对于图像流计算，我们经历了一系列的迭代过程。在初期，我们只是通过各种深度学习框架，使用Python和C++语言，在单GPU上进行了一些图像相关的计算。然后我们改进它使用GPU上的Hadoop集群进行批量计算。经过进一步研究，我们升级为基于两个大数据组件的近实时计算方案，即通过Kafka将各种任务串联起来，将结果或图片存储在Hbase中。具体过程是：收到图片处理请求后，我们会在Hbase中进行各种比对，或者进行简单的URL和Hash去重。一旦确定需要处理，就会将图片下载并添加到Kafka队列中，然后由算法模型进行预测。当然，这其实是一个多阶段迭代的过程。上一步的结果加入到某个Kafka队列中fadeaway后，会进行计算，然后加入到另一个Kafka队列中进行类似的处理。最后，系统会将计算出的结果存储在Hbase中。可见这是一个比较实用的结构。在当今移动电子商务时代，图片呈现的效果对消费者的购物决策有着巨大的影响。同时，我们对图片本身的性质控制也非常严格，不得出现任何违禁内容。因此，我们就此进行了如下探索。画质评分如前所述，我们支持卖家通过手机开微店。这样一来，在降低开店门槛的同时，也方便了用户随便拍照上传就可以创建产品。但是，这也带来了以下挑战：照片数据量巨大。我们的系统中有超过十亿项，并且每天都在以数百万甚至数千万的速度增加。图片质量各不相同。由于手机拍照的限制，各种照片的质量远不如淘宝、京东等强势运营的电商平台。因此，鉴于上述强烈的主观因素，我们很难手动设计图片的质量特性。所以，我们参考了行业内的通行做法：让大家打分，取平均值。传统的RankingSVM算法主要是对搜索结果进行排序，然后对文本的质量进行排序。因此，我们将这个思路借鉴到自己的模型端，然后对两张图片进行质量判断。我们的设计方案是：在前端使用一个SiameseCNN来训练高度抽象的特征，然后将特征“喂”给RankingSVM得到一个分数。这里的conjoinedCNN是由两个参数相同的channel组成的，这会把照片质量问题变成0/1分类问题。就效果而言，这里是LIVEIntheWildImageQualityChallengeDatabase上各种公共基准数据集的性能结果。可以看到我们的微点IQA得分最高。当然这里LIVEIntheWild的数据集也只是千量级而已。最近，谷歌提出了一种解决数十万数据分类问题的新方法。我们也在持续关注和研究。另一方面，在流式计算中，尤其是违禁品图像中，正负样本极度不平衡，成本效益比不佳。因此，为了兼顾高准确率和高召回率，我们在算法模型端采用了级联模型组合。具体方案是：首先，我们让所有的图片都经过一个轻量级的粗筛模型，筛掉几乎所有的违禁图片，或者我们需要寻找的那些特征。当然，粗筛模型的精度会比较低。然后，我们将之前的结果“喂”给后面的高精度模型，以保证准确性。值得一提的是，为了保证性价比，上述机型要做到轻量化。如果是“重度”，则只能应用于10%左右的图片。商品品类预测对于一个服务于PC端的综合性电商平台，商品品类预测是结构化信息的基础，非常重要和关键。这些类别具有不同的结构层次。例如，服饰产品可能有五到六级子类目，而手机产品的SKU非常有限。因此，这直接导致了商品数量分布的严重失衡。同样的，对于我们的手机微店来说，也会出现商品标题杂乱无章的现象。针对以上情况，我们对算法进行了3次迭代：Version1:Rules+NaiveBayesianstatisticsVersion2:使用传统的机器学习模型，即最大熵模型Version3:BiLSTM-Attention模型，这是我们当前版本的上图，也显示了三个版本的准确性。这里，我们指的是在100%召回的情况下达到的效果。如今，深度学习在自然语言处理方面取得了突飞猛进的进步，我们正在研究BERT模型，希望能进一步提高准确率。上图是我们做预测的流程图，是传统的SVM模型。系统首先判断输入是否是一本书。如果不是书，则进入一级类别分类器，也就是上面提到的BiLSTM-Attention模型。虽然我们手头已经有1000万的训练语料，但这远远不够，所以我们采用了一些shuffle和随机丢弃的方法来进一步增加训练语料。完成一级类别的确定后，我们仍然使用传统的分类器——最大熵模型来确定对应的叶子类别。除了以上类别预测方面的尝试，我们还引入了Tensorflow。通过对其上层API的简单包装，我们的深度学习框架可以有效支持算法工程师实现他们的新算法并进行快速迭代。此外，这里还涉及查询扩展和各种估计。用户画像为了更准确地提取用户特征，给出用户画像，我们对卖家和买家进行了各个维度的分类。除了用户属性的基本静态特征外，这还涉及：用户生命周期管理群体偏好属性（例如：是否是明星粉丝，是否喜欢潮牌，是否是吃货）地理位置（对于例如：常用地址、行政区划）、Rural/City）购物属性（例如：购买周期、是否在海外购买）SocialrelationshipSocialidentity等。我们希望通过互联网，尤其是微信来实现用户增长，然后了解他们的社交圈等特征信息。与之前的AI环境架构相比，上图用户画像的架构比较简单，我们使用Scala开发了相关代码。其具体层次如下：计算层。离线方面，我们主要写了一些Spark任务；在实时方面，我们写了一些Flink任务；当然我们也用到了GraphX和MLlib。为了保证实时和离线任务的逻辑尽可能的简单，便于维护，我们使用Scala写了一个通用库来实现离线和实时的统一。存储层。我们使用GDS作为微店的统一存储系统。可以使用ES对外提供服务，也可以“落”到持久化存储中，放在Hive表中，供操作或BI端使用。查询中间层。主要用于封装查询需求。上图展示了一些计算的逻辑。为了统一用户的基本属性信息及其行为偏好，我们通过一次性解析得到用户ID的映射。值得注意的是：与那些带有用户相关信息的单独应用不同，对于微信环境登录的用户，我们只能获取静默登录ID；对于浏览用户，他们的信息甚至是匿名的。因此，我们需要考虑身份的设计，映射各种登录状态的切换行为。另一方面，比上述类别预测更简单的是预测用户的产品。我们会计算他们的浏览、点击、加入购物车、购买训练数据，得到他们的商品偏好模型，进而预测他们的购买行为。算法和数据层统一现在业界有一个趋势：将公司所有的框架，包括推荐框架、搜索框架、广告框架统一起来，做到通用，支持不同的业务场景。如上图所示，各种请求进入排序模块后，RankPlugin服务端会识别不同的业务逻辑，进而区分不同的推荐、搜索、广告需求。相应的，我们也配备了统一的算法数据层，通过GPS实现数据的统一存储。可见，对于那些人手不足的初创公司来说，统一的架构可以方便系统的快速迭代。无论是在召回层、排序层还是策略层，一旦算法工程师有了新的想法，就可以通过统一的结果进行AB测试，快速得到线上结果。【原创稿件，合作网站转载请注明原作者和出处为.com】

上一篇：关于runtime的那些事儿（消息机制）

下一篇：针对制药行业的手机钓鱼攻击

一家拥有超过7000万家门店、超过10亿件商品的微店如何构建AI系统？相关文章