重新定义“人货市场”：淘宝场景计算探索实践

时间：2023-03-22 14:35:17 科技观察

【.com原稿】近二十年来，由于互联网的发展，零售从线下迁移到线上。近年来，随着智能手机的普及，越来越多的网络零售在移动终端上进行。随着这些移动设备日益强大的计算能力和存储能力，智能手机也正在成为强大的计算平台，使复杂的端到端场景计算成为可能。场景计算利用大数据和机器学习算法，在移动设备上主动感知用户状态和用户所处环境，预测用户意图，为新零售“人货场”等业务要素提供新的可能。与传统云计算不同，端上场景计算提供了更实时的反馈、更普适的计算和更好的隐私保护。2018年11月30日至12月1日，由WOT主办的WOT全球人工智能技术峰会在北京JW万豪酒店举行。本次峰会的主题是人工智能。来自阿里巴巴淘宝技术部的资深算法专家贾荣飞与到场嘉宾分享了如何利用手机信息改变电商与用户的交互方式，即：重新定义人、货、地。.本次分享将从以下四个部分展开：电商场景开发什么是场景计算智能架构新场景探索与实践电商场景开发对于零售电商来说，人、货、场三要素是永恒的主题。你为什么这么说？如今，随着移动社交的普及，每天都有数以亿计的人打开手机购物和各种购物APP购买商品。与此同时，线上商品的SKU也增长到数亿级。那么问题来了，那么多的人和物，我们如何才能将它们恰当地放在一个场景中呢？我们对场景的要求势必会越来越高。说到场景，PC时代的淘宝已经拥有业内不错的商品类目体系，叶子类目数以万计。然而，随着商品的增多，目录搜索仍然不能满足用户寻找商品的需求，“畅”开始从目录搜索演变为查询词搜索时代。用户使用查询词细化搜索需求，搜索相同产品时展示给用户的产品数量远低于目录搜索。随着产品体量的不断扩大，必须研究更多关于用户的信息。因此，我们需要根据用户点击、收藏、追加、购买等更多历史行为信息的关键词，来研究和了解用户偏好。匹配海量商品与其购物意向，“畅”进入推荐时代，展示给用户的商品不仅在字面上满足了用户的需求，在风格上也更符合用户以往的行为，品牌、价格等，从而持续提高展示给用户的商品列表与用户的关联度。众所周知，我们的手机可以通过各种传感器实时提供不同的“微弱信息”。因此，对于这些信息，我们要解决以下三个层面的问题：如何判断信息是否有价值？如何提取有价值的信息？如何让这些信息更有用？让我分享一下我们是如何解决上述问题的。如上图所示，智能手机一般都有加速度计和陀螺仪。它们可以分别采集三个纬度的信息，所以总共有六个纬度的信息，可以涵盖用户的各种运动姿势和加速度值。上面中间两张图分别是加速度计和陀螺仪数据。我们使用各种颜色曲线来标记用户行为的规律性和差异性。然后，针对不同的曲线，我们采用了两种方法来识别和分析这些原始数据：手动设计特征。我们从时域和频域两个方面进行特征设计。其中，时域包括：大/小值、中位数、标准差、均值等数据；而频率包括：振幅、峰值等信息。通过深入了解这些传感器收集的数据，我们初步对不同的姿势进行了分类。深度学习(RNN)模型。采集到的数据用双向GRU提取，然后连接到全连接层识别用户手势。在实践中，这两个模型的手势识别准确率只有80%左右，达不到我们的技术预期。经过分析，我们发现原因是：我们为RNN模型提供的标注数据量非常有限，很难达到很好的效果。因此，我们就去寻找比上述强标签数据大几十倍的弱标签数据，并在其上使用RNN网络训练，并结合我们最终的学习目标。这样一来，结果比之前好太多了。在此基础上，我们还发现在模型中加入人工特征可以进一步提高预测精度。我们在弱标记数据上融合人工特征和预训练双向GRU以获得最佳结果。上图是RNN模型的逻辑图：连续的Raw数据直接放入双向GRU单元进行理解和判断。这个过程完成后，我们的准确率提高到85%左右，这仍然有点低于我们的预期。分析原因，我们发现：与干净的实验室数据不同，用户在使用App过程中积累的数据具有很强的随机性。如右上图所示，高黄线实际上源于用户从床上坐起时的姿势变化。所以，对于我们的模型来说，如果数据周期太长，数据太多，会给模型和计算带来压力；如果时间短，模型无法解决这种偶发抖动对最终结果的影响。因此，我们采用的方法是：首先，通过短期信息收集和实时处理来识别动作；然后，用一段数据进行平滑校正，避免随机动作的干扰。这样，我们对每个姿势的识别准确率可以达到98%到99%。同时这也说明加速度计和陀螺仪采集到的原始信息确实很有价值。它们不仅可以用来识别各种手势，下一步还可以支持更多的应用。在上述简单分析过程中，我们的模型存在不足之处。例如：由于用户手势的相似性，我们仍然无法准确区分用户乘车和乘地铁这两种行为。我们尝试分析用户手势对电子商务的价值，并将手势识别与用户购物意图联系起来。我们发现，人们在走路的时候，因为有明确的购物目标，一旦打开淘宝，下单的概率会明显高于其他状态。上图是我们收集到的用户交互数据，即用户在手机上的各种点/划操作。显然，人工分析这些数据是非常繁琐的，所以我们采用了深度学习的方法来了解用户行为。首先，我们选择一个实验任务来评估数据的有效性。我们需要根据手机上的点击行为来判断使用手机的用户是否是手机的主人。具体实验是在同一型号的手机上采集点划线数据，利用模型识别同一用户的行为是否可以被识别为一个用户。如上图所示，整个过程是：嵌入用户的point/dash等连续数据信息。全连接层之后，进入ResNet卷积网络。这里之所以使用卷积网络，是因为通常人类在不同的交互行为中都包含局部特征，一系列行为之间存在共同的信息。所以我们需要使用卷积网络来捕捉这些地方。同时，ResNet是一个多层模型，可以增强我们对信息的提取。我们在估计之前使用了双向GRU。此处使用双向GRU来利用用户交互行为中的时间信息。使用Softmax进行最终目标估计。通过利用交互数据来识别相同的用户，我们实现了超过95%的识别准确率。这个实验证明了交互信息对用户理解有很大的价值。此外，我们还处理了其他数据，例如用户位置和城市天气。我们已经完成了对手机上有效信息的全面了解和认知，这也为我们下一步的各种电子商务应用打下了基础。虽然端上的智能框架的计算能力越来越强，但与云端的服务器集群还是有很大的区别。复杂的模型在手机上难免会遇到算力问题。我们来看看如何通过改进手机端的框架，更好地解决场景计算的可计算性问题。上图是我们通用的“云+端”架构模型。协作流程如下：手机端：针对原始数据采集，定时获取用户实时状态。将获取的状态输入基础模型以生成中间数据。中间数据为应用产品提供服务。在云端：完成模型的训练和处理，并定期同步到用户手机上。通过实验和各种参数，实现了手机端的效果配置。可以看出，该框架有两个关键部分：移动端的数据和工作流管理。由于用户手机会同时运行多个应用，当我们调用算法进行一系列操作时，不会影响用户的交互体验，更不会造成卡顿。模型的压缩和加速应该在云端做好。下面我们来讨论一下在手机端的具体实现框架。对于手机端的整体智能架构来说，最重要的部分就是数据管理。这里，我们配置一个时序数据库，将采集到的原始数据存储在数据库中，并同步中间数据。与移动端的SQLite，或者常见的KV数据库相比，时序数据库的优势在于它的插入和删除速度比KV数据库快很多，而且还可以实现更好的数据压缩，可以节省70%的存储空间。而且读写速度比SQLite快近两百倍。所以，这种高速数据读写的支持，方便了我们实现更多的模型。上图是阿里自研的端侧深度学习模型框架AliNN。它在处理不同任务方面比谷歌的TensorFlow快得多。首先，通过模型的深度加速，可以实现优化端的CPU地址对齐，以及模型初始编译时CPU的复杂指令。在充分利用模型的同时，还可以对复杂模型进行转换压缩，以毫秒级的速度为用户提供服务。我们去年双十一推出的用户笑脸和动作识别功能，都是跑在手机上的机型。设备上的部署模型大大优化了响应时间，使用户的交互体验非常友好。新场景探索实践无论是上面提到的基础数据的处理，还是端到端框架的改进，目的都是为了支撑应用。下面来看看这些数据在新场景探索中的具体应用。首先是用户购买概率的预测。通常，交互数据分为两种类型：通过点击控件产生的操作序列。点/刷操作。为了结合这两种数据，有两种方法可供选择：Pre-fusion方法。即先做数据对齐，再放入模型。不同的行为使用相同的特征提取网络，这使得提取行为之间的时间信息变得更加困难，无法达到很高的准确性。后融合法。如下图所示，下面重点讨论。上图左侧，上半部分是用户点击/滑动的数据，下半部分是用户点击不同控件的数据。它们分别嵌入并馈入RNN模型。由于用户的最终行为与后续动作的关系比与先前行为的关系更密切，因此我们这里不使用双向模型，而只使用单向RNN进行处理。处理后，我们需要将两个嵌入向量连接在一起。如右图，我们尝试了三种方法：最简单的全连接法。它比单独使用点/破折号交互信息更好。自注意力机制。由于不同的行为会对用户的最终购买产生不同的影响，因此我们在获取的信息中添加了Attention。加入一个类似于FM的模型，根据获取到的信息进行组合，先进行交叉运算，然后合并到模型中进行预测。通过综合评估，我们发现SelfAttention机制并没有达到预期的效果，甚至低于全连接的方法；而FM-like机制取得了最好的效果。在我们已经有很高准确率的前提下，类FM机制相比全连接的方法，AUC又提升了1%。展望未来，我们将在以下方向进行更多尝试：用户需求发现引擎。根据用户所处的不同场景，发现他们的喜好。例如：当他们在家时，他们可能更喜欢买衣服；当他们在公司时，他们更倾向于购买办公用品。从千人千面，到千人千模。目前我们只是给每个用户呈现不同的界面，但是大家还是共享同一个模型，没有充分利用用户手机的计算能力。在用户理解不断加深，各种模型通过强化学习深入发展的今天，我们希望在每台手机上为单个用户训练更多个性化的内容。云+端联合学习。将千人千模型从单一手机拓展到云端，实现云端+端联合训练，达到更好的效果。我们希望未来淘宝能够在天气转凉时，根据用户所在的城市直接推荐厚一点的衣服，让淘宝成为大家更贴心的购物助手。【原创稿件，合作网站转载请注明原作者和出处为.com】

上一篇：程序员提高代码可读性保证一个月后依然能看懂代码的5个方法！

下一篇：玩转Android嵌套滚动

重新定义“人货市场”：淘宝场景计算探索实践相关文章