一种利用用户搜索日志进行多任务学习的商品标题压缩方法在展示空间有限的场景下,比如在APP端,过长的商品标题往往无法完整展示,只能截断,严重影响展示效果用户体验。如何在不影响整体交易的情况下,将原始产品标题压缩到有限的长度,是一项非常具有挑战性的工作。以往的标题摘要方法往往需要大量的人工预处理,成本高,且没有考虑电商场景下点击率、转化率等指标的特殊需求。基于此,我们提出了一种使用用户搜索日志进行多任务学习的产品标题压缩方法。该方法同时进行两个Sequence-to-Sequence学习任务:主任务基于PointerNetwork模型实现从原标题到短标题的提取摘要,辅助任务基于encoder-具有注意力机制的解码器模型,实现从原始标题中提取生成相应产品的用户搜索查询。编码网络参数在两个任务之间共享,共同优化两者对原标题的注意力分布,使得两个任务对原标题中重要信息的注意力尽可能一致。离线人工评估和在线实验证明,多任务学习方法生成的产品短标题不仅保留了原始产品标题中的核心信息,还揭示了用户的搜索查询信息,确保交易转化不受影响。研究背景商品名称是电商平台买卖双方沟通交流的重要媒介。用户在搜索入口输入Query,在搜索结果页(SRP)浏览商品列表,选择目标商品,最后完成购买。在整个购物交易环节中,商品名称、商品描述、商品图片等各种信息共同影响着用户的购买决策。一个信息量丰富但又不冗长的标题可以大大提升终端用户的体验。据40《中国互联网络发展状况统计报告》报告显示,截至2017年6月,我国手机网民规模已达7.24亿,网民使用手机的比例从2016年底的95.1%提升至96.3%.越来越多的网购从PC端转移到无线端(APP),两者之间的差距还在拉大,因此各大电商平台的资源也向各自的APP倾斜。PC和APP最明显的区别就是显示屏幕的大小。通常,智能手机的显示屏幕在4.5-5.5英寸之间,远小于PC的屏幕尺寸,对算法和产品设计也有了新的要求。目前,淘宝商品的标题主要由商家撰写。商家为了提高搜索召回率,促进交易,往往会在标题中堆放大量冗余词。用户在手机端浏览时,过长的产品标题受限于屏幕尺寸。显示不完整,只能截断,严重影响用户体验。如图1所示,在SRP页面,产品的原始标题不完整,只能显示14个字符左右的短标题。如果用户想获得完整的标题,需要进一步点击进入商品详情页。产品的原始标题包含近30个字符。字。另外,在个性化推送和推荐场景中,商品的短标题是信息的主体,在长度上有一定的限制。如何用最短的文字体现产品的核心属性,引起用户点击浏览的兴趣,提高转化率。值得深入研究的问题。图1用户搜索“碎花连衣裙长袖女”时,搜索结果页面的商品原标题过长,无法完整显示。只有点击进入详情页才能看到完整标题。现有方法简介文本摘要(压缩)是自然语言处理中的重要研究方向之一。根据摘要的生成方式,可分为抽取式和生成式两种。顾名思义,抽取法生成的抽象句和词是从原文中抽取的,而生成法则更为灵活,摘要中的句和词不需要从原文中抽取。传统的提取摘要方法大致可以分为贪心法、基于图的方法和基于约束的优化方法。近年来,神经网络方法也被应用到文本摘要领域并取得了重大进展,尤其是生成式摘要方法。业界现有的方法都是以压缩文章长度为优化目标,实现文本的摘要。在电子商务场景中,除了文本压缩率之外,还有其他考虑因素。如何在不影响整体交易转化率的情况下,缩短产品标题的长度,成为行业挑战。问题。方法介绍如图2所示,本文提出的多任务学习方法包括两个SequencetoSequence任务。主要任务是压缩产品标题。短标题是从原始产品标题生成的。PointerNetwork模型用于通过注意力机制来选择原始标题。关键词输出;辅助任务是搜索查询生成,它是从产品的原始标题生成的,使用带有注意机制的编码器-解码器模型。两个任务共享编码网络参数,共同优化两者对原标题的注意力分布,使两个任务对原标题中重要信息的注意力尽可能一致。辅助任务的引入可以帮助主任务更好地保留原标题中信息量更大、更容易吸引用户点击的词。相应地,我们为两个任务构建训练数据。主任务中使用的数据是女装类目下的商品原标题和手淘推荐频道专家改写的商品简称。辅助任务中使用的数据是女装的类别。产品的原始标题和引导交易的相应用户搜索查询。图2.多任务学习框架。两个Seq2Seq任务共享同一个编码器。本文中的多任务学习方法主要有助于产品标题压缩。生成的商品短标题在离线自动评价、人工评价、在线评价等方面均优于传统的提取方法。抽象方法。端到端的训练方法避免了传统方法的大量人工预处理和特征工程。多任务学习中的Attentiondistributionconsistentsetting使得最终的产品短标题能够揭示原标题中的重要词,尤其是能够引导交易的核心词,这对其他电商场景也具有重要意义。实验结果我们使用淘宝女装类目下的商品标题数据进行实验,比较了五种不同的文本摘要方法。第一种是baseline方法,直接根据目标长度(Trunc.)进行截断;二是经典的整数线性规划方法(ILP),需要对标题进行分词、NER、TermWeighting等预处理;第三种是基于指针网络实验(Ptr-Net)的encoder-decoder抽取方法;第四种是多任务学习方法,直接将两个子任务的损失函数相加作为整体损失函数进行优化(Vanilla-MTL);这五种是本文提出的考虑注意力分布一致性的多任务学习方法(Agree-MTL)。不同方法的自动评价比较表1.不同文本摘要方法生成的产品短标题的自动评价结果计算生成的短标题与参考短标题之间的三个ROUGE分数作为自动评价结果。表1比较了不同文本的抽象方法。本文提出的多任务学习方法明显优于其他几种方法。不同方法人工评价对比表2不同方法生成商品简称的人工评价结果表2为不同方法生成商品简称的人工评价对比。由于电商场景的商品核心商品词比较敏感,除了常见的可读性(Readability)和信息完整性(Informativeness)指标外,我们还比较了不同方法生成的短标题中的核心商品词是否是准确的(Accuracy)。从表2的结果来看,本文提出的方法在所有三个指标上都优于其他方法。除了线下自动测评和人工测评,我们还在真实的线上环境中进行了AB测试。与原有的在线ILP压缩方法相比,本文提出的多任务学习方法在CTR和CVR上有2.58分。%,增长1.32%。图3显示了通过不同方法生成的产品短标题的示例。受预处理结果影响,直接截断和ILP基线方法生成的短标题流畅性和可读性较差,而Ptr-Net和多任务学习属于Sequence-to-Sequence方法,生成的短标题较少可读。它在性能上优于两个基线。图3左侧的例子表明,本文方法生成的短标题会揭示用户高频搜索查询中出现的词(用户在搜索中经常使用英文品牌名称而不是中文品牌名称查询),更容易促进交易。图3不同方法生成的短标题示例总结由于商家过度SEO,C2C电商平台的产品标题通常过长冗余,无法在APP端完整展示。针对这一问题,本文采用抽取式摘要的方法对过长的产品标题进行压缩。(前面这句话上面好像没说)传统的抽象方法只是在保持原标题语义的情况下实现了标题的压缩,没有考虑点击率和交易转化率的影响电商场景下的压缩产品。电子商务平台积累了大量的用户搜索查询和产品交易信息。利用这部分数据,我们可以更有针对性地对原来的长标题进行压缩。因此,我们提出了一种用于多任务学习的标题压缩方法,其中包括两个序列学习子任务:主要任务是基于PointerNetwork模型从原始标题到短标题的提取摘要生成,辅助任务是基于上Attention机制的encoder-decoder模型实现了从原始t??itle生成的用户搜索query对对应商品。两个任务共享编码参数,使得两个子任务在原题上的Attention分布尽可能一致,对两个子任务的attention分布进行联合优化。最后,主任务生成的短标题保留原标题。同时作为产品标题中的核心信息,更倾向于揭示能够促进交易转化的关键词。离线人工评估和在线实验证明,该方法生成的短标题在可读性、信息完整性、核心产品词准确率等方面均优于传统抽象方法,且不影响交易转化率。团队:iDST-NLP作者:王金刚、田俊峰(华东师范大学)、秋龙(Onehome)、李胜、朗军、斯洛、兰曼(华东师范大学)
