将“知识+图谱”融入多模态训练:方法与电子商务应用实践,以其强大的知识表示和推理能力引起了学术界和工业界的广泛关注。近年来,知识图谱在语义搜索、问答、知识管理等领域得到广泛应用。多模态知识图谱与传统知识图谱的主要区别在于,传统知识图谱主要关注文本和数据库的实体和关系,而多模态知识图谱构建了多种模态(例如,视觉模态中的实体,以及各种模态下实体之间的多模态语义关系,目前典型的多模态知识图谱有DBpedia、Wikidata、IMGpedia、MMKG等,多模态知识图谱的应用场景非常广泛,对自然语言等现有领域的发展有很大帮助处理和计算机视觉。虽然多模态结构数据在底层表示上是异构的,但同一实体的不同模态数据在高层语义上是统一的,因此多模态数据的融合对于构建统一的实体非常重要。语义层面的多模态模型。语言表示模型提出了数据支持。其次,多模态知识图谱技术可以服务于各个下游领域。例如,多模态实体链接技术可以将同一个实体在多个模态中进行整合,可以应用于新闻阅读、同一产品识别等场景。多模态知识图谱补全技术可以通过远程监督完成多模态知识图谱,完善现有的多模态知识图谱。该多模态对话系统可用于电子商务推荐和产品问答领域。2.多模态预训练预训练技术在计算机视觉(CV)领域如VGG、GoogleInception和ResNet,以及自然语言处理(NLP)领域如BERT、XLNet和GPT-3的成功应用启发了越来越多的研究人员将注意力转向多模态预训练。本质上,多模态预训练期望学习两种或多种模态之间的关联。学术界的多模态预训练方案大多基于Transformer模块,在应用中侧重于图形任务。大多数方案都是相似的。主要区别在于模型结构和训练任务的结合。常规分类识别、视觉问答、视觉理解推理任务等。VideoBERT是多模态预训练的第一个工作,它基于BERT训练大量未标记的视频-文本对。目前,针对图像和文本的多模态预训练模型主要分为两类:单流模型和双流模型。VideoBERT、B2T2、VisualBERT、Unicoder-VL、VL-BERT和UNITER使用单流架构,它使用单个Transformer的自注意力机制来同时对图像和文本信息进行建模。另一方面,LXMERT、ViLBERT和FashionBERT引入了双流架构,首先独立提取图像和文本的特征,然后使用更复杂的交叉注意机制来完成它们的交互。为了进一步提高性能,VLP应用了一个共享的多层Transformer来对图像字幕和VQA进行编码和解码。基于单流架构,InterBERT在单流模型的输出中添加了两个独立的Transformer流,以捕获模态独立性。3.Knowledge-augmentedpre-training近年来,越来越多的研究者开始关注知识图谱(KG)和预训练语言模型(PLM)的结合,以使PLM获得更好的性能。K-BERT将三元组注入句子以生成统一的知识丰富的语言表示。ERNIE将知识模块中的实体表示整合到语义模块中,将token和实体的异构信息表示到一个统一的特征空间中。KEPLER将实体的文本描述编码为文本嵌入,并将描述嵌入视为实体嵌入。KnowBERT使用集成的实体链接器,通过一种词到实体的关注形式生成知识增强的实体范围表示。KAdapter为RoBERTa注入事实知识和语言知识,并为每个注入的知识提供神经适配器。DKPLM可以根据文本上下文动态选择和嵌入知识,同时感知全局和局部KG信息。JAKET提出了一个联合预训练框架,其中包括用于为实体生成嵌入的知识模块,以在图形中生成上下文感知嵌入。KALM、ProQA、LIBERT等研究也探索了知识图谱与PLM在不同应用任务中的融合实验。然而,目前知识增强的预训练模型仅针对单一模态,尤其是文本模态,将知识图谱纳入多模态预训练的工作很少。2.多模态商品知识图谱及问题随着人工智能技术的不断发展,知识图谱作为人工智能领域的知识支柱,以其强大的知识表示和推理能力引起了学术界和工业界的广泛关注。多模态知识图谱与传统知识图谱的主要区别在于,传统知识图谱主要关注文本和数据库的实体和关系,而多模态知识图谱构建了多种模态(例如,视觉模态中的实体,以及各种模态实体之间的多模态语义关系。如图1所示,在电子商务领域,多模态产品知识图谱通常有图片、标题和结构知识。多模态商品知识图谱的应用场景非常广泛。虽然多模态结构数据在底层表示上是异构的,但同一实体的不同模态数据在高层语义上是统一的,因此多模态数据融合有利于充分表达产品信息。多模态商品知识图谱技术可以服务于各个下游领域。例如,多模态实体链接技术可以在多个模态中整合同一个实体,可以广泛应用于产品对齐、明星同款等场景。多模态问答系统对电子商务推荐和产品问答的进步起到了重要的推动作用。然而,目前还相当缺乏有效的技术手段来有效整合这些多模态数据,以支持广泛的电子商务下游应用。图1近年来,一些多模态预训练技术被提出(如VLBERT、ViLBERT、LXMERT、InterBERT等),这些方法主要用于挖掘图像模态与文本模态信息之间的关联。然而,将这些多模态预训练方法直接应用到电商场景中会出现问题。一方面,这些模型无法对多模态商品知识图的结构化信息进行建模。另一方面,在电子商务多模态知识图谱中,模态缺失和模态噪声是两个挑战(主要是文本和图像缺失和噪声),这将严重降低多模态信息学习的性能。在真实电商场景中,部分卖家不向平台上传商品图片(或标题),部分卖家提供的商品图片(或标题)没有正确的主题或语义。图2中的Item-2和Item-3分别展示了阿里场景下模态噪声和模态损失的例子。图2三。解决方案为了解决这个问题,我们使用产品结构化知识作为一种独立于图像和文本的新模态,称为知识模态,即对于产品数据的预训练,我们考虑两种模态中的三种信息:图像模态(产品图片)、文本模式(产品标题)和知识模式(PKG)。如图2所示,PKG由四个组成。模型架构我们在电子商务应用中提出了一种新颖的知识感知多模态预训练方法K3M。模型架构如图3所示。K3M通过三个步骤学习产品的多模态信息:(1)对每个模态的独立信息进行编码,对应modal-encoding层,(2)对模态之间的信息进行编码。交互被建模,对应于模态交互层,(3)通过每个模态的监督信息优化模型,对应于模态任务层。图3(1)模态编码层。在对每个模态的个体信息进行编码时,对于图像模态、文本模态和知识模态,我们采用基于Transformer的编码器来提取图像、文本和三重表面形式的初始特征。其中,文本模式和知识模式的编码器参数是共享的。(2)模态交互层。在对模式之间的交互进行建模时,有两个过程。第一个过程是文本模态和图像模态的交互:首先,通过co-attentionTransformer,根据图像和文本模态的初始特征学习相应的交互特征,其次,为了保持独立性针对单一模态,我们提出了一个初始交互特征融合模块来融合图像和文本模态的初始特征及其交互特征。第二个过程是知识模式与其他两种模式的交互:首先将图文模式的交互结果作为目标产品的初始表示,以及尾部的三元组关系和表面形态特征实体被用作产品属性和属性值的表示。然后通过结构聚合模块传播聚合目标产品实体上的商品属性和属性值信息。商品实体的最终表示可用于各种下游任务。(3)模态任务层。图像模态、文本模态和知识模态的预训练任务分别是maskedobjectmodel、maskedlanguagemodel和linkpredictionmodel。五、实验与实践1、实验(论文的实验)K3M在淘宝4000万件商品上进行训练,每件商品包含一个标题、一张图片和一组相关的三元组。我们设置了不同的模态缺失和噪声比,评估了K3M在商品分类、产品对齐和多模态问答三个下游任务上的效果,并与几种常用的多模态预训练模型:单流模型VLBERT和两个二-stream模型ViLBERT和LXMERT。实验结果如下:图3展示了各种模型对商品分类的结果,可以看出:(1)当模态缺失或存在模态噪声时,基线模型严重缺乏鲁棒性。当TMR增加到20%、50%、80%和100%时,“ViLBERT”、“LXMERT”和“VLBERT”的性能从TMR=0%平均下降10.2%、24.4%、33.1%和40.2%.(2)具有删除和噪声的文本模态比图像模态对性能的影响更大。对比3个baseline的“titlenoise”和“imagenoise”,随着TNR的增加,模型性能下降15.1%~43.9%,而随着INR的增加,模型性能下降2.8%~10.3%,说明文本信息的作用更为重要。(3)知识图谱的引入可以显着改善模态缺失和模态噪声问题。在没有PKG基线的基础上,“ViLBERT+PKG”、“LXMERT+PKG”和“VLBERT+PKG”的平均改善率分别为13.0%、22.2%、39.9%、54.4%和70.1%。(4)K3M实现了最先进的性能。它在各种模态缺失和模态噪声设置下将“ViLBERT+PKG”、“LXMERT+PKG”和“VLBERT+PKG”的结果提高了0.6%至4.5%。图4显示了产品对齐任务的结果。在这个任务中,我们可以在项目分类任务中获得类似的观察结果。此外,对于模态缺失,模型性??能并不一定会随着缺失率的增加而降低,而是会波动:当缺失率(TMR、IMR和MMR)为50%或80%时,模型性能有时甚至低于100%。事实上,这个任务的本质是学习一个模型来评估两个项目的多模态信息的相似度。直观地,当对齐的项目对中的两个项目同时缺少标题或图像时,它们的信息看起来比当一个项目缺少标题或图像而另一个缺少两者时更相似。表2显示了多模态问答任务的排名结果。在这个任务中,我们也可以在项目分类任务中看到类似的观察结果。2、实践(阿里业务应用效果)(1)饿了么新零售导购算法,线下算法AUC绝对值增长0.2%;线上AB-Test实验,流量5%,5天:CTR平均提升0.296%,CVR平均提升5.214%,CTR+CVR平均提升:5.51%;(2)淘宝主搜同类服务,线下算法AUC提升1%,商家反馈是很大的提升;目前在线AB测试;(3)阿里商品组合算法、在线算法、Emedding-based实验桶(5.52%)CTR指标相比其他两个实验桶(5.50%、5.48%)分别提升0.02%、0.04%,相对增幅分别为0.363%和0.73%;(4)小米算法团队推荐意愿较低的同类商品,当这条路线的召回率整体提升时,转化率可提升约2.3%至2.7%,相对提升12.5%。相对上一版本提升11%。后续扩展到其他场景。
