当前位置: 首页 > 科技观察

迁移学习与跨域推荐,以及解决跨域推荐的方法

时间:2023-03-20 02:20:30 科技观察

迁移学习和跨域推荐,以及跨域推荐的解决方法有哪些论文可以参考其他方法?1.迁移学习。任务学习推荐系统.html。1.1迁移学习简介迁移学习(TL)**是属于机器学习的一个研究领域。它侧重于存储现有问题的解决方案模型,并将它们用于其他不同但相关的问题。例如,用于识别汽车的知识(或模型)也可以用于提高识别卡车的能力。MLvsTL迁移学习旨在解决这些孤立的学习方法。它可以利用之前训练模型中的知识(即特征、权重等)来训练新的模型,实现从其他任务中获取的知识来解决相关问题,甚至可以解决新任务数据较少等问题.1.2迁移学习可以解决什么问题?大数据与少标注的矛盾:虽然数据量很大,但很多数据是没有标注的。对这些数据应用无监督模型会更好一些,但是在使用有监督模型时就不太友好了。但是,如果选择人工贴标,则费时费力。大数据与弱计算的矛盾:普通人不可能拥有海量的数据和计算资源。所以需要依赖模型迁移,比如在图像识别中对训练好的模型进行fine-tuning来完成自己的任务。通用模型与个体需求的矛盾:即使是在同一个任务上,一个模型也往往难以满足每个个体的个体需求,比如特定的隐私设置。这需要在不同的人之间调整模型。迁移学习还有三个比较重要的问题,即:WhatToTransfer:如何选择我们的先验知识进行迁移,并不是所有的源域都能迁移到目标域。例如,将文本分类的经验知识迁移到图像分类显然是不合适的。因此,在选择迁移的源域和目标域时需要进行判断。两者是相关的,无论是用户还是物品什么时候转移(WhenToTransfer):什么时候可以迁移,什么时候不能迁移?在某些情况下,迁移知识可能比改进它更糟糕(这个问题也被称为“负迁移”)。我们的目标是通过迁移学习提高目标任务的性能或结果,而不是降低它们。(Avoidnegativetransfer)HowToTranster:如何做迁移学习?我们需要确定实现跨领域或跨任务的实际知识转移的方法。这个问题涉及到如何改进现有的算法和各种技术(设计迁移方法)1.3迁移学习的基本概念迁移学习中有两个非常重要的概念:领域和任务。领域:由数据特征和特征分布组成,是学习的主题。源域:现有知识的域。目标领域:要学习的领域。任务:由目标函数和学习结果组成,是学习不同的结果域有两种可能的场景:不同的特征空间。例如,在文本分类任务中,中文文本和英文文本的特征空间是不同的。在图像识别任务中,人脸图片和鸟类图片的特征空间是不同的。例如,边际概率分布是不同的。在文本分类任务中,文本是中文的特征空间,但讨论的主题不同。比如政治娱乐图片识别任务中,图片是鸟类的特征空间,但一张是在城市里拍到的鸟,一种是自然界中捕获的不同任务有两种可能的场景:不同的标签空间。例如,在一个文本分类任务中,一个标签是新闻类别标签,另一个是文本情感标签;一个标签是性别,一个标签是人名。不同的条件概率,例如源和目标数据类别的不平衡分布。这种情况很常见,可以通过过采样、欠采样、SMOTE等方法处理。一般来说,不同标签的条件概率分布是不同的,因为很少有两个不同的任务有不同的标签空间而条件概率分布完全相同的情况。也有论文将领域和任务合二为一,称之为数据集。跨数据集是指不同的领域或任务。1.4根据特征空间的迁移学习分类同构迁移学习(HomogeneousTL):源域和目标域的特征空间相同。异构迁移学习(HeterogeneousTL):源域和目标域的特征空间不同。根据迁移场景,参考上图,根据使用的传统机器学习算法,迁移学习方法可以归类为:InductiveTransferlearning:在这种场景下,源域和目标域相同,但源域和目标任务彼此不同。算法试图利用来自源域的归纳偏差来帮助改进目标任务。根据源域是否包含标记数据,归纳迁移学习可以进一步分为两类类似于**多任务学习和自学**的方法转导迁移学习(TransductiveTransferLearning):源域和目标领域不同,学习任务相同。在这种情况下,源任务和目标任务之间有一些相似之处,但对应的领域不同。通常源域有大量的标记数据,而目标域则没有。根据特征空间或边际概率的不同设置,转导迁移学习可以进一步分为多个子类。无监督迁移学习(UnsupervisedTransferLearning):源域和目标域都没有标签。这种场景类似于归纳迁移学习,关注目标领域的无监督任务下表总结了上述迁移学习策略在不同场景和领域的对比:不同场景和领域的迁移学习策略比较分点:Sample-based迁移学习(Instancetransfer):一般来说,理想的场景是源域中的知识可以重用到目标任务中。但在大多数情况下,源域数据无法直接复用。但是,源域中的某些实例可以与目标数据一起重用以改进结果。对于归纳迁移,一些研究使用来自源域的训练示例来改进目标任务,例如Dai和他的合作研究者对AdaBoost的改进Feature-representationtransfer:这类方法旨在通过识别良好的特征表示可以从源域应用到目标域,最小化域差异并降低错误率。根据标记数据的可用性,基于特征表示的迁移可以使用监督学习或非监督学习。Parametertransfer:这类方法是基于这样的假设,即某些参数在相关任务的模型之间共享,或者超参数的先验分布。与同时学习源任务和目标任务的多任务学习不同,在迁移学习中,我们可以将额外的权重应用于目标域以提高整体性能。Relational-knowledgetransfer:与前三类方法不同,基于关系知识的迁移旨在处理非独立同分布(i.i.d)的数据,即每个数据点都与其他数据点相关。例如,社交网络数据需要基于关系知识的迁移学习技术。下表清楚地总结了不同迁移内容类别和不同迁移学习策略之间的关系:不同迁移内容分类和不同迁移学习策略之间的关系是可以的。迁移学习的介绍,相信看完后你会有自己的理解!2.跨域推荐那么什么是跨域推荐呢?一句话概括就是:将迁移学习应用到推荐系统中,就叫做跨域推荐(Cross-DomainRecommendation)。跨域推荐的目的一般有以下几种:冷启动:比如某公司的两个APP服务,用户群体有很大的重叠,但是items不同。当A服务的用户第一次访问B服务时,如何进行有效推荐?推荐可以提高保留率和转化率。跨域推荐为冷启动提供了一种新思路,但其局限性也很强。对于一些企业只有一个业务的场景,很难跳出信息茧:基于同一个业务的推荐往往会让用户的兴趣越来越窄,因为它们都是基于用户行为进行挖掘的。在使用跨域推荐时,可以跳出原来的舒适区,从而提高推荐系统的平衡性和多样性。降低数据稀疏性,提高准确性:也是针对两种不同的业务场景。由于某些原因,新业务或其中一个业务的数据稀疏。通过引入跨域推荐,丰富数据,强化用户偏好:新用户的偏好很弱,通过跨域推荐加强用户偏好3.如何做跨域推荐3.1获取的共现行为基于频繁模式挖掘的域A和域B的用户,构造一个同现对,当同现的次数大于一定值时,认为有效,最后得到item列表可以得到域B中与域A中的项目“相似”的项,或者可以计算项目A和项目B之间的相关性。计算公式为:其中:为item的共现次数,为对该item有行为的用户数,为对该item有行为的用户数,表示用户总数。获得行为的项目序列的平均值。将域A的用户聚类以获得每个聚类的顶部。当一个受欢迎的用户访问域B时,推荐他们所属的集群下最流行的。这里,embedding不一定是用来聚类的,也可以根据属性来聚类。聚类3.3基于属性标签映射通过源域属性标签和目标域属性标签在用户访问序列中的共现来构建属性映射有两种方法:基于统计,计算源域属性和目标域属性的相关性word2vec,通过属性序列,生成属性的embedding。例如用户的属性点击序列数据为user1:cate1,cate2,cate2,tag1、cate2,tag2,...user1:cate3,cate4,tag1,cate2,tag3,...基于统计的统计方法包括(cate1,tag1)(cate2,tag2)(cate3,tag1)....以用户数为分子包括cate1、cate2、....、tag1、tag2的用户数为分母,相关性的计算基于word2vec和skip-gram。session按天划分,tag的cate和embedding3.4可以参考基于FM的论文:2014_Cross-DomainCollaborativeFilteringwithFactorizationMachines后面会单独出一篇文章介绍其原理和实际应用!欢迎关注!3.5Referencepaperbasedonlatentfactormapping:Cross-DomainRecommendation:AnEmbeddingandMappingApproach分别构造源域和目标域的用户和项目嵌入构造源域和目标域的用户嵌入的映射函数fdomain使用映射函数f将源域的userembedding表示为目标域中的userembedding,然后根据embedding的相似度进行召回。匹配到谷歌的双塔深度模型recall和double-towermodelthinkinginadvertisingscenario4.参考论文有哪些?跨域推荐在业界比较受关注,发表的论文也很多。这里有一些经典论文,可以在公众号回复【跨域推荐论文】获取2014_使用分解机进行跨域协同过滤2015_通过共享潜在向量分布在没有共享用户或项目的情况下进行跨域推荐2016_推荐系统中跨域用户建模的多视图深度学习方法2016_WRAP-connecting-social-media-e-commerce-He-20182017_CCCFNet-一种用于跨域推荐系统的内容增强协同过滤神经网络2017_通过多层图聚类进行跨域推荐2017_跨域推荐-一种嵌入和映射方法2018_通过基于邻域的冷启动用户跨域推荐FeatureMapping2018_Cross-domainRecommendationviaDeepDomainAdaptation2019_DDTCDR-DeepDualTransferCrossDomainRecommendation2019_EasyTransferLearningbyExploitingIntar-domainStruc2019_DDTCDR-深度双传输跨域推荐2019_EasyTransferLearningbyExploitingIntar-domainStructures2019_TransferLearningwithDomain-awareAttentionNetworkforItemRecommendationinE-commerce2020_MiNet-MixedInterestNetworkforCross-DomainClick-ThroughRatePrediction5.参考https://lumingdong.cn/multi-task-learning-in-recommendation-system.html#%E8%BF%81%E7%A7%BB%E5%AD%A6%E4%B9%A0https://xmzzyo.github.io/2020/04/12/Cross-domain-Recommendation/