淘宝和网易云怎么知道你喜欢什么?终于有人把推荐系统解释清楚了。转载本文请联系大数据DT公众号。当用户有明确的意图时,他们可以通过关键字进行搜索。那么,当用户不知道自己真正想要的是什么时,系统如何给出用户可能想要的结果,满足用户的需求呢?推荐系统可以解决这类问题。例如,当用户在寻找自己喜欢的音乐时,却没有具体的歌名或歌手,很难在短时间内找到真正适合的音乐。这时候就需要分析用户的历史行为,进而找出用户可能感兴趣的音乐推荐。对于用户来说,这就是推荐系统需要完成的工作。01什么是推荐系统?推荐系统是一种信息过滤系统,可以找出用户和物品之间的关系。推荐系统有两个主要的显着特征。倡议:从用户的角度来看,上述搜索引擎都是为了解决信息过载的问题而存在的,需要用户提供明确的需求。当用户不能准确描述自己的需求时,搜索引擎就不能为用户提供准确的服务。推荐系统不需要用户提供明确的需求,可以自主分析用户与物品之间的关联数据进行建模,为用户提供可能感兴趣的信息。个性化:推荐系统可以挖掘冷门信息并推荐给用户。热门商品通常可以代表大多数人的喜好,而冷门商品只能代表少数人的个性化需求,但冷门商品带来的收益可能会超过热门商品,因此挖掘长尾冷门信息是方向推荐系统。简而言之,推荐系统推荐的项目通常对用户没有帮助,但用户感兴趣。02推荐系统应用场景不同于搜索系统,推荐系统主要是利用用户行为数据分析用户行为日志,从而提供不同的推荐页面,提高用户满意度和网站点击率和转化率。常见的推荐系统主要有三种推荐类型:个性化推荐、相关推荐和热门推荐。个性化推荐往往以“猜你喜欢”、“发现”的形式出现在首页;相关推荐往往以“相关推荐”、“已阅读已观看”的形式放置在内容详情页;“热门推荐”是根据各类数据统计结果推荐的。推荐系统常见的应用场景包括:电子商务、个性化广告、音乐电影、求职等,电子商务领域的推荐系统有着广泛的应用场景。推荐系统可以帮助很多用户在淘宝和天猫上完成消费。有很多相关的推荐功能。以“淘宝”为例,其主要推荐功能包括:相关商品、店铺推荐、买买买、看书看、猜你喜欢等。淘宝首页“猜你喜欢”的商品,产品详情页面的“已查看和查看”,以及订单详情页面的“您可能还喜欢”如图2-3所示。▲图2-3淘宝的推荐算法有基于内容推荐的元素。例如,推荐系统需要对用户和商品进行标注,通过算法匹配向用户推荐商品;还有一种基于协同思维的方法,根据客户过去的购买行为或通过具有相似购买行为的客户群体的购买行为来推荐客户可能喜欢的产品。我们如何在海量的音乐中找到自己喜欢的音乐?推荐系统在其中扮演着重要的角色。以网易云音乐为例,网易云音乐的主要推荐场景包括:每日推荐、歌单推荐、电台推荐等。“私人FM”和“每日歌曲推荐”是基于多次计算后的相关推荐结果综合用户收听记录、喜欢的歌曲、歌单、歌手、观看的MV、本地歌曲等多种因素。.网易云音乐还设置了“每日推荐”项,收集用户日常行为数据,不断完善和丰富用户画像。“歌单”和“电台”的推荐功能也是一致的,主要收集用户喜好和行为数据。同时,网易云音乐的推荐应用设置了用户自己标注的功能,即当系统推荐不准确时,用户可以自行标注。03推荐系统的分类推荐系统有不同的分类方法。常见的分类方法有:按推荐结果因人而异分类、按推荐方法分类、按推荐模型构建方法分类。因为推荐算法是整个推荐系统的核心部分,所以推荐系统也可以按照推荐算法进行分类。基于此,推荐系统可以分为基于内容的推荐、基于协同过滤的推荐和混合推荐方法。1.基于内容的推荐基于内容的推荐策略起源于信息检索领域,是搜索领域的一个重要研究方向。该方法使用用户选择的对象,从候选集中找出与用户选择的对象相似的对象作为推荐结果。这种推荐策略是先提取推荐对象的内容特征,并在用户模型中将其与用户兴趣进行匹配。匹配度高的对象可以作为推荐结果推荐给用户。计算推荐对象的内容特征与用户模型中的兴趣特征之间的相似度是内容推荐策略的关键步骤。通常使用的最简单的方法是计算两个向量之间夹角的余弦值。基于内容的推荐策略的主要部分是对用户特征的描述和推荐对象内容特征的提取。目前,文本信息的特征提取方法已经成熟,但多媒体信息的特征提取技术有待进一步探索。图2-6是基于内容的推荐。用户A喜欢具有A和B特征的产品A,产品C也属于A和B类型。产品C与产品A相似,因此向用户A推荐产品C。▲图2-6基于内容的推荐基于内容的推荐策略的优点是:简单有效,推荐结果更加直观和可解释;新的推荐对象不存在冷启动问题;一种简单的分类方法可以支持这种策略。缺点是:受限于推荐对象的特征提取能力,对图像、视频、声音等多媒体资源的特征提取和文本资源的提取不够全面;难以推出新奇的推荐结果,惊喜指数低,难以发现新用户。兴趣点;新用户存在冷启动问题,因为很难找到新用户的兴趣爱好,与推荐对象的内容特征无法匹配。2.基于协同过滤的推荐目前,基于协同过滤的推荐是推荐系统中应用最广泛、效果最好的推荐策略。它出现在1990年代,推动了推荐系统的发展。协同过滤的基本思想是聚类。例如,如果你身边有很多朋友都选择了某款产品,那么你很有可能也会选择这款产品;或者用户选择了某个产品,当他看到类似的产品,而其他人对这个产品的评价很高时,他购买这个产品的概率就会很高。协同过滤分为三种类型:基于用户的协同过滤、基于项目的协同过滤和基于模型的协同过滤。1)基于用户的协同过滤的基本思想是先找到一个与目标用户有相似兴趣的用户集合,然后在这个集合中找到用户喜欢且没有听说过的项目并推荐给目标用户目标用户。图2-7是基于用户的协同过滤的实现逻辑。用户A喜欢产品A和产品C,用户C喜欢产品A、产品C和产品D。用户A和用户C有相似的爱好,所以产品D被推荐给用户A。▲图2-7基于用户的协同过滤2)item-based协同过滤的基本思想是一种基于所有用户对推荐对象评价的推荐策略。如果大多数用户对某些推荐对象的评分相似,则当前用户对这些推荐对象的评分也相似。然后,在相似的推荐对象中,将用户没有评价过的商品推荐给用户。简而言之,基于项目的协同过滤是根据用户对推荐对象的评价,找出对象之间的相似性,根据用户的历史偏好向用户推荐相似的商品。图2-8是item-based协同过滤的实现逻辑。用户A喜欢产品A和产品C,用户B喜欢产品A、产品B和产品C,用户C喜欢产品A。根据这些用户的喜好,可以确定产品A与产品C相似。喜欢产品A的用户也喜欢产品C,所以产品C也被推荐给喜欢产品A的用户C。▲图2-8Item-basedcollaborativefiltering3)model-basedcollaborativefiltering的基本思想是训练基于样本用户偏好信息的推荐模型,然后根据实时用户偏好信息进行推荐。它与上述两种协同推荐的区别在于,它是先将现有数据应用到现有数据上,通过统计和机器学习的方式得到模型,然后进行预测。常用的方法包括机器学习方法、统计模型、贝叶斯模型和线性回归模型。基于协同过滤的推荐的优点是:可用于复杂的非结构化对象;能够发现用户新的兴趣爱好,给用户带来惊喜;以用户为中心的自动推荐,随着用户数量的增加,用户体验也会越来越好。缺点是:存在冷启动问题,即在没有大量用户数据的情况下,用户可能对得到的推荐结果不满意;存在一个稀疏性问题,即当用户数量增加时,评价的差异会越来越大,推荐对象也越来越多,导致大量推荐对象没有被评价受用户影响,部分用户无法获得推荐结果,部分推荐对象无法推荐。3.混合推荐方法各种推荐方法各有优缺点。在实际应用中,我们可以采用多种推荐策略的组合,即混合推荐方法。目前使用最多的混合推荐方法是基于内容的推荐和协同过滤推荐的结合。根据不同的应用场景,组合方式也不同,主要有两种混合方式。推荐结果的混合:将多种推荐方法的结果按照一定的方式混合生成最终的推荐结果。如何从多个推荐结果中选择最终推送给用户的结果成为混合推荐的关键。一种常见的机制是投票机制,它使用一定的标准来判断多个结果并从中选择一个。混合推荐算法:以某种推荐策略为框架,混合另一种推荐策略,如基于协同过滤推荐的框架与基于内容的推荐策略混合。04搜索和推荐的区别搜索和推荐都是用户解决信息过载的有效手段,可以帮助用户快速准确地定位到想要的信息。网上有大量的搜索和推荐方法。它们之间有什么区别?1、根据用户的意图是否明确,我们可以区分两者。搜索引擎是一种用户意图明确的信息检索方式。用户可以提供查询关键词,引导搜索引擎查询相关内容。该过程由用户发起。反之,当用户的意图不够明确时,推荐系统此时可以满足用户的需求。例如,音乐播放器根据用户的喜好和历史行为提供用户推荐列表,电子商务平台根据购买和浏览记录提供用户可能喜欢的产品列表。这些是用户在意图不明时被动接受的内容。正是因为推荐系统不需要明确的搜索内容,所以能够满足用户难以用语言表达的需求。2、两者在个性化方面的差异当用户输入自己想要检索的内容时,搜索引擎显示的结果基本是固定的,个性化程度较低。推荐系统的个性化程度高,因为推荐没有标准答案。推荐系统能够根据每个用户的历史观看行为和评分记录,为用户生成最有价值的结果,这也是推荐系统的独特魅力所在。3、评价标准不同搜索质量的一个重要评价标准是能否帮助用户快速找到准确的结果。因此,搜索引擎的排名算法需要把最好的结果放在第一位。总而言之,一个“好的”搜索算法需要让用户以更短的停留时间更高效地获取信息。搜索引擎常用的评价指标包括:归一化损失累积增益(nDCG)、精确召回率(Precision-Recall)等。推荐系统希望用户被推荐的内容吸引,停留时间更长,持续时间更长动作。用户的兴趣被挖掘得越深,推荐的成功率就越高。推荐系统的评价范围更广,推荐结果的数量也更大,发生的位置和场景也更复杂。对于TopN推荐,MAP或者CTR是常用的评价方式;对于分数预测问题,RMSE或MAE是常用的量化方法。4.马太效应和长尾理论由于用户使用搜索引擎快速查找结果,大多数用户点击排名靠前的结果,而排名靠后的结果和翻页后的内容很少。得到更少的关注。这就是著名的马太效应,即受欢迎的项目更受关注,而不受欢迎的项目更容易被遗忘。长尾理论是指冷门商品的种类远高于流行商品的种类。在电商领域,如果充分挖掘这些长尾商品,它们带来的价值可能会超过热门商品带来的价值。推荐系统可以发现“被遗忘”的冷门商品,盘活和利用长尾资源,吸引用户注意力,挖掘用户兴趣,为用户提供更多选择。而且,依赖流行内容可能会导致失去潜在客户。作者简介刘宇,清华大学硕士,目前就职于某跨境电商公司,任技术总监,主要负责公司搜索推荐业务及广告相关技术开发。目前的工作重点是落地算法在搜索系统、推荐系统、对话系统等具体业务场景中的应用。在机器学习、深度学习、大数据应用与开发等方面有大量研究。与人合着了一本书?。赵宏宇,毕业于东北大学,获学士学位;RIT硕士毕业,AI专业。现就职于猎聘网,主要负责猎聘网推荐排名相关工作。刘树斌,毕业于东北大学,现就职于美团,高级系统开发工程师。曾就职于唯品会,主要负责搜索工程的架构设计和实现等相关工作,在Elasticsearch有丰富的工程实践经验。孙明珠,硕士毕业于南京航空航天大学,现就职于猎聘网,高级算法工程师,负责查询理解、解析、扩展等NLP相关工作。本文节选自《智能搜索和推荐系统:原理、算法与应用》,经出版社授权发布。
