当前位置: 首页 > 科技观察

皇帝选妃推荐算法机制

时间:2023-03-21 22:04:17 科技观察

本文转载自微信公众号“舒世雄”,作者舒世雄。转载本文请联系舒哥公众号。近年来,随着大数据、人工智能、机器学习、数据挖掘等概念的兴起,每个数据分析师都或多或少地接触到与推荐算法相关的分析。算法分析的前提是了解当前“推荐算法”的基本构成,掌握这些常规业务知识,即使不了解具体的算法实现过程,也可以有效分析算法。当前推荐算法主要分为几个核心步骤:recall,filter,(粗排序),finesorting。这都是什么意思?如果你了解皇帝是如何选妃的,你就明白了上面的过程。废话不多说,下面看看两者的区别Recall=AuditionRecall从当前资源池中圈出符合条件的资源就好比皇帝向全世界宣布开始选妃后,各省开始征集13岁以下的好姑娘民选16人,由于是全民选举,受评委眼光或指标影响,本次评选ime的人可能有各种颜色的皮肤,各种颜色的头发,嘴里说的是中文“选我,选我”~除了普选,还有一些特殊频道,比如丞相府、邻国选定的公主,或者皇帝本人,在名湖湖畔看上了夏家老爷子的二女儿。那么这些特殊通道可以理解为多通道召回。总之,在试镜的阶段,只要对梅有一点点同情,就先抱住眉毛胡子再说话。这个原理和我们平时看新闻的时候是一样的。召回的方式有很多种,比如向量召回、协同过滤、其他多通道召回等等。包含了丰富的内容,比如你关注的博主发布的内容、人气飙升的内容、热点及其周边,在内容方面有娱乐、影视、政治等。总之,无论最终呈现给用户的是什么内容,都必须在保证“完整”的基础上做到“准确”。召回步骤更注重“完整性”的问题。筛选=重选海选选出的美女将进入重选阶段。这么一大群人是不可能成功应聘的,而且人还是太多了。因此,在入宫之前,负责选拔的太监还要剔除另外一批人,比如太高太矮、太胖太瘦、文化程度不够、性格不好、投机等。运营在过滤掉低素质玩家的同时,也减轻了工作人员在下一环节的工作压力。我们以新闻推荐为例。被召回的内容有热点头条反动、点赞率低、内容过时等。先杀掉第一波,过滤掉召回中相当一部分低质量的内容,留下更多的精华。粗排=三面入宫前,这一步其实没有必要。主要看宫中太监的处理能力。如果改选后还剩三千人,宫里的太监能搞定五千人,那就不用三面了,进来谈就可以了。但如果处理量只有1000人,进宫前就需要过滤掉一波人,减轻宫中负责甄选的太监们的工作压力。经验等综合打分,再过滤掉一波质量比较差的,精益求精。就推荐算法而言,这里的处理能力一般是指服务器的负载能力。数据量小的小app在召回阶段可能资源不足。不多。这时候,细排序和粗排序可以一起做。但是,对于大型应用,过滤后数据量仍然很大。这时候就需要使用粗排序来继续过滤一波数据来减轻服务器的负载。与太监打分美女类似,粗排序也是根据用户特征打分。目前使用的各种评分算法,其实相当于评委们在选妃过程中讨论的几种不同的评分规则。精排=三更之后,剩下的人终于可以进宫了。谁能最终出现在皇帝的床头柜上,还需要重新评估。如果前面剔除的是一些普遍特征,那么在细排中除了前面的静态特征外,还会加入一些动态特征和皇帝自己的喜好。比如定期考核,观察美女的行为举止(仪容仪表、行为举止、是否打呼噜、是否说梦话、是否有狐臭,甚至“探胸、闻腋窝、摸纹理、查贞操”));统计皇帝近几年的行为偏好(圆脸还是锥子脸,淑女还是小家碧玉,文艺青年还是搞笑青年),然后对这些特征进行综合打分,最后选出这五十人展示在皇帝的侍从中list.这相当于新闻列表除了前面提到的特征之外,还需要结合内容的喜好、评论率、报道数、报道率和当前用户的喜好(是否喜欢时事、科技或娱乐)进行综合评分,并曝光最适合当前用户的内容,以上就是展示的过程当我们浏览应用程序时,底层推荐算法向我们提供的内容。看完之后,有没有一种帝王般的待遇呢?在理解了以上步骤的基础上,即使不理解算法的具体构造和实现过程,也可以从以上四个过程中得到一些分析思路。比如用户点击率低,是因为召回太多但过滤特征不够,导致质量差的内容进入精排过程,还是精排过程中用户特征太少导致的。用户的喜好相当于推荐引擎的冷启动。这时候推荐的内容比较杂乱。慢慢地,随着用户行为的积累,算法学习到用户的偏好,推荐的内容也越来越集中在某几个领域。就像抖音一样,刚注册时大家的曝光度可能都差不多,可能用了一年之后差异就更明显了。这样做的好处是取悦用户,推荐的内容越来越精准,用户留存率越来越高。缺点是限制了用户的视野,把每个用户都锁在一个自娱自乐的盒子里。你觉得这样好吗?