大家好,我是凉糖。今天和大家聊聊搜索、广告、推荐算法中一个非常重要的指标,就是著名的点击率。点击率是很多同学都听说过的一个指标。它的意思也很简单。顾名思义,就是点击的概率。英文叫做CTR。如果我们用一个公式来表达的话,就是点击/展示。这里的click是发生的总点击次数,分母中的impression是曝光次数。两者的商就是点击率。这些大家都很容易理解,但问题是点击率为什么那么重要呢?没有多少人能回答这个问题。为什么点击率是核心指标搜索、广告和推荐是几乎所有互联网公司中最重要的三大业务,也是三大流量驱动力。回想一下你自己使用某个宝物的经历。您浏览最多的是搜索和主页推荐吗?严格来说,广告不是一个场景,它与搜索、推荐深度融合。无论是搜索区还是推荐区,都有广告。而广告也是当今互联网公司最重要的收入来源,没有之一。对于这些场景,有一个非常严肃和关键的问题:我们如何量化显示结果的质量?我们作为用户的体验当然很简单。我输入一个搜索词,你返回的结果是无关紧要的,自然只是不好的结果。但问题是如何用严谨的数学表达式来回应呢?即如何量化回报的效果?比如搜索场景可能比较好,比较在意相似度。但是不太适合推荐和广告场景,因为推荐场景中没有强信息的searchterm,所以不存在相似或者不相似的概念。即使是搜索场景,相似度也不是很合适,因为相似度不代表质量高。比如我搜索手机,结果全是假冒手机或者不明品牌。单纯从相似度上来说,这些结果是相似的,但是显然效果并不好。以点击率作为核心指标,是一个比较合适和巧妙的做法。点击率高说明用户愿意点击,一定程度上反映了展会的效果。这也是为什么点击率会成为每个场景的核心指标。点击率与广告不仅如此,点击率的预测对于广告领域来说尤为重要。是广告系统的核心指标,没有之一。目前电子商务领域的广告投放模式一般有三种,一种是基于曝光,一种是基于点击,最后一种是基于交易。这三种模式在生活中也很常见。我举几个例子,让大家一目了然。比如我们看的电视广告,电线杆上贴的小广告,或者报纸上的广告,都属于第一种。因为我们没有很好的方法去追踪广告的效果,比如电视广告,电视节目的标题广告等等。因为我们看了就完事了,不像电商广告那样点开商品就可以浏览详情。曝光模式同样存在于电商场景,比如某宝的首页推荐,双十一等活动的展品推荐就属于这一类。商家支付一定费用参与活动,一次性买断,平台不对任何配送效果负责。这些类型的广告往往具有一些共同的特点,比如广告服务商比较强,广告展位突出,含金量高,竞争激烈。此外,还有一些着眼于长期价值的广告,如可口可乐、零食、汽车等商品。这些产品往往不会因为广告而获得立竿见影的效果,而是通过对消费者产生长期的影响来获得商业回报。2.第二种模式是点击广告,这也是最常见的广告类型。它的特点是需要用户点击,即用户有打开广告的意愿。也是目前互联网行业最主流的广告,比如大部分电商平台的广告,视频媒体的广告,搜索引擎的广告。这类广告的服务商可以简单理解为流量贩子,通过卖流量来盈利。想要将手头流量的收益最大化,自然要展示最有价值的广告。一则广告的价值由两部分组成,一部分是广告主给出的要价,这是众所周知的。另一个是产生点击的期望,即点击率。因此,一个广告最终的收益预期就是广告主的要价乘以该广告的点击率CTR。但是这里有个小问题。一个广告的点击率是一个后验值,也就是说我们只有在它先被展示出来之后才能知道它的点击率,而不能提前得到。为了解决这个问题,引入了机器学习,使用智能算法来预测点击率。我们假设模型预测的点击率是pCTR,然后用它乘以价格就可以得到这个广告的预期收益。这样,广告的收益期望就变成了一个特定的值。有了这个值,我们在展示的时候就可以进行排序,把期望值最大的广告展示在前面,把期望值最小的广告展示在后面,达到利益最大化的目的。3、最后一类是交易型广告,一般规模不大,有点类似于各大导购网站。送什么礼物,买什么值得买之类的网站就是这种模式。这些网站通过将流量引流给商家进行交易来获取佣金,这也是最传统的广告模式。在这三种模型中,第二种在互联网行业应用最为广泛,这种广告机制的核心在于点击率的预测。点击率预测越准确,排序后的收益就越高,公司的盈利能力就越好。由于这是盈利能力的问题,因此它的权重很高也就不足为奇了。说了这么多关于点击率的问题,相信大家对点击率指标的用处和重要性有了一定的了解。但是世界上没有十全十美的东西,算法模型的指标也是一样的。如果仅仅将点击率作为模型的训练目标,会出现很多问题。下面我也举几个例子与大家分享。低俗、头条党,一种是普通头条配普通图片,另一种是各种惊险刺激的头条配美女火辣图。哪个点击率最高相信大家都能看出来。毕竟,人是视觉动物。很少有直男会忍不住指着美女的照片。这些是我们的直觉。但这带来了一个问题。点击率高的内容未必质量好,反之往往质量差。这也是标题党和封面图党内容在各大内容平台火爆的原因。长此以往,势必导致用户产生审美疲劳,对平台失去信心,势必导致用户流水。这一点有一个经典的例子。我在百度和搜狗里搜索“透视”这个词,结果大相径庭。这是百度的结果:这是搜狗的结果:无论什么样的网站,如果一味追求点击率,到头来平台往往充斥着头条党、眼球党等不良内容.真正优质的核心用户,往往早就被流光了,离破产不远了。跷跷板效应第二个问题是跷跷板效应,即点击率的上升可能会导致其他指标的下降。这也很好理解。例如,当我在购物网站上搜索产品时,我找到的都是漂亮的封面。也许点击率会飙升,因为它吸引了注意力。但是搜索出来的结果并不是我想要的,那么订单量和成交量显然会大大减少。高点击率和高成交量本身就是两个特点。算法加强了对点击率的描述,必然会牺牲一些其他的特征。比如一些视频网站可能会比较明显。例如,虽然点击率增加了,但观看时间可能减少了,用户每天花费的时间变少了。用户虽然打开了更多的视频,但也失去了更多的耐心,这显然不利于平台的长远发展。推荐场景也是如此。如果向用户推荐的商品点击率有明显提升,用户就有可能一键找到自己想要的东西,提前实现购物目标。那么用户出去玩的时间就会减少,浏览的商品也会减少,自然产生的交易也会减少,对平台也是不利的。对策那么对于点击率的这些问题,我们有没有什么特别好的对策呢?不幸的是,没有。因为点击率太有用了,没法用,整个算法体系就乱套了。而且确实能很好的反映问题,作为核心指标肯定是没问题的。但是如果过于依赖点击率,确实会出现上面提到的问题。很头疼,但是业界确实没有什么特别好的方法。还是更多依赖工程师的主观能动性,根据人的理解进行调整,没有通用的策略。目前比较主流的方法是让模型同时学习多个目标,而不是只吊在一棵树上,想办法提高点击率,同时优化其他目标。也有团队忽略其他指标,先专注于点击率的优化,优化结束后再依次优化其他指标。这些方法不能说没有用,但有些头痛是治不好的。其实这也很正常。算法场景本身和算法优化的目标是非常复杂的问题。我们用简单的指标来定义和覆盖一个复杂的场景是不现实的,目前的模型只能识别和学习简单的指标。一旦复杂化,就会超出范围。所以目前这个问题是没有办法根治的,只能靠人力来解决。对这些问题的思考和理解,也是一个高水平算法工程师必备的知识,远比模型原理和调参方法重要。好吧,这就是点击率的全部内容。祝大家周末愉快。本文转载自微信公众号“码农”,可通过以下二维码关注。转载本文请联系编码员梁公众号。
