当前位置: 首页 > 网络应用技术

学习对算法和评估指标进行排名

时间:2023-03-05 20:54:18 网络应用技术

  分类学习是推荐,搜索和广告的核心方法,而LTR是一种监视机器学习算法,专门从事分类任务。因此,LTR仍然是传统的机器学习处理范式,结构特征,学习目标,培训模型,预测。LTR通常分为三种类型:成对,成对和列表。这三种算法不是特定的算法,而是三种设计思想,这些算法主要反映在损失函数,标签标签方法和优化方法中。

  以搜索任务为例,点仅考虑当前Qeury和每个文档的绝对相关性,而无需考虑其他文档与Qeury之间的相关性。PW方法通常将文档编码为特征向量。根据训练数据训练分类模型或回归模型,在预测阶段,该文档是直接评分的。根据此分数进行排序是搜索的结果。

  处理逻辑如下所示:

  成对的基本思想是为样本进行两个或两个比较,构建部分订单文档对,并从比较中学习顺序。在尖端分析的情况下,我们需要的是正确的搜索结果顺序,不是检索结果和查询的相关得分。通过学习两个或两个之间的关系,“ A> B”,“ B> C”和“ A> C”来推断“ A> B> C”本质

  处理逻辑如下:

  点和成对是要了解每个样本是直接相关的,还是两个正面和负面样本的相关性,更像是公制学习的想法。有一个基本的劣势。列表的基本思想是尝试直接优化排序诸如NDCG之类的指标,以了解最佳的排序结果。

  输入示例的格式是查询,他的所有候选文档。y {i1},..,y_ {im})$。标签$ y $的值是所有候选人文档的订单。例如,候选人集为$ {a,d,d,c,b,e}$。如果是自然顺序,相应的标签为$ {5,2,3,4,1} $。通过各种listWise算法培训模型。预测阶段;根据分数排序。

  NDCG

  NDCG的解释

  平均平均精度(地图)

  在排序任务中,每个查询都会有一个安排列表。顾名思义,地图是集合集合的所有查询AP的平均值。然后让我们看一下AP:

  其中,这意味着项目列表,即推送结果列表。m表示结果列表的总数,指示与结果列表中的查询相关的数字。这意味着位置k处的标签是否相关,1含义相关,0表示无关。

  代码: