有些行业对误报非常敏感,比如金融行业。在检测信用卡欺诈时,如果检测系统将用户的行为误判为欺诈行为,将会损害金融机构的声誉。产生负面影响。又如医学领域的癌症诊断,对假阳性反应非常敏感。此外,在使用GPT-3等模型时,自动与客户聊天的机器人,其回复的文本不应包含一些不恰当的语言。接下来,我将从使用机器学习模型来推断系统开始,然后展开人工干预的推断周期的技术介绍。基于模型的推理图1.经典模型推理系统以上是一个典型的信用卡欺诈用例机器学习模型,它是系统和事件序列的简化视??图,其中模型单独负责决定给定活动是否是欺诈与否。如何选择阈值?根据精度和召回率的要求选择阈值的大小[5]。在图1的示例中,精度定义为正确预测的欺诈活动数量(真阳性样本数量)除以预测为欺诈的活动总数(真阳性样本数量+假阳性样本数量)。召回率定义为正确预测的欺诈活动数量(真阳性样本数量)除以正确预测的欺诈活动数量与实际预测为非欺诈的欺诈活动数量(真阳性样本数量+数量)之和假阴性样本)。为了实现系统目标,我们需要在精度和召回率之间做出权衡。图2中显示的精确召回(PR)曲线是一种有效的工具。图2.精确召回(PR)曲线。在较高的召回率下精确率如何降低?当recall为0.72时,precision逐渐下降到0.4左右。为了抓到70%的欺诈案件,可能会产生大量误报样本,准确率为40%。对于这种情况,误报的数量是不可接受的。需要通过合理的召回量来实现更高的精度,因此从图1开始,我们需要大于0.99的精度率。虽然我们选择了更高的精度作为权衡,但在0.99精度下,召回率为0.15,这远远不够。下面我们讨论如何使用人工干预来实现更高的准确率和更高的召回率。人为干预图3.通过人机交互提高模型性能提高召回率的一种方法是通过推理循环中的人为干预。通过这种方式,将模型置信度较低的操作结果子集发送给人工代理进行人工检查。在选择一个阈值作为模糊预测子集时,应该考虑将多少样本交给人工代理,因为人力资源通常更昂贵。所以为了帮助选择阈值,可以看下图:图4.Precision-recall阈值曲线在上面的例子中,假设接近1.0的分数表示正标签(欺诈),接近0.0的分数表示负面标签(非欺诈)。图4中显示了两个区域:绿色区域代表正样本标签的高置信度区域,即允许模型自决,得到的模型精度是可以接受的(受影响的终端用户通常可以容忍较低的误报率).黄色区域表示正样本标签置信度低的区域,在这个区域,模型自动决策的准确度水平无法接受(高误报率会对业务产生显着的负面影响)黄色区域是通过人工检查进行人为干预增加区域范围以提高准确性。负标签可以用同样的方式处理:接近0.0的区域是高置信度区域。黄色区域中的所有项目或项目子集都可供人工检查。在人工检查期间,人工代理决定该样本识别的最终结果。关键假设是人为因素在对模棱两可的案例做出决策时优于机器学习模型。但由于人力资源稀缺,发送给人工代理的请求量是选择阈值时的重要考虑因素。图5显示了针对阈值绘制的计数和召回率示例。“数量”定义为每小时将发送给人工代理进行检查的项目数。从图5可以看出,0.7的阈值是16000条(每小时)。图5.容量图(每小时请求数)和针对阈值的召回图4和图5中的两个图都可用于满足可接受的人工审查量,选择适当的阈值以满足所需的召回率。作为快速练习,在召回率为0.59(阈值0.7)时,审查量(参见图5)约为每小时16K项。在相同的召回水平下,模型精度约为0.6(见图4)。假设人工代理池容量为每小时16K项,并假设人工代理的准确率和召回率为95%,经过人工审查后,召回率为0.59的精度将介于0.95和0.99之间。使用此设置,我们能够将召回率从0.15提高到0.56(0.59[模型]*0.95[人]),同时保持精度大于0.95。使用人工干预的最佳实践为了获得高质量的人工检查,为负责人工检查项目的人工代理建立明确的培训非常重要。培训计划和定期反馈循环将有助于随着时间的推移保持人工检查项目的高质量,有助于最大限度地减少人为错误,并保持每个项目决策的SLA要求。另一种稍微昂贵的策略是让三个人工代理审查同一个项目,并从这三个代理的决策结果中以多数票来确定最终结果。上述方法也适用于微服务的实践,这包括适当的监控:从系统收到一个项目到对该项目做出决定的时间代理池的整体健康状况发送给人类的项目数量reviewItemsperhour分类统计模型精度和召回率可能会因各种原因随时间发生变化。通过跟踪精度/召回率重新访问所选阈值非常重要。我们刚刚回顾了涉及人工干预的机器学习推理系统如何在保持高精度的同时帮助提高召回率。这种方法在对误报敏感的业务场景中特别有用。精确召回阈值曲线是为人工审查和自动模型决策选择阈值的绝佳工具。但涉及人工代理会导致开发成本增加,并可能导致正在经历快速增长的系统中的瓶颈区域增加。我们需要对各个方面进行评估和权衡。
