当前位置: 首页 > 科技观察

机器学习的模型管理:集成建模_0

时间:2023-03-22 12:06:33 科技观察

译者|崔浩审稿人|孙淑娟在选择学习方式时不知所措。许多组织在机器学习的应用中使用先进和经典的学习方法。有监督和无监督学习的常见二分法,以及机器学习的新兴变体,如对比学习、强化学习和自监督学习。此外,还有涉及图形分析、深度神经网络、分割、行为分析等的技术。当面对大规模的复杂业务问题时——例如加强反洗钱措施打击金融犯罪——组织如何决定使用哪种机器学习方法?使用集成建模可以使这个问题变得不那么重要。这种机器学习方法使组织能够利用各种模型并将它们与预测准确性相结合以获得最佳结果。这种方法有助于为金融服务、欺诈检测和网络安全中的高维数据提供完整的上下文。使用集成建模的组织表示,“集成建模允许构建模型更加多样化,”ResistantAI首席执行官MartinRehak承认,“我们不希望单一模型是最好的。”使用模型的多样性使组织能够使用不同的模型。评估业务问题所有方面的算法,以便采用完全知情、一致的决策方法——可解释的方法。基于共识的模型决策前面提到的集成建模原理是毋庸置疑的。数据科学家不需要花费大量时间为业务案例设计完美的模型,而只需要将那些不完美的模型组合起来产生预测能力。“当你以整体方式看待机器学习时,你是在通过小算法做出决策,”Rehak指出。“而且,在我们的案例中,这些算法会针对每笔交易进行动态组合,以做出最佳决策。”更重要的是,也许这些模型中的每一个都可以专注于某个垂直领域,例如识别洗钱事件。例如,一种模型只关注交易的规模。另一种模式侧重于交易地点。不同的模型可以检查交易中涉及哪些特定参与者。Rehak解释说,目标是“没有任何峰值”的情况。“模型的分布非常平坦,模型对应的证据页面相对较弱。通过结合许多弱证据元素,可以做出更强的决策。”另一个好处是,通过经典机器学习和更简单的模型,减少了将模型投入生产所需的训练数据(和注释)。这样的模型比需要大量训练数据的深度神经网络更容易解释。上下文建模将Rehak描述的分布平坦建模方法与其他集成建模技术区分开来很重要。集成建模最常见的例子涉及装袋或提升(后者可能需要XtremeGradientBoosting)。随机森林是基于不同决策树组合的提升示例。使用这种方法,“您可以根据集合中的先前版本一个一个地构建集合,”Rehak评论道。虽然这是一种快速构建预测精度高的模型的方法,但它存在过度拟合的风险(模型变得不太适合生产数据,因为训练数据集太小)。Rehak的集成方法更适合AML用例,因为它基于影响这些事件的上下文。“如果你问洗钱专家一项交易是否是恶意的,他们首先会查看账户的历史记录以及此人过去的行为,”Rehak说。通过他的方法,使用单独的机器学习模型检查地理、时间、关联方和金融机构等相关因素。只有结合每个模型的结果,AI系统才能确定是否发生了犯罪交易,误报率会大大降低。“机器学习可以解释大部分异常值,否则这些异常值会使AML团队不堪重负,”Rehak说。决策边界当对一个用例进行集成建模时,使用60多个模型来对分析事务的不同方面进行建模的情况并不少见。集成方法的实时结果非常适合这种应用场景。“这60种算法中的一种可以将所有内容分成多个部分,然后对每秒的平均事务大小进行建模,”Rehak透露道。“我们可以有数千件,同时动态更新。”由于集合中包含大量模型,每个模型都评估交易的不同方面以检测潜在的犯罪行为,因此无法再创建更全面的方法。“我们从很多角度看待你,因此很难塑造你的行为,同时让你避免所有这些罪行,”Rehak透露道。取而代之的是大量的动态决策边界。这些算法中的每个模型都是独立学习的,然后我们将它们组合起来。”可解释的AI这些集成如何增强可解释性以及许多相关方面。首先,它们不严重依赖高级机器学习,只包括更简单、更可解释的算法(涉及传统机器学习)。这些模型成为评估交易犯罪的基石。“当我们说某件事很重要时,我们可以告诉你原因,”Rehak说。“我们可以告诉你哪些指标表明了这一点。我们可以为每个发现由于这些因素而存在高交易犯罪风险的发现写一份报告。”虽然每个算法都关注特征,但并非所有算法在模型中都具有相同的权重。通常,涉及图形分析(擅长检查关系)的算法??比其他模型具有更大的权重。模型不仅可以解释可疑行为,还可以告诉您为什么会出现异常值。“通常我们在一个整体中有四到五个主要算法,这意味着当我认为它由于算法而成为异常值时,其他人会同意,”Rehak指出。“此外,我们有四到五个触发器,这保证了结果在某种程度上更倾向于异常。”由于单个模型仅评估交易中的一个因素,因此它们提供可解释性和单词可解释性。“因为我们知道聚合,我们知道微细分,我们知道交易量,所以我们可以轻松地在分数旁边显示带有问题的信息,这对公司的财务部门非常重要,”Rehak补充道。集成模式最终,集成建模的使用比任何其他应用程序都多,尽管它对反洗钱活动有很大帮助。如果应用得当,该技术可以提高可解释性,同时减少解决关键业务问题所需的训练数据和注释的数量。集成建模利用各种数据科学技术来解决多个业务问题,而不是将问题限制为一两个。因此,这种解决问题的综合方法可能成为AI部署的典范。译者介绍崔浩,社区编辑,资深架构师。他拥有18年的软件开发和架构经验,以及10年的分布式架构经验。他曾经是惠普的技术专家。乐于分享,撰写了多篇阅读量超过60万的热门技术文章。《分布式架构原理与实践》作者。原标题:机器学习模型管理:集成建模