当前位置: 首页 > 科技观察

机器学习的挑战:黑盒模型面临这三个问题

时间:2023-03-17 00:46:06 科技观察

01机器学习面临的挑战2016年3月,基于深度学习算法的AlphaGo以4:1的总比分战胜围棋世界冠军李世石,深度学习算法从此名声大噪,成为机器学习领域备受推崇的明星算法。在计算机视觉、语音识别、自然语言处理、生物信息学等领域取得了优异的应用成果。虽然深度学习模型和集成学习模型(如XGBoost、LightGBM等)在很多领域都取得了不错的成绩,但是这类模型有一个共同的特点:内部结构非常复杂,其运行机制就像一个黑盒子。同样,难以用人类能够理解的语言来描述,模型的输出结果也难以解释,使其在一些关系到生命安全或重要决策的领域的应用面临着巨大的挑战。例如,在银行业,2019年2月,波兰政府对银行法增加了修正案,赋予客户在遇到负面信贷决策时的解释权。这是欧盟实施的GDPR(《通用数据保护条例》,通用数据保护条例)的直接影响之一。这意味着如果决策过程要自动化,那么银行需要能够向客户解释贷款未获批准的原因。2018年10月,“亚马逊人工智能招聘工具偏向男性”的报道登上全球头条。亚马逊的模型是根据有利于男性求职者的偏见数据进行训练的。该模型建立了不喜欢包含“女性”一词的简历的规则。上述问题的提出表明,行业对模型的应用要求并不局限于准确率的高低。模型结果是否可解释,模型是否安全、公平、透明,也是机器学习面临的新挑战。02黑盒模型存在的问题在实际应用中,为什么黑盒模型难以一步解决所有问题?在回答这个问题之前,我们先来看几个关于银行业的小故事。1)小杨是某银行的理财客户经理。年关将至,绩效考核即将开始,但他的业绩离既定的销售目标还差得很远。于是他决定用机器学习模型来判断哪些负责的客户名单更有可能购买基金产品。花了一周的时间写代码和做特征工程,小杨成功跑了一个XGBoost(ExtremeGradientBoosting,梯度提升)模型,模型的AUC(AreaUnderCurve,ROC曲线下面积与坐标轴)达到0.86,结果很满意,于是他兴高采烈地拿着模型预测出来的名单,一张一张地进行电话营销。结果,打了上百个电话,最后只有一两个客户购买了基金产品,肖杨盯着自己的代码陷入了沉思。2)小苏是某银行的风控专员。近日,该行新开通的信用卡遭遇了严重的逾期还款问题。该银行决定调整和优化旧的评分模型,以防止更多的违约。于是他用新的训练数据更新模型,重新组合一些特征,最后将新模型部署到线上。然而,没过多久,银行就开始接到不同的投诉电话:“为什么我提供了所有信息,征信没问题,但我的信用卡却无法通过?”“我提交的信息和我同事的个人资料信息不一致,为什么他的名额比我的高这么多?”……面对应聘者的连续追问,小苏一时答不上来。打分模型,他是绞尽脑汁解剖模型3)小何是典型的“吃货”,特别喜欢喝珍珠奶茶,几乎每顿饭后,他都会在手机银行上浏览附近的奶茶店。最近,她婚礼临近,看到自己的体重还在增加,于是下定决心减肥,办了一张健身年卡,每餐以沙拉等清淡食物为主,避免珍珠奶等高糖食物令她苦恼的是,每次吃完饭用手机银行APP结账,APP总会向她推荐附近的奶茶店,为了避免诱惑减肥,小何毅然决定卸载手机银行应用程序。由于黑盒模型内部结构的复杂性,模型使用者往往不知道数据进入模型后如何得到预测结果。我不知道为什么。对于决策者,尤其是高风险领域(如自动驾驶、金融领域、医疗行业等)的决策者,如果不了解黑盒模型的运行原理,就不敢轻易基于模型的预测结果。决策。虽然人工智能和机器学习技术大大提高了人类生活和工作的效率,但在很多领域,人工智能正在发挥着巨大的作用。但不可忽视的是,人工智能和机器学习中的模型黑盒问题同样需要我们关注,值得我们深入思考。模型黑盒问题具体包括以下三点。1.无法挖掘因果关系或因果误判。在使用机器学习模型时,我们不仅希望模型能够给出正确的预测结果(尤其是在医学、金融、自动驾驶等高风险领域),更希望模型能够为我们提供判断的依据.黑盒模型的内部结构复杂。在使用黑盒模型做预测的时候,我们会根据一些模型评价指标(比如AUC)来评价模型的好坏,但是即使AUC很高,我们仍然不知道黑盒的判断-boxmodel基础是否正确。如果模型不能给出合理的因果关系,那么模型的结果也将难以令人信服。著名的微软研究院的Caruana曾在论文[1]中提到一个医学例子:在一个关于肺炎风险的数据集中,我们想预测不同肺炎患者的死亡概率,从而更好地治疗高危人群。患者。肺炎患者。最准确的模型是神经网络,AUC为0.86,但当我们使用基于规则的模型时,该模型了解到“如果患者患有哮喘,那么他属于低风险组”。也就是说,肺炎合并哮喘患者的死亡率低于其他肺炎患者。这个结论看似模棱两可,违背了我们的客观认知,但如果深入挖掘,就会发现其中的逻辑关系:既往有哮喘病史的肺炎患者,会因病情严重而接受进一步治疗。效果通常也很好,降低了此类患者的死亡率。如果我们直接使用属于黑盒模型的神经网络模型,那么该模型无法推导出这样的因果关系,从而将肺炎合并哮喘患者判断为低死亡率(低风险)人群,而这类人群可能错过最佳治疗时间,其实他们需要得到更好的治疗。2.黑盒模型的不安全性黑盒模型的不安全性可以分为两类,具体描述如下。首先,对于建模者来说,黑盒模型的内部结构很复杂。当模型受到外界的攻击时,我们通常很难发现这些攻击。如果黑客在原有模型的输入样本中加入一些扰动(俗称对抗样本),那么模型很可能会做出错误的判断。如果建模者不能及时调整模型,将会导致非常严重的后果。例如,当黑盒模型应用于自动驾驶时,如果黑客对轮胎的图像样本进行一些扰动,可能会导致对轮胎的错误识别,从而导致严重的车祸。如果建模者在建模时没有发现模型存在此类问题,那么模型投入实际应用时,行车的安全系数就会大大降低。二是对于模型的使用者来说,他们并不了解模型的运行机制,只是根据模型的结果进行决策。当我们拿到一个新工具时,不仅要知道如何正确操作工具,还要知道使用工具时的注意事项和风险。除方法外,药品说明书还会写明不良反应、禁忌症和注意事项。患者只有了解了这些信息,才能安心服药。黑盒模型无法解释模型的结果,结果通常以概率或分数的形式给出,但用户对模型结果的风险点知之甚少,就像患者不了解不良反应一样药物。如果有人使用欺诈或伪造的方式来提高自己在黑盒模型中的得分,用户将很难发现黑盒模型结果的异常,从而导致模型结果使用不安全的问题。3.黑盒模型可能存在偏差。偏见是指特定人群的主观意识和情绪。这是偏见的普遍问题,例如性别歧视和种族歧视。黑盒模型存在偏差问题。从表面上看,似乎是说黑盒模型可以反映人类的思维。实际上,这意味着黑盒模型在进行预测时,放大了数据收集过程中可能存在的数据不平衡,导致模型最终得出有偏差的结果。例如在美国广泛使用的COMPAS算法,通过预测罪犯再次犯罪的可能性来指导量刑。据美国新闻机构报道,COMPAS算法存在明显的偏差。远高于白人,甚至是后者的两倍。从算法结果分析,黑人的预测风险高于实际风险,被黑人误判的概率是白人的两倍以上。也就是说,COMPAS算法对黑人是非常不公平的,这种算法的应用已经严重影响了判决的公正性和公正性。一些模型的算法还涉及性别歧视、年龄歧视等问题。由于黑盒模型缺乏内部解释力,在模型训练过程中不可避免地会使用不平衡的样本数据。因此,使用这样的模式,问题严重时可能会引发一系列的社会问题。同理,在金融领域,我们做风险评估的时候,黑箱模型可能会对不同的性别、地域、年龄等特征进行区别对待。综上所述,如何避免模型做出有偏预测是一个值得我们关注的问题。