当前位置: 首页 > 科技观察

可以采用哪些KPI来衡量人工智能项目的成功与否?

时间:2023-03-14 13:44:36 科技观察

研究公司IDC在2020年6月发布的一份研究报告显示,大约28%的人工智能计划都失败了。报告中给出的理由是缺乏专业知识,缺乏相关数据,缺乏充分整合的开发环境。为了建立持续改进机器学习的流程并避免陷入困境,确定关键绩效指标(KPI)现在是当务之急。在行业上游,数据科学家可以定义模型的技术性能指标。它们将根据所使用的算法类型而有所不同。例如,在旨在根据年龄预测某人身高的回归的情况下,可以求助于线性决定系数。可以使用衡量预测质量的方程式:如果相关系数的平方为零,则回归线标识0%点分布。相反,如果系数为100%,则数字等于1。因此,这表明预测的质量非常好。评估预测与现实偏差的另一个指标是最小二乘法,它指的是损失函数。它涉及通过计算实际值与预测线之间偏差的平方和来量化误差,然后通过最小化平方误差来拟合模型。同样的逻辑,可以利用平均绝对误差法,它涉及计算偏差基值的平均值。法国咨询公司Capgemini的战略、数据和AI服务主管CharlottePierron-Perlès总结道:“无论如何,这相当于衡量与我们试图预测的差距。”例如,在垃圾邮件检测的分类算法中,需要发现垃圾邮件的误报和漏报。PierronPerlès解释说:“例如,我们为一家化妆品集团开发了一种机器学习解决方案,可以优化生产线的效率。目的是在生产线的起点识别可能导致生产中断的有缺陷的化妆品。我们正在与工厂经营者讨论后,与他们寻求一个模型来完成检测,即使这意味着检测误报,即可接受的化妆品可能被误认为是次品。”基于假阳性和假阴性的概念,其他三个指标允许评估分类模型:(1)召回率(R)是指模型敏感性的度量。它是正确识别的真阳性(在冠状病毒检测呈阳性的情况下)与所有应该检测的真阳性(冠状病毒检测呈阳性+冠状病毒检测呈阴性但实际上呈阳性)的比率:R=真阳性/真阳性+假阴性。(2)精密度(P)是指准确度的量度。它是正确的真阳性(COVID-19阳性)与所有确诊阳性(COVID-19阳性+2019-nCoV阴性)的比率:P=TruePositive/TruePositive+FalsePositive。(3)调和平均数(F-score)衡量模型给出正确预测和拒绝其他预测的能力:F=2×precision×recallrate/precision+recallrate模型推广DavidTsangHinSun,法国首席高级数据科学家ESNKeyrus公司强调:“模型一旦建立,其泛化能力将是一个关键指标。”那么如何估算呢?通过衡量预测结果和预期结果之间的差异,然后了解这种差异如何随时间演变。他解释说,“一段时间后,我们可能会遇到分歧。这可能是由于数据集在质量和数量方面的训练不足导致的学习不足(或过度拟合)。”那么解决方法是什么??例如,在图像识别模型的情况下,对抗生成网络可用于通过旋转或扭曲图像来增加要学习的图像数量。另一种技术(适用于分类算法):syntheticminorityoversampling,它涉及通过过采样来增加数据集中低出现示例的数量。在过度学习的情况下也会出现分歧。在这种配置下,训练后的模型不会局限于预期的相关性,但由于过度专业化,它会捕捉到现场数据产生的噪声,从而产生不一致的结果。DavidTsangHinSun指出,“然后将有必要检查训练数据集的质量,并可能调整变量的权重。”经济的关键绩效指标(KPI)依然存在。法国咨询机构AIBuilders的首席执行官StéphaneRoder认为:“我们必须扪心自问,错误率是否符合业务挑战。例如,保险公司Lemonade开发了一种机器学习信息(包括照片)来支付保险金给客户。考虑到节省,一定的错误率是有成本的。在模型的整个生命周期中,特别是与总拥有成本(TCO)相比,从开发到维护,检查这一点非常重要测量。”采用水平即使在同一家公司内,预期的关键绩效指标(KPI)也可能不同。凯捷的CharlottePierronPerlès指出:“我们为一家具有国际地位的法国零售商开发了一个消费预测引擎。事实证明,该模型的精确定位不同“在百货商店销售的产品和新产品之间。后者的销售动态取决于因素,尤其是那些与市场反应相关的因素,从定义上讲,这些因素是难以控制的。”最终的KPI是采用程度。CharlottePierron-Perlès说:“即使一个模型质量很好,但它本身是不够的。这就需要开发具有用户体验的人工智能产品,可以用于商业,实现机器学习的承诺。StéphaneRoder总结道:“这种用户体验还将允许用户提供反馈,这将有助于提供超越日常生产数据流的AI知识。”