当前位置: 首页 > 科技观察

什么是特征工程?为什么需要自动化?_0

时间:2023-03-13 07:43:31 科技观察

【.com速译】人工智能(AI)在当今越来越普遍和必要。从欺诈预防和实时异常检测到预测客户流失,企业客户每天都在寻找机器学习(ML)的新应用。ML的幕后是什么?该技术如何做出预测?使AI发挥其魔力的秘诀是什么?在数据科学领域,关注点通常在算法选择和模型训练上,这些确实很重要,但AI/ML工作过程中最关键的部分不是我们如何选择或调整算法,而是将什么输入到AI中/ML,也就是特征工程。特征工程是数据科学界的圣杯,也是决定AI/ML结果质量的最关键步骤。无论使用何种算法,特征工程都会决定模型性能并影响机器学习生成有意义的见解并最终解决业务问题的能力。特征工程简介特征工程是应用领域知识从原始数据中提取分析表示,使其为机器学习做好准备的过程。这是开发用于预测的机器学习模型的第一步。特征工程需要应用商业知识、数学和统计学,将数据转换成机器学习模型可以直接使用的格式。它从分布在不同数据库中的许多表开始,然后使用统计转换和/或关系操作将这些表连接、聚合和合并成一个平面表。例如,预测可能在任何季度流失的客户意味着确定最有可能不再与公司开展业务的潜在客户。你如何做出这样的预测?我们通过查看根本原因来预测客户流失。此过程基于分析客户行为然后创建假设。假设客户A在上个月联系了客户支持五次——这意味着客户A正在抱怨并且可能会流失。在另一种场景下,客户A的产品使用率可能在过去两个月下降了30%,表明客户A的流失可能性很大。特征工作的任务是查看历史行为,提取一些假设模式,并检验这些假设。揭秘特征工程特征工程旨在从历史数据中提取业务假设。涉及客户流失等预测的业务问题是分类问题。可以使用各种ML算法,例如经典逻辑回归、决策树、支持向量机、增强和神经网络。虽然所有这些算法都需要一个平面矩阵作为输入,但原始业务数据存储在具有复杂关系的不同表中(例如交易、时间和地理位置表)。我们可以先将两个表连接起来,然后对连接后的表进行时间聚合,以提取时间上的用户行为模式。实际的特征工程比单热编码等简单的转换操作复杂得多,它将分类值转换为ML算法可以利用的二进制指标。为了实现特征工程,我们编写了成百上千个类似SQL的查询,执行了大量的数据操作,并执行了大量的统计转换。在机器学习的背景下,如果我们知道历史模式,就可以创建假设。基于这个假设,我们可以预测可能的结果——比如哪些客户可能会在特定时间段内流失。特征工作的关键是找到假设的最佳组合。特征工程至关重要,因为如果我们将错误的假设作为输入,机器学习就无法做出准确的预测。任何提供的假设的质量对于ML模型的成功至关重要。从准确性和可解释性的角度来看,特征质量至关重要。为什么特征工程需要自动化?特征工程是涉及跨学科专业知识的最迭代、最耗时和资源密集型过程。它需要技术知识,但更重要的是领域知识。数据科学团队构建功能的方式是与领域专家合作,测试假设,构建和评估ML模型,并重复该过程,直到结果被公司接受。由于需要深度领域知识才能生成高质量的特征,特征工程被广泛认为是专家的“魔法”;从原始业务数据开发高质量的特征表是不可能的,即使团队经常将80%的精力都花在自动化上。自动化特征工程有可能改变传统的数据科学过程。它大大降低了技术壁垒,消除了数百个手动SQL查询,即使没有全面的领域知识也可以提高数据科学项目的速度。它还基于在数小时内探索数百万特征假设的能力,增强了我们对数据的认识并带来了“未知的不确定性”。AutoML2.0自动化特征工程最近,ML自动化(也称为AutoML)备受关注。AutoML克服了企业面临的一大挑战:AI和ML项目的时间框架通常需要数月才能完成,并且缺乏处理问题的专业知识。虽然当前的AutoML产品无疑在加速AI和机器学习过程方面取得了重大进展,但它们未能解决最重要的步骤:从原始业务数据准备机器学习输入的过程,即特征工程。要真正改变现代企业利用人工智能和机器学习的方式,数据科学开发的整个周期必须实现自动化。如果说数据科学自动化的核心问题是数据科学家的缺乏、业务用户对机器学习的理解不足、生产环境迁移困难,那么AutoML也必须克服这些挑战。自动化数据和特征工程的AutoML2.0已经浮出水面,将特征工程自动化和ML自动化简化为单一管道和一站式系统。借助AutoML2.0,从原始数据、数据和特征工程到ML模型开发的整个周期只需数天而不是数月,而且团队交付的项目数量增加了10倍。特征工程有助于揭示数据中隐藏的模式,以及基于机器学习的预测分析。算法需要具有相关业务假设和历史模式的高质量输入数据,而特征工程提供了这些数据。然而,它是AI/ML工作流程中最依赖人和最耗时的部分。AutoML2.0简化了特征工程自动化和ML自动化。这项新的技术突破可以加速和简化企业的AI/ML。它使更多的人,如BI工程师或数据工程师能够执行AI/ML项目,并使企业AI/ML具有更高的可扩展性和敏捷性。原标题:什么是特征工程,为什么需要自动化?,作者:藤卷良平