在过去的几年里,AutoML发展迅速。现在看来经济衰退不可避免,利用人工智能(AI)和机器学习进行自动化开发的想法势必会受到关注。业界正在推出的各种新平台(https://dotdata.com)现在具有更多的自动化功能。人工智能现在可以驱动所谓的特征工程,它允许用户自动发现和创建数据科学处理特征。这种方法开辟了一种全新的数据科学方法,似乎威胁到数据科学家的角色。那么,数据科学家需要关注这些发展吗?数据科学家在自动化过程中扮演什么角色?企业将如何根据这种新发现的自动化技术发展?传统的数据科学流程(图;dotData公司)AutoML2.0肯定会让数据科学更加自动化第一代AutoML平台主要侧重于数据科学流程中机器学习部分的自动化。但传统数据科学工作流程中最冗长和最具挑战性的部分是所谓的特征工程,这是一个高度手动的步骤,涉及连接数据源和构建广泛的“元素表”,其中需要包含丰富多样的“元素”。同时,需要针对多种机器学习算法对这些元素进行评估。特征工程当前面临的挑战是新特征只能通过更高水平的领域专业知识“孵化”,并且这个过程需要在特征被评估、拒绝或选择时迭代地完成。然而,最近出现了新的平台,它们提供了旨在应对这一挑战的额外功能和自动化。现在一些具有“自动特征工程”功能的平台可以从关系数据源和非结构化文件中自动创建特征表。这种在数据科学过程中“自动生成”元素的能力可以说是一项改变游戏规则的功能。然后,突然之间,“公民”数据科学家开始成为开发ML和AI模型的组织的宝贵贡献者。通常,“公民数据科学家”是指商业智能(BI)分析师、数据工程师和组织中具有深厚领域知识的其他精通技术的成员。借助机器学习,BI团队可以使用自动化特征工程在几天内开发出复杂的预测分析算法,无需数据科学家的帮助即可大大提高生产力。自动化数据科学:民主化AutoML2.0平台的主要优势之一是它可用于真正实现数据科学的民主化。数据科学自动化可以加速发现特征和创建特征的过程,并自动进行,以便更广泛的用户群体可以为数据科学过程做出贡献。特征创建的自动化使“公民”数据科学家能够创建极其有用、高度优化的用例。公民数据科学家通常具有高度的“领域专业知识”,因此他们可以在数据科学团队很少或根本没有帮助的情况下专注于对组织具有高价值的用例。支持公民数据科学家的另一个好处是,公司可以开发数据科学的用途,而不必担心雇用数据科学家。2018年LinkedIn的一项研究显示,美国的组织在招聘数据科学家方面遇到了困难。鉴于此,能够发现新的数据科学贡献者就显得尤为重要。当前,全球经济面临诸多不确定因素。在这样的情况下,能够以最少的投入发掘出数种新型的AI/ML开发者,必将成为改变游戏规则的价值主张。在保持或增加竞争优势方面意义重大。自动化数据科学:生产力而非替代但是任何定位为专注于替代或替代数据科学家的AutoML2.0平台都将是错误的。大多数数据科学家将特征工程视为工作中最大的障碍之一。自动化可以帮助加快特征工程的过程,因为自动化可以提供令人难以置信的生产力提升,如果没有自动化,这是不可能的。对于数据科学家而言,利用AutoML2.0通常可以显着加快他们的工作速度,从几天缩短到几个月。而且,在AutoML2.0平台上使用基于AI的特征工程的数据科学家也可以发现他们从未考虑过的特征。基于AI的特征工程可以自动构建、评估和启用特征,并且可以组合来自多列(通常跨不同表和来源)的数据。此外,AutoML2.0包含一个自我发现的元素,数据科学家可以借此探索数据科学家由于时间或缺乏领域专业知识而从未考虑过的所谓“未知的未知数”。过去的元素。AutoML2.0:创建更高效??、更具包容性的AI/ML程序因此,AutoML2.0平台不会威胁数据科学家的生计,而是有助于加速数据科学过程并使之民主化。同时,AutoML2.0也为数据科学家提高生产力提供了必要的加速和自动化手段,使数据科学家能够扩展他们的工作并为业务带来更大的收益。AutoML2.0平台使数据科学大众化和加速数据科学流程的双重优势也是其最重要的卖点,而这种双重优势是在现代组织中扩展数据科学流程的关键。
