数据科学家的部分工作是自动化他们的工作。例如,通过一些预测性API工具来自动化工作。然而,这些API已经开始在某些领域取代数据科学家的工作。这对这个行业来说可不是什么好消息。我们现在正处于大数据2.0时代。人们越来越需要利用机器学习进行预测分析。正如InsightsOneCEOWaqarHasan所指出的,“预测分析是大数据时代的‘杀手级应用’。”麦肯锡还预测,未来几年,机器学习人才将出现短缺。与此同时,我们开始看到公司向公众提供机器学习和预测分析。例如,Apigee收购InsightsOne后,推出了用于预测分析的API平台。我在大学计算机科学中学到的最大教训是“我们工作的最终目标是让自己失业”。我们的工作是让程序更快、更好、更可靠地完成我们现在所做的事情。数据科学也是如此。技术将取代数据科学家数据科学家的绝大部分工作都花在构建预测模型上:挑选与预测相关的变量。选择正确的模型,确定最佳参数等等。目前,已经有一些针对这类工作的自动化解决方案。比如EmeraldLogic的FACET以及Google和ErastzLabs提供的API。这些API从数据中抽象出复杂的机器学习模型。用户可以专注于数据收集和清理,并将数据发送到这些API以生成预测模型。这些新工具意味着在这个新模式中,不需要数据科学家,公司里的每个人都可以参与数据科学项目。高管制定战略方向,中层管理人员制定具体目标进行分析和预测,软件工程师可以专注于项目实施。这里的每个人都需要对机器学习有所了解。但是,如果不钻研算法和理论,只关注基本概念和一些具体的应用实例,即使是非技术人员也能很快理解机器学习。事实上,如果由特定应用领域的专家负责机器学习项目,往往可以更好地将应用领域的知识融入到机器学习项目中,比如能够更好地选择那些合适的特征变量,以便做出更好的预测模型。机器学习是“人工智能”的技术。通过数据建立更好的“智能”。那么我们在人工智能领域还需要人工选择模型和算法吗?我们当然有智能和自动的方法来做到这一点。人工智能领域有一个趋势,就是“元AI算法”,即针对给定的问题,可以自动找到合适的人工智能算法和合适的参数。使用这种方法进行机器学习的原理是利用概率推理来设置参数,为特征变量设置不同的权重。也可以用详尽的方式来完成。今天我们的计算能力足以让我们进行如此大量的测试。详尽的测试可以使用传统的交叉验证,或像FACET这样的增量技术。测试可以从最简单的数据分析开始。例如,如果我们发现数据在二分类上有明显的不平衡,我们可以尝试选择一种算法进行异常检测。数据科学家将来会做什么?有人会争辩说,目前有太多领域无法实现自动化。事实上,自动化机器学习的所有领域是困难的。然而,就预测而言,API目前可与那些“传统”分析技术相媲美。在这方面,API创造的价值是巨大的。由于这些新工具,数据科学家的角色也在发生变化。现在成为一名数据科学家可能比以前更容易。多亏了预测性API,数据科学家以前完成的工作变得更加容易。这些任务可以由数据库工程师或软件工程师执行。这就是有些人所说的“数据科学不是科学”。我的意思是,数据科学正在发展。在预测API的世界里,数据科学家仍然在团队中扮演着重要的角色。他帮助团队成员自主使用这些API。他们更多的是一个主管的角色来指导大家使用,而不是像以前那样动手。更重要的是,数据科学家还需要不断开发机器学习的自动化工具。例如,除了现在的“监督学习”API,“强化学习”API也开始出现。此外,还需要提供一些工具,使特定应用领域的专家能够更有效地应用他们的知识。易于集成到算法中。
