当前位置: 首页 > 科技观察

从机器学习到学习机器,数据分析算法也需要好好管家

时间:2023-03-16 16:07:35 科技观察

图为IBM大数据与分析事业部全球研发副总裁DineshNirmal。今年是莎士比亚逝世400周年。在莎士比亚的名剧《尤利乌斯·凯撒》中,一位算命先生断章取义地预言:“‘三月’请小心”。凯撒听了也不知道这句话是什么意思,就告诉算命先生继续做梦吧。结果,3月15日,凯撒被暗杀。同样,今天的预测算法可以告诉你一个预测,但不能提供适当的上下文,因此很难做出进一步行动的决定。另一个关于预测算法的例子是在最新的《复仇者联盟3》中,出现了人工智能复合体“奥创”。奥创只能从字面上理解任务,所以他把“拯救地球”解释为“杀死全人类”。这就像一个典型的预测算法,它从字面上理解任务而忽略任务的其他可能性或实际意义。于是,2016年1月,哈佛商学院教授MichaelLuca、经济学教授SendhilMullainathan、康奈尔大学教授JonKleinberg在《算法也需要管家》上联名发表了一篇文章《算法也需要管家》,呼吁全球科技界和商业界进入机器时代学习算法和人工智能,要注意算法的管理。因为,如果有一天,算法可以决定“凯撒”或地球的命运,那么谁来管理算法呢?IBM大数据与分析事业部全球研发副总裁DineshNirmal近日现身于北京举办的2016机器学习与行业应用国际峰会上,介绍了IBM作为全球前沿科技公司如何大数据分析、机器学习和人工智能,将面对一个复杂的算法世界,这就是为机器学习打造一个自学习、自调整、自优化的机器管家——一个基于Spark的机器学习云服务。ApacheSpark是一个分布式计算框架和开源大数据系统,针对低延迟任务和内存数据存储进行了优化。由于其并行计算性能和对速度、可扩展性、内存处理和容错性的考虑,加上丰富的API可以大大简化编程,Spark已经成为机器学习算法的主流计算平台。IBM于2015年6月宣布加入Spark开源社区,并承诺以Spark作为其分析和业务平台的核心。从2016年6月开始,IBM花了5个月的时间开发了基于Spark的机器学习云服务。云服务将提供公有云、本地部署和混合云部署版本。云服务也可以部署在IBMz系列大型机上。Dinesh强调,云服务除了优化获取数据、提取特征、训练模型、部署模型、做出预测等经典机器学习流程外,还包括持续反馈、自动建模、再训练模型等自动化管理。在自动建模方面,IBM的机器学习云服务可以根据数据模型自动推荐最优算法,根据数据特征值评估模型的性能和性能。模型训练好后,可以在实时环境、生产环境和离线批量环境中部署模型。当数据发生变化时,云服务还可以实时监控模型的性能,然后自动重新训练模型。整个过程中,无需离线训练模型再上线,极大方便了实时生产环境下的商业应用。Dinesh认为,在机器学习的世界里,开源是大趋势。为此,IBM开源了自家的重量级机器学习框架SystemML,并在旧金山设立了Spark技术中心,并在全球投入了3500多名IBM研发人员开展Spark相关项目。2016年6月,IBM将自家开源软件与基于ApacheSpark的H2O、RStudio、JupyterNotebooks等开源研究分析交互环境相结合,推出DataScienceExperience云服务,提升数据科学家的机器学习和数据分析速度.为了进一步加强自身的数据分析产品和技术生态,IBM从2015年开始为ApacheToree、EclairJS、ApacheQuarks、ApacheMesos、ApacheTachyon(现更名为Alluxio)等开源项目做出了大量贡献,同时也为ApacheSpark的SparkSQL、SparkR、MLLib和PySpark等子项目做出了深入的贡献。如今,Spark已经与IBM的Watson、业务、分析、系统和云等超过45个核心产品集成。IBM已向Spark投资超过3亿,并将Spark视为数据分析的操作系统。推出基于Spark的机器学习云服务是IBM的最新研发成果,旨在为机器学习算法提供一个安全、高可靠的统一管理平台。在此基础上,IBM进一步将Watson用于机器学习,让人工智能帮助机器学习算法更“聪明”地理解人的意图。这就是刚刚推出的Watson数据平台。Dinesh表示,IBM正在将所有的机器学习、人工智能、数据分析、数据管理等整合到一个统一的基于Spark的平台中,包括开源算法和IBM自己的算法等,然后优化并配备企业级解决方案,最终以混合云的形式为企业打造一个可以自由选择的数据和算法管理平台。2017年,我们将迎来移动互联网大发展的时代,数据和算法将更容易“统治”世界。从网络音乐、网络游戏、网络广告到各种生活服务、社交、内容消费,机器学习算法在不知不觉中为人们做出了很多选择。因此,在为机器解放人类喝彩的同时,也要警惕算法带来的“偏见”,这就需要机器能够自我学习和自我修正。从机器学习到学习机器,这是人工智能商业化的必由之路。