当前位置: 首页 > 科技观察

Gartner报告:在数据科学和机器学习工具“大爆炸”时代

时间:2023-03-12 03:11:00 科技观察

Gartner表示,目前用于数据科学的工具正在迅速变化。该公司在一份关于其新数据科学和机器学习平台的报告中表示,我们正处于“大爆炸”之中。日前,Gartner发布了2019年版数据科学和机器学习工具魔力象限。Gartner的魔力象限是对特定时间市场状况的图形描述。根据Gartner的定义,它描述了Gartner根据标准对市场中的供应商进行的分析。Datanami的AlexWoodie解释了2019年版的数据科学和机器学习工具魔力象限。据Gartner称,目前用于数据科学的工具正在迅速变化。该公司在一份关于其新数据科学和机器学习平台的报告中表示,我们正处于“大爆炸”之中。1月28日,Gartner发布了《数据科学和机器学习平台魔力象限》(数据科学和机器学习平台魔力象限)并表示:“数据科学和机器学习市场健康活跃,许多供应商提供一系列产品。这个市场我们将走向通过‘大爆炸’,不仅重新定义了数据科学和机器学习应该由谁来完成,还重新定义了数据科学和机器学习应该如何完成。”平台被定义为数据科学家、公民数据科学家和开发人员不仅可以获得构建数据科学应用程序所需的所有核心功能,而且还将它们嵌入现有业务流程和管理以及管理和维护中的综合场所。数据科学和机器学习平台必须满足低要求,包括用于:?提取和准备数据的工具;?交互式探索和可视化数据;?工程数据特征和建立预测模型;?与周围的基础设施集成,测试和部署这些模型。Gartner数据科学和机器学习平台魔力象限(图片:Gartner)Gartner认为集成和内聚是关键,如果一个应用程序(尤其是开源产品)只是简单地将各种包和库捆绑在一起,那么这样的产品不能被认为是一个真正的平台。虽然这些核心要求为数据科学和机器学习平台提供了基础,但不同供应商实现它们的方式存在很大差异。Gartner指出,专业数据科学家可能更喜欢使用Python或R编写代码,而其他人则更喜欢使用Jupyter等数据科学笔记本的易用性。还有一些不太懂技术的人更喜欢使用鼠标在界面上单击,因为这对他们来说很直观。领导者象限在领导者象限中,Gartner列出了四家供应商,包括:KNIME、RapidMiner、TIBCOSoftware、SAS。由于强大的客户支持、广泛的产品组合以及市场上“最平衡”的愿景之一,KNIME在Gartner的评估中名列前茅。苏黎世公司的产品线包括开源的KNIMEAnalytics产品和商用的KNIMEServer产品,被誉为分析界的“瑞士军刀”。对深度学习的支持、中级用户的易用性以及与其他软件包集成的高级功能受到称赞,但是,性能和可扩展性被视为弱点,并且对物联网的吸引力有限。由于在易用性和支持复杂数据科学的能力之间取得平衡,RapidMiner也名列前茅。该软件支持深度学习技术并部署到GPU,Gartner似乎喜欢RapidMiner为机器学习部署提供更高的透明度。它与开源工具的集成使数据科学家受益。主要重点是数据准备和可视化、许可和定价、模型操作。TIBCO从挑战者象限中迈出一大步,收购了一系列分析公司,包括Jaspersoft、Spotfire、Statistica和AlpineData,并将它们整合到一个统一的平台中。Gartner赞赏TIBCO提供端到端工作流集成和物联网功能集成,尤其是流分析。它的潜在问题包括性能和稳定性、数据管理和操作问题。SAS是这份名单上的常年竞争者。事实上,它有多个评估平台。其EnterpriseMiner产品在一系列指标中提供强大而可靠的性能,而可视化数据挖掘和机器学习(VDMML)在数据准备和丰富方面得分很高。高客户满意度和强大的市场占有率巩固了SAS的地位。但Gartner也指出了SAS的一些不足,尤其是在定价和产品一致性方面,SASEM的用户体验没有达到大众的预期,SAS的开源方式对Gartner来说是一个问号。ChallengersQuadrantChallengersQuadrant相当空旷,该象限中只有两家供应商:Alteryx和Dataiku。Alteryx通过保持其“执行能力”(Y轴)但失去一些“视觉完整性”(X轴)来做到这一点。Gartner引用了这家总部位于加利福尼亚州欧文的公司在其端到端管道中的民用数据科学能力,该分析师小组表示,尽管Alteryx具有这些能力,但市场对Alteryx作为数据准备工具的看法掩盖了它的真正价值。Dataiku的数据科学工作室(DSS)因其促进不同利益相关者(从数据工程师到科学家)之间协作的方式而受到赞誉。Gartner还喜欢它为机器学习工作流程带来的自动化,以及模型投入生产后的管理和监控。报告称,Dataiku的一些问题包括可扩展性、定价以及对流分析和物联网用例的支持。远见者象限远见者象限非常拥挤,只有不到七家新供应商在象限中争夺一席之地。Databricks于2月5日筹集了2.5亿美元的风险投资。Gartner对Databricks对整个分析生命周期的支持、对混合云策略的支持以及支持各种用户的能力印象深刻。用户对基于Spark的产品评价很高,据Gartner称,文档是Databricks的加分项。然而,定价、合同谈判以及监控、管理、故障排除和调试方面的潜在问题都是Databricks的潜在弱点。根据Gartner的说法,这是DataRobot在远见者象限中的首次亮相,这要归功于它“为增强数据科学和机器学习设定了标准”,从而使客户拥有强大的体验,帮助公司在现有的基础上获得忠诚的客户群。销售执行、定价、可扩展性问题以及“增强分析”空间的可能商品化都是共同关注的问题。由于市场竞争激烈,以及客户对其能力的一些担忧,H2O.ai于2月5日举办了H2O世界大会。然而,其核心开源机器学习组件的性能仍然是H2O.ai的强项,Gartner对其基于GPU的深度学习和自动驾驶AI自动机器学习能力印象深刻。然而,非开发人员的陡峭学习曲线以及管理技能、数据访问和数据准备的缺乏令人担忧。根据Gartner的说法,Mathworks在满足以资产为中心的行业客户的需求方面具有“惊人的实力”(该公司在制造和工程组织方面拥有多年经验)。因此,MathWorks从挑战者象限迈出了一大步,迈向了远见者象限。它提供MATLAB,因其“公民工程师”功能而广受赞誉,并且在集成数据准备和对实时流媒体、深度学习和模拟的支持方面令人印象深刻。Dings非工程师很难使用,不支持谷歌云平台,缺乏自动机器学习能力。Microsoft在基于云的产品方面拥有良好的记录,包括Azure机器学习、Azure数据工厂、AzureHDInsight、PowerBI。微软与第三方合作的方式,尤其是Databricks的Spark产品,也有利于支持各种数据角色,包括入门级机器学习爱好者。机器学习过程中的自动化是一个问题,所有不同工具之间的一致性也是如此。本地化能力的缺乏也限制了它的适用性。尽管IBM在2019年仍处于远见者象限,但它已经失去了优势。Gartner称赞了IBMWatsonStudio产品的全面性,该产品为专家和公民数据科学家提供服务。SPSS建模器与WatsonStudio的集成也受到了赞扬。然而,IBM重塑其产品和转变其战略的频率是Gartner关注的问题,因为完整的端到端功能还需要多个产品的许可。谷歌在数据科学和机器学习平台方面的排名相当不错,这在很大程度上要归功于谷歌云上提供的广泛工具。其核心数据科学平台包括CloudMLEngine、CloudAutoML、TensorFlow和BigQueryML。但谷歌还提供独特的硬件,包括张量处理单元(TPU)、Kaggle众包和许多其他产品。对于谷歌来说,可扩展性和速度是谷歌的强项。然而,这些工具之间缺乏端到端的一致性是一个问题,缺乏可用性也是如此。此外,缺乏本土化产品也是一个问题。利基玩家象限利基玩家象限有四个供应商。SAP的预测分析(PA)产品与HANA紧密集成,非常适合SAPHANA客户。处理大型HANA数据集并将Jiang模型部署到SAP应用程序的能力是强项。SAP与莱昂纳多机器学习基金会相关的统一机器学习架构的愿景也是如此。然而,产品的一致性、不断变化的人工智能战略和客户体验都是对这家德国巨头不利的迹象。DominoDataLab从远见者象限的降级主要反映了其感知执行能力的下降。Gartner赞赏Domino的产品战略,尤其是其对协作和构建端到端解决方案的关注。它与开源和专有产品集成的能力是一个额外的优势,它的可扩展性也是如此。但是,根据Gartner的说法,Domino对专家数据科学家的关注令公民数据科学家不悦,并且它缺乏一些数据准备、自动化和增强功能。Anaconda仍然属于小众类别。Anaconda产品的一个关键优势是它可以访问开源Python社区,该社区继续推动数据科学领域的创新。其扩展开源Python的能力也是一个优势。但根据Gartner的说法,成功使用Anaconda平台所需的专业知识是一个危险信号,Python“丛林”的复杂性也是如此。对开源社区的依赖也让客户在需要特定的东西时处于劣势(Gartner使用了模型操作化的例子),整体的一致性水平也是劣势之一。Datawatch是魔力象限的新成员,它于2018年1月收购了在该领域拥有超过20年经验的Angoss。Datawatch产品因其一致性和易用性而受到Gartner的称赞,其文本分析和优化引擎组件被标记为高于平均水平。客户支持也是一个优势,但缺乏数据准备能力以及产品总体前景和收购的不确定性拖累了Datawatch。原文链接:https://www.datanami.com/2019/02/08/the-big-bang-of-data-science-and-ml-tools/