【.com快译】数据当然是无价的。但分析数据并不容易,因为结果越准确,成本就越高。鉴于数据的爆炸式增长,需要一个过程来提供有意义的信息,这些信息最终会转化为有用的见解。数据挖掘是指在大型数据集中发现模式并将其转化为有用信息的过程。该技术利用特定算法、统计分析、人工智能和数据库系统从庞大的数据集中提取信息并将其转换为可理解的形式。本文介绍了大数据行业广泛使用的10款综合数据挖掘工具。1.RapidMinerRapidMiner是一个数据科学软件平台,为数据准备、机器学习、深度学习、文本挖掘和预测分析提供集成环境。它是领先的数据挖掘开源系统之一。该程序完全用Java编程语言编写。该程序为用户提供了一个选项来尝试大量任意可嵌套的运算符,这些运算符在XML文件中指定并且可以由RapidMiner的GUI构建。2.OracleDataMining是OracleAdvancedAnalyticalDatabase的代表。市场领先的公司使用它来最大限度地发挥数据的潜力并做出准确的预测。系统配合强大的数据算法,锁定优质客户。此外,它还能识别异常和交叉销售机会,允许用户根据需要应用不同的预测模型。此外,它以所需的方式自定义客户角色。3.IBMSPSSModeler当涉及到大型项目时,IBMSPSSModeler是最合适的。文本分析及其最先进的可视化界面在此建模器中具有最大价值。它有助于生成数据挖掘算法,基本上不需要编程。它可广泛用于异常检测、贝叶斯网络、CARMA、Cox回归以及使用多层感知器和反向传播学习的基本神经网络。4.KNIMEKonstanzInformationMiner是一个开源的数据分析平台。您可以快速部署、扩展并熟悉其中的数据。在商业智能领域,KNIME被宣传为一个平台,可以帮助没有经验的用户提供预测智能。此外,数据驱动的创新系统有助于释放数据的潜力。此外,它还包括数以千计的模块和随时可用的示例以及大量集成工具和算法。5.PythonPython是一种免费的开源语言,因其易用性而经常被拿来与R相提并论。与R不同,Python往往易于学习和使用。许多用户发现他们可以在几分钟内开始构建数据并执行极其复杂的亲和力分析。只要您熟悉变量、数据类型、函数、条件语句和循环等基本编程概念,最常见业务用例的数据可视化就很简单。6.OrangeOrange是一个开源的数据可视化、机器学习和数据挖掘工具包。它有一个可视化编程前端,可用于探索性数据分析和交互式数据可视化。Orange是一个基于组件的可视化编程包,用于数据可视化、机器学习、数据挖掘和数据分析。橙色组件,称为小部件,范围从简单的数据可视化、子集选择和预处理,到学习算法的评估和预测建模。Orange的可视化编程是通过一个界面进行的,在该界面中,通过连接预定义或用户设计的小部件来创建工作流,而高级用户可以将Orange作为Python库来操作数据和更改小部件。7.KaggleKaggle是世界上最大的数据科学家和机器学习者社区。Kaggle最初是一个机器学习竞赛,但逐渐成为一个基于公共云的数据科学平台。Kaggle是一个帮助解决难题、招募强大团队并宣传数据科学力量的平台。8.RattleRattleGUI是一个开放和免费的软件包,它使用Togaware提供的R统计编程语言为数据挖掘提供图形用户界面。Rattle借助提供丰富数据挖掘功能的图形用户界面展示了R的强大功能。Rattle也被用作学习R的教学工具。有一个名为LogCode选项卡的选项,它可以在GUI中为执行的任何活动复制R代码,代码可以复制粘贴。Rattle可用于统计分析或模型生成。Rattle允许将数据集分为训练、验证和测试部分,并且可以查看和编辑数据集。9.Weka怀卡托知识分析环境(Weka)是新西兰怀卡托大学开发的一套机器学习软件。该软件是用Java编写的。它包含一系列用于数据分析和预测建模的可视化工具和算法,具有图形用户界面。Weka支持多种标准数据挖掘任务,更具体地说,是数据预处理、聚类、分类、回归、可视化和特征选择。10.TeradataTeradata分析平台提供全面的功能和领先的引擎,允许用户针对不同类型的数据大规模地利用他们选择的工具和语言。这是通过在不移动数据的情况下使分析工具更靠近数据,并允许用户以更快的速度和准确性对更大的数据集运行分析来实现的。原标题:THE***0DATAMININGTOOLSOF2018,作者:AnjaliUJ
