数据在当今世界意味着金钱。随着向基于应用程序的世界过渡,数据呈指数级增长。然而,大多数数据是非结构化的,因此需要一种过程和方法来从数据中提取有用的信息并将其转换为可理解和可用的形式。数据挖掘或“数据库中的知识发现”是通过人工智能、机器学习、统计和数据库系统发现大型数据集中模式的过程。免费的数据挖掘工具范围从完整的模型开发环境(如Knime和Orange)到各种用Java、C++和最常见的Python编写的库。数据挖掘通常涉及四种类型的任务:分类:将熟悉的结构概括为新数据的任务聚类:以不需要注意数据结构的方式在数据中查找组和结构的任务。关联规则学习:寻找变量之间的关系回归:旨在找到一个以最小误差对数据建模的函数。下面列出了数据挖掘的免费软件工具DataMiningTools1.RapidMinerRapidMiner,原名YALE和alearningenvironment,是一个机器学习和数据挖掘实验的环境,用于研究和实际的数据挖掘任务。毫无疑问,这是最好的数据挖掘开源系统。该工具以Java编程语言编写,通过基于模板的框架提供高级分析。它使实验能够由大量任意可嵌套的运算符组成,在XML文件中详细说明,并由快速Miner的GUI完成。最重要的是,用户不需要编写代码。它已经有许多模板和其他工具,可以让我们轻松地分析数据。2、IBMSPSSModelerIBMSPSSModeler工具工作台最适合处理文本分析等大型项目,其可视化界面非常有价值。它使您无需编程即可生成各种数据挖掘算法。它还可用于异常检测、贝叶斯网络、CARMA、Cox回归和使用多层感知器进行反向传播学习的基本神经网络。3.甲骨文数据挖掘甲骨文。作为AdvancedAnalyticsDatabase选项的一部分,OracleDataMining功能允许其用户发现洞察力、做出预测并利用他们的Oracle数据。您可以构建模型来发现目标客户的客户行为并开发配置文件。OracleDataMinerGUI使数据分析师、业务分析师和数据科学家能够使用相当优雅的拖放解决方案处理数据库中的数据。它还可以创建SQL和PL/SQL脚本,用于整个企业的自动化、调度和部署。4.TeradataTeradata认识到,虽然大数据很棒,但如果你不知道如何分析和使用它,它就毫无价值。想象一下拥有数百万个数据点却没有查询它们的技能。这就是Teradata提供的。他们提供数据仓库、大数据和分析以及营销应用程序方面的端到端解决方案和服务。Teradata还提供一系列服务,包括实施、业务咨询、培训和支持。5.框架数据这是一个完全托管的解决方案,这意味着您无需做任何事情,只需坐下来等待洞察力。框架数据从业务中获取数据并将其转化为可操作的见解和决策。他们在云中训练、优化和存储产品电离模型,并通过API提供预测,从而消除基础架构开销。他们提供仪表板和场景分析工具,告诉您哪些公司杠杆正在推动您关心的指标。6.KaggleKaggle是世界上最大的数据科学社区。公司和研究人员发布他们的数据,来自世界各地的统计学家和数据挖掘者竞相制作最佳模型。Kaggle是一个数据科学竞赛平台。它可以帮助您解决难题、招募强大的团队并增强数据科学人才的力量。工作三步曲:上传预测题提交评价交流7.WekaWEKA是一个非常复杂的数据挖掘工具。它向您展示了数据集、集群、预测建模、可视化等方面的各种关系。您可以应用各种分类器来深入了解您的数据。8.RattleRattle全称R分析工具,简单易学。它提供数据的统计和可视化摘要,将数据转换为易于建模的形式,从数据构建无监督和监督模型,以图形方式呈现模型性能,并对新数据集进行评分。它是使用Gnome图形界面使用统计语言R编写的免费开源数据挖掘工具包。它在GNU/Linux、MacintoshOSX和MS/Windows下运行。9.KNIMEKonstanzInformationCollector是一个用户友好、易于理解、全面的开源数据集成、处理、分析和探索平台。它具有图形用户界面,可帮助用户轻松连接节点进行数据处理。KNIME还通过模块化数据管道概念集成了机器学习和数据挖掘的各种组件,并将注意力吸引到商业智能和财务数据分析上。10.Python作为一种免费和开源的语言,Python经常被拿来与R进行易用性比较。与R不同,Python的学习曲线往往很短,因此才有了这个传说。许多用户发现他们可以在几分钟内开始构建数据集并完成极其复杂的亲和力分析。只要您熟悉变量、数据类型、函数、条件和循环等基本编程概念,最常见业务用例的数据可视化就很简单。11.OrangeOrange是一个用Python语言编写的基于组件的数据挖掘和机器学习软件套件。它是一个开源数据可视化和分析新手和专家。数据挖掘可以通过可视化编程或Python脚本来完成。它还包括用于数据分析、不同可视化的功能,从散点图、条形图、树到树图、网络和热图。12.SASDataMining使用SASDataMining商业软件发现数据集中的模式。其描述性和预测性建模提供了更好地理解数据的见解。它们提供易于使用的GUI。他们有自动化的数据处理工具,集群最终可以找到正确决策的最终结果。作为商业软件,它还包括用于可扩展处理、自动化、增强算法、建模、数据可视化和探索的高级工具。13.ApacheMahoutApacheMahout是Apache软件基金会的一个项目,主要在协作过滤、集群和分类领域产生分布式或其他可扩展机器学习算法的免费实现。ApacheMahout主要支持三种用例:建议挖掘采用用户行为并尝试查找用户可能喜欢的项目。聚类采用文本文档并将它们分组为本地相关文档。分类从现有的分类文档中学习特定类别的文档是什么样的,并且能够将未标记的文档分配给(希望如此)正确的类别。14.PSPPPSPP是一个对采样数据进行统计分析的程序。它具有图形用户界面和传统的命令行界面。它是用C编写的,使用GNU科学库中的数学例程,并绘制实用程序来生成图表。它是专有程序SPSS(来自IBM)的免费替代品,可以自信地预测接下来会发生什么,因此您可以做出更明智的决策、解决问题并改善结果。15.jHepWorkjHepWork是一个免费的开源数据分析框架,它是使用开源软件包和易于理解的用户界面来创建数据分析环境,并创建一个与商业程序竞争的工具。JHepWork显示数据集的交互式2D和3D图以进行更好的分析。用Java实现的数值科学库和数学函数。jHepWork基于高级编程语言Jython,但也可以使用Java编码来调用jHepWork数值和图形库。16.R编程语言为什么R是这个列表中免费数据挖掘工具的超级明星?它是免费的、开源的,对于没有编程经验的人来说也很容易上手。事实上,有数以千计的库可以集成到R环境中,使其成为一个强大的数据挖掘环境。它是一种用于统计计算和图形的免费软件编程语言和软件环境。R语言在数据挖掘者中广泛用于统计软件和数据分析。近年来,易用性和可扩展性大大提高了R的流行度。17.PentahoPentaho为数据集成、业务分析和大数据提供了一个综合平台。使用此商业工具,您可以轻松融合来自任何来源的数据。深入了解您的业务数据,以便为未来做出更准确的信息驱动决策。18.TanagraTANAGRA是一种用于学术和研究目的的数据挖掘软件。在探索性数据分析、统计学习、机器学习和数据库领域有一些工具。Tanagra结合了一些监督学习,但也包括其他范例,例如聚类、因子分析、参数和非参数统计、关联规则、特征选择和构造算法。19.NLTK自然语言工具包是一组库和程序,用于Python语言中的符号和统计自然语言处理(NLP)。它提供了一个语言处理工具库,包括数据挖掘、机器学习、数据抓取、情感分析和各种其他语言处理任务。构建python程序来处理人类语言数据。
