当前位置: 首页 > 科技观察

大数据中的12大工具,试试看哪个更好

时间:2023-03-14 09:09:41 科技观察

【.comExpress翻译】大数据工具使公司能够从数据仓库中获得洞察力,这可以在数据驱动的业务环境中提供重要的竞争优势。为了满足旺盛的需求,大数据工具正在各地迅速开花。自从大数据的概念和业务战略出现以来的十年里,出现了数以千计的工具来执行各种任务和流程,所有这些都有望为您节省时间和金钱、释放业务洞察力并产生收入。显然,大数据分析工具的市场正在不断增长。其中许多工具最初都是开源项目,例如最初的大数据软件框架Hadoop,但随后商业公司如雨后春笋般涌现,为开源产品提供新工具或商业支持和开发。在它们之间做出选择可能很困难,尤其是因为许多大数据工具都是单一用途的,而且您可以将大数据用于许多不同的任务,因此您的分析工具箱会很满。在本文中,我们列出了市面上主要的大数据分析工具,并分三类进行介绍。主要的大数据工具如前所述,大数据工具往往属于单一用途的范畴,大数据的使用方式有多种。因此,我们将按类别对其进行细分,然后讨论每个类别的分析工具。1、大数据工具:数据存储与管理大数据完全是从数据存储开始的,也就是从大数据框架Hadoop开始的。它是由Apache基金会运行的开源软件框架,用于在流行计算机集群上分布式存储非常大的数据集。显然,由于大数据需要大量信息,因此存储至关重要。但除了存储之外,还需要某种方式将所有这些数据整合到某种格式/治理结构中以获得洞察力。因此,大数据存储和管理才是真正的基础——没有它,分析平台就什么都不是。在某些情况下,这些解决方案还包括员工培训。这个领域的大玩家包括:1.Cloudera实际上是添加了一些额外服务的Hadoop,你会需要它,因为大数据不容易做。Cloudera的服务团队不仅可以帮助您构建大数据集群,还可以帮助培训您的员工更好地访问数据。2.MongoDBMongoDB是最流行的大数据数据库,因为它适合管理频繁变化的数据:非结构化数据,而大数据往往是非结构化数据。3.Talend作为一家提供广泛解决方案的公司,Talend的产品围绕其集成平台构建,该平台集成了大数据、云、应用程序、实时数据集成、数据准备和主数据管理。图1:TalendBigDataIntegrationPlatform包括数据质量和治理功能2.大数据工具:数据清洗在您真正处理数据以获得洞察之前,您需要清洗并将数据转换为远程可搜索的内容。大型数据集通常是非结构化和无组织的,因此需要某种清理或转换。在一个数据可以来自任何地方的世界中:移动、物联网和社交媒体,数据清理就更有必要了。并非所有这些数据都可以轻松“清理”以获得洞察力,因此好的数据清理工具非常重要。事实上,在接下来的几年里,预计有效清理数据将成为可接受的大数据系统和真正伟大的大数据系统之间的竞争优势。4.OpenRefineOpenRefine是一个易于使用的开源工具,可以通过删除重复项、空白字段和??其他错误来清理杂乱的数据。它是开源的,但有一个庞大的社区可以提供帮助。5.DataCleaner与OpenRefine一样,DataCleaner可以将半结构化数据集转换为数据可视化工具可以读取的干净可读数据集。该公司还提供数据仓库和数据管理服务。6.MicrosoftExcel说真的,Excel有它的用途。您可以从各种数据源导入数据。Excel对于手动数据输入和复制/粘贴操作特别有用。它可以消除重复项、查找和替换内容、检查拼写以及许多用于转换数据的公式。但Excel很快就会陷入困境,不适合处理庞大的数据集。3.大数据工具:数据挖掘一旦数据被清理和准备好,您就可以开始通过数据挖掘搜索数据。这是您执行发现数据、制定决策和进行预测的实际过程的地方。数据挖掘是大数据过程的真正核心。数据挖掘解决方案通常在后台很复杂,但努力提供美观、用户友好的用户界面说起来容易做起来难。数据挖掘工具的另一个挑战是它们确实需要人工来制定查询,因此数据挖掘工具的好坏取决于使用它的专业人员。7.RapidMinerRapidMiner是一种易于使用的预测分析工具,具有用户友好的可视化界面,这意味着您无需编写代码即可运行分析产品。8.IBMSPSSModelerIBMSPSSModeler是一套包含五个数据挖掘产品的套件,用于企业级高级分析。此外,IBM的服务和咨询也是首屈一指的。9.TeradataTeradata为数据仓库、大数据和分析以及营销等应用程序提供端到端的解决方案。这一切都意味着您的公司可以真正成为一家数据驱动的公司,外加业务服务、咨询、培训和支持。图2:与许多当前的大数据工具一样,RapidMiner解决方案也支持云大数据工具:数据可视化数据可视化是以一种可读、有用的格式显示您的数据。您可以查看图表图形和其他可视化数据的图像。数据可视化既是一门科学,也是一门艺术。随着大数据从由大量数据科学家支持的高管转移到整个公司,可视化工具对广泛的员工可用至关重要。销售代表、IT支持和中层管理人员——这些团队中的每一个都需要能够理解数据,因此重点是易用性。然而,易于阅读的可视化有时会与深度特征集的数据读出发生冲突,这是数据可视化工具面临的主要挑战之一。10.TableauTableau是这个领域的领导者。它的数据可视化工具专注于商业智能,可以在不懂编程的情况下创建各种地图、图表、图形和更多可视化元素。它有五种产品,还有一个名为TableauPublic的免费版本供潜在客户试用。11.SilkSilk是Tableau的一个简单版本,无需任何编程即可让您通过地图和图表可视化数据。当您第一次加载Silk时,它甚至会尝试可视化数据。它还使用户可以轻松地在线发布结果。12.ChartioChartio使用自己的可视化查询语言,只需点击几下鼠标即可创建功能强大的仪表盘,无需了解SQL或其他建模语言。它与其他工具的主要区别在于您可以直接连接到数据库,因此不需要数据仓库。IBMWatsonAnalyticsIBMWatsonAnalytics结合机器学习和人工智能,帮助提供智能数据科学助手,充当具有广泛数据科学技能的用户(例如业务分析师和数据科学家)的向导。大数据工具的三个层次据普华永道移动数据和分析计划首席技术官RiteshRamesh介绍,大数据工具可以根据成熟度和市场策略分为三层金字塔。第一层:最大的是一系列开源工具。每家公司都是从开源开始的,比如Cloudera和Hortonworks。除了基本的基础设施、服务器和存储之外没有太多价值。大多数云供应商已经将这一层商品化。第2层:在这一层,这些供应商中的大多数有意增加他们的市场份额,并通过在开源工具之上构建一些专有应用程序来实现差异化。例如,Cloudera开发了位于Hadoop核心的数据科学平台等产品。第3层:这些是垂??直特定的应用程序。这些公司中的大多数都与PwC、Cognizant或Accenture等系统集成商合作。真正的价值就在这里,对于大数据工具开发者来说也是非常有效的竞争策略。Ramesh表示,除了基本功能外,这些工具主要有三个方面很受欢迎。首先是数据处理工具。“数据学习工具是客户工具箱中用于数据质量保证和数据分析的重要工具,例如处理5000万行数据以发现见解,”他说。他说,领先的供应商包括Trifacta、Paxata和Talend。第二大应用程序类别是治理,例如定义元数据的方式。“很多人都在为此苦苦挣扎,”他说。“人们只是在向数据湖中倾倒大量垃圾。在数据湖中积极工作的工具并不多。由于主要是IT人员,他们对将数据倒入数据湖比建立数据湖更感兴趣治理结构。”主要参与者包括WaterlineData、以其数据编目工具而闻名的Tamr和Collibra。经常出现的第三个需求是安全性,Ramesh说。“人们希望一个产品具有所有安全访问层(列、行),和对象)。他们想要一种产品来支持不同数据对象的用户访问和安全性。这是一个新兴领域,”他说。供应商是Wandisco和FireEye。原标题:Top12BigDataTools,作者:AndyPatrizio