【.com快译】这几个数据分析项目风靡一时:ApacheGrappa、ApacheDrill、ApacheKafka。在数据分析方面,正在发生影响深远的变化,而开源工具正在推动其中的许多变化。当然,您可能已经熟悉该领域的一些明星开源项目,例如Hadoop和ApacheSpark,但现在对全面完善数据分析生态系统的新工具有着强烈的需求。值得注意的是,其中许多工具都是为处理流数据而量身定制的。物联网只是推动市场对新分析工具需求的主要趋势之一,由传感器和其他设备产生源源不断的数据。例如,需要流数据分析工具来改进药物发现,NASA和外星智能搜索研究所(SETI)甚至正在合作分析来自外太空的TB级复杂无线电信号流。由于IBM和其他公司投入了数十亿美元,ApacheSpark在数据分析领域抢走了很多风头,同时一些鲜为人知的开源项目也在迅速涌现。以下是三种值得探索的新兴数据分析工具。1.Grappa大大小小的组织都在研究从数据流中提取有价值信息的新方法,其中许多组织正在处理在集群上生成的数据,并且越来越多地在商用硬件上生成。因此,强调了一种经济高效、以数据为中心的方法,可以提高MapReduce甚至Spark等工具的性能和功能。Grappa开源项目来了,它可以在流行的集群上扩展数据密集型应用程序,并提供一种比经典的分布式共享内存(DSM)系统更好的新抽象机制。您可以在此处获取Grappa的源代码并了解更多信息。Grappa的起源是这样的:一群在Cray系统上运行大数据任务方面具有丰富经验的工程师想知道他们是否可以与Cray系统在现成的商品硬件上实现的分析功能竞争。正如开发人员所指出的:“Grappa提供了一个足够高级别的抽象,以包含数据密集型平台常见的许多性能优化。然而,其相对较低级别的接口提供了一个方便的抽象,可以在此基础上构建数据密集型框架topofit.(简化版)MapReduce、GraphLab和关系查询引擎的原型实现都是在Grappa的基础上构建的,其性能优于原来的系统。“Grappa在BSD许可下可在GitHub上免费获得。如果您有兴趣了解Grappa的运行情况,您可以按照应用程序自述文件中易于遵循的快速入门说明构建Grappa应用程序并在集群上运行。要学习如何编写自己的Grappa应用程序,请阅读本教程。2.ApacheDrillApacheDrill项目在大数据领域产生了重大影响,以至于MapR等公司甚至将其包含在其Hadoop发行版中是Apache的一个热门项目,在很多流数据场景中都和ApacheSpark一起使用,比如今年1月在纽约举行的ApacheDrill大会上,MapR系统工程师演示了ApacheSpark和DrillCan协同用于涉及数据包捕获和近实时查询和搜索的用例。Drill在流数据应用程序中非常有名,因为它是一个分布式、无模式的SQL引擎。DevOps和IT人员可以使用Drill以交互方式探索Hadoop和其他NoSQL数据库(例如HBase和MongoDB)中的数据。无需显式定义和维护模式,因为Drill可以自动充分利用嵌入式数据结构。它能够在操作员之间传输内存中的数据,并最大限度地减少完成查询所需的磁盘使用。3.ApacheKafkaApacheKafka项目已经成为具有实时数据跟踪能力的明星。它提供处理实时数据的功能,具有统一性、高吞吐量、低延迟等优点。Confluent等组织也开发了定制工具,以便Kafka可以与数据流结合使用。ApacheKafka最初由LinkedIn开发,后来在2011年初开放了源代码。它是一种经过强化和测试的工具,许多组织要求员工了解Kafka。使用Kafka的知名公司包括Cisco、Netflix、PayPal、Uber和Spotify。LinkedIn那些最初开发KafkaEngineers的人也创立了Confluent,它专注于Kafka。ConfluentUniversity为Kafka开发人员以及操作员/管理员提供培训课程。提供现场和公开课程。您是否有兴趣比较鲜为人知但迅速兴起的开源数据分析项目?如果是这样,您可以在我最近写的一篇关于该主题的文章中了解它(https://www.linux.com/news/在rise-six-unsung-apache-big-data-projects中找到更多此类项目)。原标题:3个超越ApacheSpark的新兴开源数据分析工具,作者:SAMDEAN
