众所周知,大数据正以惊人的速度增长,几乎触及各行各业,许多组织被迫寻找新的创意如何管理和控制如此庞大的数据量,当然这样做的目的不仅仅是为了管理和控制数据,而是分析和挖掘其中的价值,以促进业务发展。想要深入发展大数据,闭门造车是不可能的。包容是当前的趋势。因此,开源让越来越多的项目可以直接采用大数据技术。如今,各种规模的供应商,从小型初创公司到行业巨头,都在使用开源来处理大数据和运行预测分析。借助开源和云计算技术,新兴公司甚至可以在很多方面与大公司竞争。开源大数据的优势不言而喻,但如何在众多开源工具中进行选择呢?本文介绍的大数据领域十大巨头,将帮助您更好地把握大数据行业的发展态势。Hadoop-高效、可靠和可扩展,它可以提供您的数据存储项目所需的YARN、HDFS和基础架构,并运行主要的大数据服务和应用程序。Spark——简单易用,支持所有重要的大数据语言(Scala、Python、Java、R)。它具有强大的生态系统,增长迅速,并且轻松支持微批处理/批处理/SQL。Spark更适合需要迭代的MapReduce算法,例如数据挖掘和机器学习。NiFi-ApacheNiFi是一个开源项目,由国家安全局(NSA)贡献给Apache基金会,旨在使系统之间的数据流自动化。基于其工作流编程理念,NiFi非常易于使用、功能强大、可靠且高度可配置。两个最重要的特性是其强大的用户界面和良好的数据检索工具。堪称大数据工具箱中的瑞士军刀。ApacheHive2.1-Hive是建立在Hadoop上的数据仓库基础设施。它提供了一套用于提取-转换-加载(ETL)的工具,ETL是一种用于存储、查询和分析存储在Hadoop中的大规模数据的机制。随着最新版本的发布,性能和功能得到全面提升,Hive成为大数据SQL的最佳解决方案。Kafka-Kafka是一种高吞吐量的分布式发布-订阅消息系统,可以处理消费者规模网站中的所有动作流数据。它已成为大数据系统异步和分布式消息传递之间的最佳选择。从Spark到NiFi到第三方插件工具到Java到Scala,它提供了强大的胶水。Phoenix—是HBase的SQL驱动程序。目前,大量企业采用并扩大规模。由HDFS支持的NoSQL可以很好地与所有工具集成。Phoenix查询引擎将SQL查询转换为一个或多个HBase扫描并编排执行以生成标准的JDBC结果集。Zeppelin-Zeppelin是一个基于网络的笔记本,提供交互式数据分析。方便您制作数据驱动、交互协作的精美文档,支持多种语言,包括Scala(使用ApacheSpark)、Python(ApacheSpark)、SparkSQL、Hive、Markdown、Shell等。SparklingWater-H2O填补了Spark机器学习的空白,它可以满足你所有的机器学习。ApacheBeam——提供统一的Java数据处理管道开发,可以很好的支持Spark和Flink。提供了很多在线框架,开发者不需要学习太多框架。StanfordCoreNLP-自然语言处理有巨大的增长空间,斯坦福正在努力改进他们的框架。
