[.com快速翻译]自从开发人员开发Hadoop以克服大数据带来的挑战以来的10年里,这些技术的生态系统不断发展壮大。Apache软件基金会下有很多开源的大数据技术项目。本文介绍了一些重要的项目,并在此过程中了解了几个新兴项目。管理和分析大数据已成为一项重大挑战,从社交媒体、连接到物联网“事物”的传感器、结构化数据、非结构化数据以及其他所有可以收集的信息中收集的信息量急剧增加。为了应对这一任务,开发人员开发了一系列新的开源技术。旗舰软件ApacheHadoop是Apache软件基金会的一个项目,上个月庆祝了其成立十周年。这十年发生了很多变化。如今,许多其他技术也是大数据和Hadoop生态系统的一部分,其中大部分属于Apache软件基金会。开发人员和企业组织正在使用许多项目来开发大数据技术,并将它们贡献给开源社区以供进一步开发和采用,包括Spark、Hive、HBase和Storm。在Netflix和LinkedIn等一些企业,其中一些技术已经用于生产环境。它们使组织能够实时处理大量数据并转换这些数据以改善对最终客户的服务。这些大数据技术往往源于企业组织试图改进大数据技术的工作方式并加快处理速度。它们代表了生态系统的演进路径和下一波开源技术,证明了一个聪明的玩家社区可以在专有的企业环境中实现增长。当前的开源和大数据时代都是从Hadoop开始的,它经常被吹捧为分布式存储的开源框架,用于在商品硬件上处理巨大的数据集。Hadoop分销公司Hortonworks的企业战略副总裁ShaunConnolly在接受《信息周刊》杂志采访时表示:“作为一种新兴的数据架构,Hadoop处于众多关注的中心。围绕Hadoop出现的这个生态系统受到了很多关注。项目围绕它发展。”发展并没有就此停止。Apache软件基金会已将新项目纳入大数据生态系统。最近,ApacheArrow成为顶级项目。其他项目可能会作为Apache软件基金会孵化器计划的一部分进入生态系统。去年年底,IBM的SystemMLSpark机器学习引擎被接纳为孵化器项目。有许多项目是Apache软件基金会大数据生态系统的一部分。本文介绍了一些重要的项目,同时也介绍了几个新兴的项目。欢迎留言交流!HadoopHadoop其实是开源大数据领域的旗舰技术。它源于雅虎的一个副项目,当时开发人员需要一种方法来存储和处理他们使用新搜索引擎收集的大量数据。该技术最终捐赠给了Apache软件基金会。今天有来自商业公司的三个主要发行版:Cloudera、Hortonworks和MapR。Hadoop的开发者之一DougCutting最近接受了《信息周刊》杂志的采访,谈到了Hadoop的发展。HiveApacheHive最初由Facebook开发,后来捐赠给Apache软件基金会。该技术是建立在Hadoop之上的数据仓库基础设施,提供数据聚合、查询和分析。使用Hive的公司包括CNET和eHarmony。HBaseApacheHBase脱胎于2008年被微软收购的Powerset公司的一个项目,其目的是处理海量数据,方便自然语言搜索。该技术是一种非关系型开源分布式数据库,仿照谷歌的BigTable,用Java编写。2010年,HBase成为Apache软件基金会的一个项目。目前使用HBase的公司包括Adob??e、Facebook、Meetup和TrendMicro。SparkApacheSpark似乎是大数据生态系统的后起之秀。该技术最初由加州大学伯克利分校的AMP实验室开发。它可以取代Hadoop的MapReduce,但速度更快,因为Spark使用内存中处理代替,它可以提供高达100倍的性能,具体取决于应用程序。Spark开发人员现在在Databricks工作,Databricks是Apache软件基金会项目背后的公司,该公司还提供商业Spark-as-a-Service。截至2015年底,Spark是所有大数据项目中最活跃的开源项目,前12个月的代码贡献者超过600人。如今,许多公司都在使用Spark,包括Amazon、Autodesk、eBay、Groupon、OpenTable和TripAdvisor。KafkaApacheKafka最初是LinkedIn的一个内部项目,作为一个消息传递系统来代理公司面向消费者的职业网站和平台生成和处理的大量实时数据。2011年,Kafka被捐赠给开源社区,2012年计划脱离Apache孵化器。最初开发Kafka的LinkedIn开发人员成为了Confluent的成员,这是一家从LinkedIn中分离出来的新公司。使用Kafka的公司包括LinkedIn、Twitter、Netflix、Pinterest、GoldmanSachs和Coursera。StormApacheStorm在其项目页面上的描述是,它是一个分布式实时计算系统,可以让用户轻松可靠地处理无限数据流,就像Hadoop用于批处理,Storm用于实时处理一样。该技术有时被称为Spark的替代品。Storm背后的公司BackType在2011年被Twitter收购。2014年,Storm从孵化器项目毕业后,成为Apache软件基金会的顶级项目。此后,Twitter开发了自己的内部系统来处理最初分配给Storm的任务。使用Storm的公司包括雅虎和Spotify。NifiApacheNifi最初称为NiagaraFiles。该技术转让项目由美国国家安全局(NSA)开发。2014年11月,作为孵化器项目捐赠给Apache软件基金会。2015年成为顶级项目。Nifi旨在处理这个问题:如何使系统之间的数据流自动化。根据其在Apache软件基金会上的项目页面,该技术“支持强大的、可扩展的有向图,涉及数据路由、转换和系统中介逻辑。”它提供了一个基于网络的用户界面。此外,与NSA开发的其他程序一样,它提供安全功能,包括SSL、SSH、HTTPS、加密内容以及可插入的、基于角色的身份验证和授权机制。Flink2015年1月,Apache基金会接纳ApacheFlink为顶级项目。该技术是一个分布式数据分析引擎,用于批量和流式数据,它提供了一个使用Java和Scala的编程API。该项目源于柏林的平流层研究项目。使用Flink的组织包括CapitalOne和DataArtisans。Arrow本月,ApacheArrow被Apache软件基金会接纳为顶级项目。该技术来自Dremio,该公司也为ApacheDrill项目做出了贡献。Dremio的几位创始人来自ApacheHadoop发行公司MapR。根据Apache软件基金会的说法,Arrow从ApacheDrill项目的代码开始。根据Dremio联合创始人兼首席技术官JacquesNadeau的说法,Arrow提供柱状内存分析。来自Apache软件基金会的更多大数据项目这些是Apache软件基金会Hadoop生态系统中一些备受瞩目的大数据项目。许多其他人被捐赠了。所有这些项目的开发工作都在进行中,它们在ApacheSoftwareFoundation的网站上有完整的文档记录。Connolly告诉《信息周刊》杂志:“Apache的方式是社区比代码更重要。虽然技术值得关注,但Apache的方式是把社区放在首位。”原标题:Hadoop生态演进:10个很酷的大数据项目合作站点转载请注明原译者和出处为.com]
