你知道吗,目前市场上已经出现了超过25万种开源技术。在我们身边,这些越来越复杂的系统,正如我们所看到的,看下面这张图:(点击放大)在选择最少的情况下,我们的选择还是很多的。哪些是你的目标?哪些是2000家公司的下一个财富?哪些是可以在实际产品阶段使用的可靠候选人?哪些应该特别注意?我们做了详细的研究和测试,让我们来看看正在撼动大数据的5项新技术。以上就是整理的几套新工具,一起来看看吧。Storm和Kafka是未来数据流处理的主要方式,已经在一些大公司使用,包括Groupon、阿里巴巴、TheWeatherChannel。Storm诞生于Twitter,是一个分布式实时计算系统。Storm旨在处理实时计算,而Hadoop主要用于处理批处理操作。Kafka是LinkedIn开发的消息系统,作为数据处理管道的基础部分存在于系统中。当您将它们一起使用时,您可以实时和线性增量地获取数据。你为什么要关心?使用Storm和Kafka,数据流处理是线性的,确保每条消息的抓取都是实时可靠的。前后排列的Storm和Kafka每秒可以流畅处理10000条数据。Storm、Kafka等数据流处理解决方案引起了众多企业的关注,想要实现优秀的ETL(extract,transformandload)数据集成解决方案。Storm和Kafka在内存分析和实时决策支持方面也很出色。难怪使用批处理Hadoop解决方案的企业无法满足实时业务需求。实时数据流处理是企业大数据解决方案中必不可少的模块,因为它优雅地处理了“3v”——volume、velocity和variety(容量、速度和多样性)。Storm和Kafka这两项技术是我们(infochimps)最推荐的,它们也将作为我们平台的官方部分存在。Drill和Dremel支持快速和低负载的大规模、即席查询数据搜索。它们提供了秒级搜索P级数据以处理临时查询和预测的可能性,并提供强大的虚拟化支持。Drill和Dremel提供了强大的业务处理能力,不仅仅针对数据工程师。业务方面的每个人都会喜欢Drill和Dremel。Drill是GoogleDremel的开源版本。Dremel是谷歌提供的一项支持大数据查询的技术。公司会用它来开发自己的工具,这也是大家密切关注Drill的原因。虽然这些都不是开始,但开源社区的浓厚兴趣使其更加成熟。你为什么要关心?Drill和Dremel比Hadoop更擅长分析临时查询。Hadoop只提供批量数据处理工作流,这些也是缺点。Hadoop生态系统使MapReduce成为一个非常友好和有益的广告分析工具。从Sawzall到Pig再到Hive,很多接口层应用的建立让Hadoop更加友好,更加贴近业务,但是,和SQL系统一样,这些抽象层忽略了一个重要的事实——MapReduce(或者Hadoop)是针对系统化的数据处理过程和存在。如果您不担心要运行哪些任务?如果你不关心这些问题并寻求答案,那就保持沉默和洞察力。“即兴探索”——如果你已经进行了数据处理,你如何优化处理速度?你不应该运行一个新的任务或等待,有时思考它还不如问一个新的问题。在堆比对的基于工作流的方法论中,很多业务驱动的BI和分析查询都是非常基础的、临时的交互式、低延迟的分析。许多业务分析禁止编写Map/Reduce工作流。等待Jobs开始的几分钟,以及执行完成这些交互体验而不会溢出数据的数小时,这些比较和缩放比较最终会产生基本的新观点。一些数据科学家已经推测Drill和Dremel会比Hadoop更好,并达成共识,一些还在考虑中,少数爱好者立即拥抱变化,但这些是更面向查询的主要优势和低延迟情况。在Infochimps,我们喜欢使用Elasticsearch全文索引引擎来实现数据库中的数据搜索,但我们确实认为Drill会成为大数据处理的主流。R是一种强大的开源统计编程语言。自1997年以来,超过200万统计分析师使用R。这是诞生于贝尔实验室的统计计算领域S语言的现代版本,并迅速成为新的标准统计语言。R使复杂的数据科学变得廉价。R是SAS和SPASS的重要领导者,是最优秀的统计学家的重要工具。你为什么要关心?因为它得到了一个非常强大的社区的支持,你可以找到所有的R库,并创建各种虚拟科学数据,而无需编写新代码。R之所以令人兴奋,是因为维护它的人和每天都有新的创造。R社区是大数据领域令人兴奋的地方之一。R是大数据领域一项了不起的面向未来的技术。最近几个月,随着分析类型的知识库越来越开放,分析师们引入了数以千计的新功能。此外,R和Hadoop作为大数据处理Proven的一部分可以很好地协同工作。敬请期待:Julia是R的有趣替代品,因为它不喜欢R极其缓慢的解释器。Julia的社区目前还没有那么强大,但如果您不立即使用它,可以等待。Gremlin和Giraph有助于增强图形分析,并用于Neo4j和InfiniteGraph等图形数据库,并且Giraph可与Hadoop配合使用。GoldenOrb是用于流处理的基于图形的高级项目的另一个示例。你可以看看。图数据库是迷人的边缘化数据库。与关系数据库相比,它们有许多有趣的区别。这是当你开始时总是想使用图论而不是关系论的时候。另一个类似的基于图的理论是Google的Pregel,相比之下Gremlin和Giraph是开源替代品。事实上,这些都是模仿谷歌技术的例子。图在建模计算网络和社交网络方面发挥着重要作用,能够连接任意数据。另一个常见的应用是制图和地理信息计算。计算从A点到B点的最短距离。图也广泛用于生物和物理计算,例如,它们可以绘制不寻常的分子结构。海量图、图数据库以及分析语言和框架都是大数据在现实世界中实现的一部分。基于图的理论是一个杀手级应用。你为什么这么说?解决大规模网络节点的任何问题都是通过节点和节点之间的路径来处理的。许多富有创造力的科学家和工程师知道如何使用正确的工具来解决相应的问题。确保它们都能完美运行并得到广泛传播。SAPHana是一个全内存分析平台,它包括一个内存数据库和一些相关的工具软件来创建分析流程并标准化数据输入和输出的正确格式。你为什么要关心?SAP开始反对为固定的企业用户制作强大的产品,免费供开发人员使用。这不仅仅是SAP开始考虑初创企业,让他们使用Hana。他们的授权促进了社区解决方案,而这些不寻常的做法是围绕Hana的结果。Hana假设其他程序的速度不够快,无法解决遇到的问题,例如财务建模和决策支持、网站个性化和欺诈检测等。Hana最大的缺点是“全内存”,也就是访问软态内存,这是很明确的一点,但是相对于磁盘存储来说,这也是一个非常昂贵的部分。据主办方介绍,在不担心运营成本的情况下,Hana是一款快速、低延迟的大数据处理工具。D3最初不在列表中,但它的亲切感让我们认为它值得一提。D3是一个javascript面向文档的可视化类库。其强大的创新能力让我们可以直接看到信息,让我们正常互动。它是由纽约时报GUI设计师MichaelBostock编写的。例如,您可以使用D3从任意数量的数组创建H?l表。您可以使用任意数据创建交互式进度条等。这里是D3的实际示例,创建2013年奥巴马民意调查情况。使用D3,程序员可以在各种数据之间创建接口并组织各种数据。这篇文章虽然不长,但是我翻译了一段时间。翻译不足之处希望大家指正。其实看到这篇文章的时候,我真的很想分享给喜欢的人。得益于开放的环境,美国在IT领域总是给人这样的惊喜。当然,我们必须跟上。正式开始使用Hadoop已经快一年了。这期间从百度出来,初识BitWare和现在,在不同的公司用不同的技术解决问题。但本质上,总会遇到一些问题。当然,很多公司早就开始使用Hadoop了。这就是大环境如此可以理解。说说我个人对文章的理解:从2011年开始关注Storm和Kafka,Storm在阿里也有一些二线应用,但是总体来说,刚满一岁的Storm越来越好在nathanmarz的打磨下。它很稳定,并且可以使用一些在线应用程序。所以总的来说,我还是很看好这个技术的,因为用Hadoop实现实时处理是不可能的,而且主要是用HBase做数据库。暂时可以解决,不过还是想试试Storm和Kafka。关注度不高,但是据说搭配起来很好用,自己也没跑过。Drill是Apache的开源项目。之前也看过GoogleDremel的论文,但不是很理解。现在没遇到过这样的环境,社区刚刚火起来,所以也没太多时间跟进。暂时先搁置一下。R语言,之前在百度的时候,隔壁的哥们都在用R语言干活。这可能是只有大公司才能真正深挖的方面。我们目前的业务中基本上没有使用过它。我对R还是很陌生,但是我个人的任务是在不同的环境下使用不同的技术手段,就像医生的声光鼓风机箱,我们设置一个电动鼓风机,是一样的实现。对于图数据库领域,我确实没有遇到过详细的应用,也没有机会进入这样的公司,就搁置吧。听说过SPA公司的名字,但没有具体接触过。现在出售解决方案可能并不容易。还是得找点东西来增加人气。啃老本的时代已经过去了。***一个可视化的JS类库,不是很感兴趣,而且现在业务不是做前端业务,所以还好。
