Java开发者的10个大数据工具和框架,我们构建的应用程序越来越复杂。根据外媒的一份调查报告,中软的优秀专家列出了过去12个月Java程序员一直在使用的一些工具或框架,或许对你有意义。我们先来看看大数据的概念。根据维基百科,大数据是一个广义术语,指的是数据集非常大或非常复杂,以至于传统的数据处理程序不足以支持如此庞大的数据量。在许多情况下,使用SQL数据库存储/检索数据是一个不错的选择。并且在今天的很多情况下,它不再服务于我们的目的,这完全取决于用例的变化。现在让我们讨论一些用于存储/处理数据的不同的非SQL工具,例如,NoSQL数据库、全文搜索引擎、实时流、图形数据库等。1.MongoDB-最先进的跨平台文档面向数据库。MongoDB是一个基于分布式文件存储的数据库,用C++语言编写。它旨在为Web应用程序提供可扩展的高性能数据存储解决方案。应用程序性能取决于数据库性能。MongoDB是功能最强大的非关系数据库,与关系数据库最相似。随着MongDB3.4的发布,其应用场景得到进一步拓展。MongoDB的核心优势是灵活的文档模型、高可用的副本集和可扩展的分片集群。你可以尝试从几个方面来了解MongoDB,比如实时监控MongoDB的工具、内存使用和页面错误、连接数、数据库操作、复制集等。2.Elasticsearch——为云端构建的分布式RESTful搜索引擎.ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个基于RESTfulWeb界面的分布式多用户全文搜索引擎。Elasticsearch使用Java开发并根据Apache许可条款作为开源发布,是一种流行的企业级搜索引擎。ElasticSearch不仅是一个全文搜索引擎,还是一个分布式的实时文档存储,其中每个字段都是索引数据,可以被搜索到;它还是一个分布式搜索引擎,具有实时分析功能,可以扩展到数百台服务器存储和处理PB级数据。ElasticSearch在底层使用Lucene来完成它的索引功能,所以它的很多基本概念都是从Lucene衍生出来的。3.Cassandra——一个开源分布式数据库管理系统,最初由Facebook开发,旨在处理许多商品服务器上的大量数据,提供无单点故障的高可用性。ApacheCassandra是一个开源的分布式NoSQL数据库系统。它集成了GoogleBigTable的数据模型和AmazonDynamo的全分布式架构。它于2008年开源。此后,由于其良好的可扩展性,Cassandra被Digg、Twitter等Web2.0网站采用,成为流行的分布式结构化数据存储解决方案。因为Cassandra是用Java写的,理论上可以在JDK6及以上的机器上运行。官方测试的JDK有OpenJDK和Sun的JDK。Cassandra的操作命令类似于我们平时操作的关系型数据库。对于熟悉MySQL的朋友来说,操作起来会很容易上手。4.Redis——开源(BSD许可)内存数据结构存储,用作数据库、缓存和消息代理。Redis是一个开源的、网络化的、基于内存的、持久化的日志型、Key-Value数据库,使用ANSIC语言编写,并提供多种语言的API。Redis具有三个主要特性,使其有别于许多竞争对手:Redis是一种将数据完全存储在内存中的数据库,仅将磁盘用于持久性目的;Redis相对于很多key-value数据存储系统来说,数据类型比较丰富;Redis可以将数据复制到任意数量5、H??azelcast-基于Java的开源内存数据网格。Hazelcast是一个内存数据网格,为Java程序员提供关键任务事务和万亿级内存应用。虽然Hazelcast没有所谓的“Master”,但它仍然有一个Leader节点(最老的成员)。这个概念和ZooKeeper中的Leader类似,但是实现原理完全不同。同时Hazelcast中的数据是分布式的,每个成员都持有一些数据和对应的备份数据,这也是与ZooKeeper不同的地方。Hazelcast的应用便利性深受开发者喜爱,但如果要投入使用,则需要慎重考虑。6.EHCache——广泛使用的开源Java分布式缓存。主要用于通用缓存、JavaEE和轻量级容器。EhCache是??一个纯Java的进程内缓存框架,速度快,精简,是hibernate默认的CacheProvider。主要特点是:快速简单,具有多种缓存策略;数据缓存有内存和磁盘两级,不用担心容量问题;缓存数据会在虚拟机重启时写入磁盘;RMI和可插拔API可以通过其他方式使用分布式缓存;有一个缓存和缓存管理器监听接口;支持多个缓存管理器实例,一个实例支持多个缓存区;提供Hibernate缓存实现。7.Hadoop——一个用Java编写的用于分布式存储的开源软件框架,对于非常大的数据用户可以开发分布式程序而无需了解分布式的底层细节。充分利用集群进行高速计算和存储。Hadoop实现了一个分布式文件系统(HadoopDistributedFileSystem),简称HDFS。Hadoop框架的核心设计是:HDFS和MapReduce。HDFS为海量数据提供存储,MapReduce为海量数据提供计算。8.Solr-开源企业搜索平台,用Java编写,来自ApacheLucene项目。Solr是一个独立的企业级搜索应用服务器,提供类似于Web-service的API接口。用户可以通过http请求向搜索引擎服务器提交一定格式的XML文件,生成索引;他们还可以通过HttpGet操作提交搜索请求,并获得XML格式的返回结果。和ElasticSearch一样,它也是基于Lucene,但对其进行了扩展,提供了比Lucene更丰富的查询语言,同时实现了可配置、可伸缩和优化的查询性能。9.Spark——Apache软件基金会中最活跃的项目,是一个开源的集群计算框架。Spark是一个类似于Hadoop的开源集群计算环境,但两者之间存在一些差异,使得Spark在某些工作负载上更胜一筹,换句话说,Spark启用了内存分布式数据集,除了能够提供交互式查询外,它还可以还优化迭代工作负载。Spark是用Scala语言实现的,使用Scala作为它的应用框架。与Hadoop不同,Spark和Scala可以紧密集成,Scala可以像本地集合对象一样轻松操作。10.Memcached——一个通用的分布式内存缓存系统。Memcached是DangaInteractive最初为LiveJournal开发的分布式缓存系统,但被许多软件(如MediaWiki)使用。Memcached作为高速分布式缓存服务器,具有以下特点:协议简单、基于libevent的事件处理、内置内存存储。
