当前位置: 首页 > 科技观察

MapR意在将SQLonHadoop推向一个新的高度

时间:2023-03-15 19:22:59 科技观察

以彻底摆脱管理计划的束缚,告别需要长期执行的ETL(即抽取、转换和加载)任务在内容探索之前对输入数据执行,MapR在其Hadoop发行版中引入了ApacheDrill分布式ANSISQL查询引擎。为了帮助用户告别一系列极高强度的数据工程处理任务,MapR近期更新了其Hadoop发行版,其核心内容是引入了ApacheDrill0.5。Drill是一个开源的分布式ANSISQL查询引擎,专为自助式数据探索而设计——它属于谷歌Dremel系统的开源版本,搜索巨头将其作为BigQuery服务的核心组件之一来实现查询大型内部数据集的工作。ApacheDrill的既定目标是拥有强大的扩展到数万甚至更多服务器的能力,同时保证用户能够在秒级内处理PB级数据和万亿记录。Drill查询引擎具有以下功能:?=探索数据(包括Parquet、JSON文件和HBase表),无需更改本机格式,也无需数据库管理员的干预。?分析不断变化且来自NoSQL数据存储系统(如MongoDB和在线RESTAPI)的半结构化/嵌套数据。?创建一种查询机制,可以同时包含多个不同的Hadoop数据源,例如文件、HBase表和Hive表。?重用现有的SQL技术集、商业智能工具和ApacheHive部署。“我们对此感到非常兴奋,因为它真正开启了SQL-on-Hadoop开发的新纪元,”MapR高级营销官JackNorris说。“重点是在没有IT参与的情况下将自助服务数据探索功能引入Hadoop。”那是因为Drill使用户能够直接针对多种数据格式运行SQL查询,并且可以用来探索刚刚传输进来的实时数据,而不需要相关技术人员花费数周的时间来准备管理计划或设置上ETL任务。通过这种方式,它成功地帮助用户在处理多个数据源时拥有即时自助式数据探索解决方案。“企业用户希望能够访问存储在Hadoop和NoSQL数据库中的数据,并利用现有的SQL分析技能将这种访问扩展到更广泛的实际用户群体,”451研究院数据平台和分析研究总监MattAslett指出.“ApacheDrill有能力帮助用户访问存储在Hadoop中的数据,无需任何集中规划。此外,嵌套、重复字段等复杂数据结构的NoSQL数据集也可以直接使用,这在传统的SQL-on中是完全不可想象的。-Hadoop解决方案。”“任何其他SQL-on-Hadoop解决方案,无论是Hive、Tez还是其他产品,在运行过程中都需要依赖固定的计划和模型。”Norris补充道。“无论你专注于MapReduce、Hive还是任何其他SQL-on-Hadoop解决方案,需要某种中间人机制来处理建模、数据转换和分析支持等任务。Drill的亮点在于这一点——它无需等待即可探索数据的能力将为用户带来令人兴奋的速度和敏捷性优势。”MapR已将Drill打包到今天刚刚发布的MapR4.0.1中。这个最新版本的Hadoop发行版显着扩展了其针对各种用例的实时处理能力,包括业务应用程序、交互式查询和数据流处理。新版本还包括多套批处理框架,具体包括MapReduce1.x和2.x(基于YARN)和Spark(0.9和1.0.2版本)。还支持五种SQL-on-Hadoop技术方案:Hive(0.11、0.12和0.13版本)、Drill(0.5版本)、SparkSQL(1.0.2版本)、Impala(1.3.1版本)并拥有HPVerticaIntegrated认证资质.它增加了对HBase(版本0.94.21和0.98.4)和MapR-DBNoSQL技术的支持。此外,最新的MapR还拥有三个机器学习和图形库解决方案,分别是Mahout(0.8和0.9版本)、MLLib(0.9和1.0.2版本)和GraphX。英文:http://www.cio.com/article/2683676/big-data/mapr-aims-to-take-sql-on-hadoop-to-next-level.html