翻译|布加迪评论|SunShujuanDoris是一个基于SQL的大规模并行处理(MPP)开源分析数据仓库,目前正在ApacheIncubator(阿帕奇孵化器)开发中。现在,Doris跻身顶级项目之列,根据Apache软件基金会(ASF)的说法,这意味着“它已被证明具有适当的自治能力”。数据仓库最近迎来了1.0版,这是孵化器正在开发的第八个版本(有六个连接器版本)。它旨在支持在线分析处理(OLAP)工作负载,通常用于数据科学场景。Doris,原名Palo,出生于中国互联网搜索巨头百度。它是其广告业务的数据仓库系统。2017年开源,2018年进入Apache孵化器。Doris植根于ApacheImpala和GoogleMesa根据Apache软件基金会的说法,Doris是基于GoogleMesa和ApacheImpala集成的,ApacheImpala是一个开源的MPPSQL查询引擎于2012年开发,基于谷歌F1的基础。Mesa是在2014年左右设计的,作为一个高度可扩展的分析数据仓库系统,用于存储与谷歌互联网广告业务相关的关键测量数据。据百度和Apache孵化器的开发人员介绍,Doris提供了一个简单的设计架构,同时提供高可用性、可靠性、容错性和可扩展性。“易于(开发、部署和使用)和许多数据服务需要单一系统是Doris的两个标志,”Apache软件基金会在一份声明中说,并补充说数据仓库支持多维报告,用户配置文件、临时查询和实时仪表板。Doris的一些其他特性包括列存储、并行执行、矢量化技术、查询优化、ANSISQL,以及通过连接器为ApacheFlink、ApacheHive、ApacheHudi、ApacheIceberg、ApacheSpark、Elasticsearch等系统生态集成的大数据。开源数据库的使用预计会增长企业级开源数据库的使用预计会增长。咨询公司Gartner在《2019年开源DBMS市场状况》报告中预测,到2022年底,超过70%的新内部应用程序将在开源数据库管理系统(OSDBMS)或基于OSDBMS的数据库平台即服务(dbPaaS)上开发。此外,随着数据激增和企业对实时分析的需求越来越大,迫切需要一个用于简单大规模并行处理的开源数据库。VentanaResearch的研究主管DavidMenninger表示:“随着数据量持续增长,MPP数据库是唯一能够以足够快或足够便宜的方式处理数据以满足组织需求的实用方法。”对数据库的兴趣推动MPP数据库的其他趋势是相对便宜的基于云的服务器实例的可用性,这些实例可以用作MPP配置的一部分,因此组织不需要采购和安装这些系统使用的物理硬件,Menninger说。Menninger看到了Doris的巨大前景,虽然有许多MPP数据库选项,其中一些是开源的,但实际上并没有开源的MPPMySQL替代品。“MySQL本身和MariaDB已经扩展到支持更大的分析工作负载,但它们最初是为事务处理而设计的,”Menninger说,并补充说开源PostreSQL数据库Greenplum以及GoogleBigQuery、AmazonRedShift和MicrosoftSynapse等。服务被认为是Doris的竞争对手。此外,ClickHouse、ApacheDruid和ApachePinot也可以被视为竞争对手,Gartner前大数据和分析研究副总裁SanjeevMohan表示。根据Apache基金会的说法,使用Doris可能有很多优势,例如架构简单和查询时间更快。Doris简单的原因之一是它不依赖多个组件来完成类管理、同步和通信等任务。快速查询时间可以归因于向量化,这是一种允许程序或算法一次对多个值而不是单个值进行操作的方法。据Apache基金会的开发人员称,数据仓库的另一个好处是Doris的超高并发支持,这意味着它可以同时处理来自数千个用户的请求以处理数据并从数据库中获得洞察力。如今,对高并发性的需求有所增加,因为大多数组织都允许其员工访问数据以促进他们使用数据来获得洞察力,而不是将分析工具限制在高管手中。原标题:刚刚“毕业”的ApacheDoris:为什么要关心这个SQL数据仓库,作者:AnirbanGhoshal
