这个开源大规模并行处理(MPP)分析数据库将与ClickHouse、MariaDB、ApacheDruid、ApachePinot以及GoogleBigQuery、AmazonRedShift和MicrosoftSynapse等大型服务竞争。Doris,原名Palo,是一个开源的、基于SQL的大规模并行处理(MPP)分析数据仓库,诞生于中国互联网搜索巨头百度,作为其广告业务的数据仓库系统,2017年开源,进入2018年的Apache孵化器。不久前,Doris获得了顶级项目地位,根据Apache软件基金会(ASF)的说法,这意味着“它已经展示了其充分自治的能力”。数据仓库最近发布了1.0版,它的第八个版本(连同六个连接器版本)正在孵化器中开发。它旨在支持在线分析处理(OLAP)工作负载,通常用于数据科学场景。Doris植根于ApacheImpala和GoogleMesa根据Apache软件基金会的说法,Doris是基于GoogleMesa和ApacheImpala的集成,是2012年开发的开源MPPSQL查询引擎,基于GoogleF1的基础。Mesa是在2014年左右设计的,作为一个高度可扩展的分析数据仓库系统,用于存储与谷歌互联网广告业务相关的关键测量数据。据百度和Apache孵化器的开发人员介绍,Doris提供了一个简单的设计架构,同时提供高可用性、可靠性、容错性和可扩展性。“简单(开发、部署和使用)以及在单个系统中满足许多数据服务需求是Doris的关键特性,”Apache软件基金会在一份声明中表示,并补充说该数据仓库支持多维报告、用户画像、广告-临时查询和实时仪表板。Doris的一些其他功能包括列存储、并行执行、矢量化技术、查询优化、ANSISQL,以及通过ApacheFlink、ApacheHive、ApacheHudi、ApacheIceberg、ApacheSpark和Elasticsearch的连接器与其他大数据生态系统集成。开源数据库的使用有望增长企业级开源数据库的接受度一直在增长。在Gartner的《2019年开源DBMS市场状况》报告中,该咨询公司预测,到2022年底,超过70%的新内部应用程序将在开源数据库管理系统(OSDBMS)或基于OSDBMS的数据库平台即服务(dbPaaS)上开发.此外,随着数据的激增和企业对实时分析的需求不断增长,似乎迫切需要一个用于大规模并行处理的简单但开源的数据库。“随着数据量的增长,MPP数据库是唯一现实的方式来快速或廉价地处理数据以满足组织的需求,”VentanaResearch的研究主管DavidMenninger说。云架构激发了人们对MPP数据库的兴趣Menninger说,推动MPP数据库发展的其他趋势是相对便宜的基于云的服务器实例的可用性,这些实例可以用作MPP配置的一部分,从而无需采购和安装这些系统。需要物理硬件。Menninger为Doris做了一个例子,他说虽然有许多MPP数据库选项,其中一些是开源的,但实际上没有开源的MPPMySQL替代品。“MySQL本身和MariaDB已经扩展到支持更大的分析工作负载,但它们最初是为事务处理而设计的,”Menninger说,并补充说开源PostreSQL数据库Greenplum和超大规模应用程序,如GoogleBigQuery、AmazonRedShift和MicrosoftSynapseScaleServices可能被认为是多丽丝的竞争对手。此外,根据Gartner前大数据和分析研究副总裁SanjeevMohan的说法,ClickHouse、ApacheDruid和ApachePinot也可以被视为竞争对手。根据Apache基金会的说法,使用Doris可能有几个优势,例如架构简单和查询时间更快。Doris简单的原因之一是它不依赖于多个组件来执行类管理、同步和通信等任务。它的快速查询时间可归因于矢量化,这是一个允许程序或算法同时对多组值而不是单个值进行操作的过程。据Apache基金会的开发人员称,数据仓库的另一个好处是Doris的超高并发支持,这意味着它可以同时处理来自数万用户的请求,以处理数据并从数据库中获得洞察力。由于大多数组织允许其员工访问数据以推动数据驱动的洞察力,而只有C级高管才能访问分析,因此对高并发性的需求有所增加。原标题:刚刚“毕业”的ApacheDoris:为什么要关心这个SQL数据仓库
