译者|布加迪评论|到2025年,复合年增长率为23%至175ZB),采用现代数据基础设施是不可避免的。各行各业大大小小的公司都不可避免地采用更高效的数据解决方案。这些组织需要整合来自多个数据源系统的业务数据,以进行历史分析和趋势分析。这就是数据仓库的用武之地,使公司能够汇集有组织和干净的业务数据(主要是适合行和列的“结构化数据”)。当需要为预定义的业务目的处理结构化数据时,数据仓库被视为首选。然而,构建和维护数据仓库是一项艰巨的任务。随着数据量持续增长,组织必须相应地扩展其本地仓库存储和计算资源。这不仅需要大量投资,而且还会产生管理开销——团队密切关注整个基础设施,以保持其正常运行,同时确保安全性和合规性。这一挑战是小公司的主要障碍,正在通过基于云的数据仓库即服务(DWaaS)模型来解决。服务提供商负责设置、维护、保护和升级数据仓库,并处理所有相关的硬件和软件堆栈。客户只负责插入他们想要连接到仓库的数据源并为托管服务付费。DWaaS产品的关键功能当企业选择数据仓库即服务产品时,它将从提供商那里获得多项关键服务。但是,它也可能选择更具包容性的服务。基本服务清单包括以下内容:数据仓库设计与开发提供DWaaS服务的公司首先查看客户独特的业务需求、现有的数据管理策略、数据源和质量实践,并为客户配置定制的数据仓库架构.一旦自定义框架准备就绪且面向未来(用于可扩展性等),就可以通过选择最合适的硬件和软件系统和流程来实施。与数据源集成一旦配置了自定义数据仓库,提供商就会将其与所有现有数据源集成,例如客户的交易系统。根据情况,供应商可以利用领先的管道技术或自定义代码来确保数据以高完整性传输到仓库。一些供应商还将仓库与现有的分析解决方案相集成以进行内部分析。一旦集成了数据清理和迁移,来自连接数据源的信息将被合并、清理、增强,并定期测试准确性、完整性和与核心数据模型的合规性。清理后的信息被传输到客户选择的云平台,但一些供应商也支持混合策略,即一些数据保存在客户场所,一些保存在云端。一旦支持仓库启动并运行,服务提供商就会启动维护数据质量、添加和删除数据源、检查性能以及不时确保提取、转换和加载(ETL)正确性的内务处理工作。提供商确保从数据模型到基础设施的整个服务符合隐私、安全和治理标准。持续演进在维护数据仓库的同时,提供商会密切关注不断变化的业务需求和数据源,以确保整个数据环境定期升级,无论是在软件、计算还是存储方面。2022年主流数据仓库即服务解决方案提供商借助DWaaS解决方案,许多提供商可以提供数据仓库的优势,而无需为客户承担设置和维护的负担。然而,根据G2和Gartner获得的客户反馈,只有少数提供商的成就足以被归类为领导者。SnowflakeDataCloudSnowflakeDataCloud跨多个云运行,包括AWS和Azure,提供仓储能力,并为结构化和半结构化数据提供完整的关系数据库支持。它将存储、计算和云服务分为不同的层,允许它们独立更改和扩展。它还自动管理维护的关键方面,例如查询缓存、规划、解析和优化以及更新处理。全球有超过5,000家公司使用SnowflakeDataCloud处理数据以进行人工智能和分析。根据客户评价,该平台满足了用户需求,并在易于部署、管理、支持质量、可扩展性、集成和定价灵活性等各个方面脱颖而出。AmazonRedshift作为AWS产品,AmazonRedshift提供了一个完全托管和可扩展的云数据仓库,允许企业对存储在S3存储桶中的TB到PB级数据执行复杂的分析查询。它通过配置一组节点来运行,每个节点为一个或多个数据库提供CPU、RAM和存储。随着存储需求的变化,可以在Redshift中手动配置或取消配置集群,相应地扩大或缩小。根据Gartner的用户反馈,Redshift与Snowflake几乎持平,但在终端用户培训质量和第三方资源可用性等方面落后。GoogleBigQueryBigQuery是Google提供的完全托管的数据仓库产品。它采用无服务器架构,由自动配置提供支持,并具有流数据支持、机器学习和地理空间分析的内置功能。根据谷歌的说法,BigQuery将计算和存储分开以增强扩展的灵活性,并允许开发人员使用熟悉的编程语言(包括Python、Java、JavaScript和Go)的客户端库来转换和管理数据。该解决方案还支持使用身份和访问管理工具集中管理数据和计算资源。根据G2评论,使用BigQuery的客户报告说他们在解决方案的部署、使用和支持方面遇到了问题。IBMDB2与谷歌一样,IBM也提供完全托管的弹性云数据仓库,通过其IBMDB2解决方案提供独立的存储和计算扩展。该产品包括高度优化的列式数据存储、操作压缩和内存处理,以加速分析和机器学习。此外,它还能自动执行维护任务,例如监控、正常运行时间检查和备份。该解决方案存在与Google的BigQuery类似的问题,用户报告该解决方案的设置、部署、使用和提供的支持质量存在问题。MicrosoftAzureSynapseAnalyticsAzureSynapseAnalytics汇集了数据集成、仓储和分析功能,为企业提供了一个统一的工作区,用于为AI和商业智能(BI)等用例摄取、准备、管理和交付大数据。该解决方案使数据专业人员可以自由使用无服务器或手动配置的资源来查询数据。由于存储和计算资源几乎无限的可扩展性、深度集成的SQL引擎、与PowerBI和AzureML的直接集成以及对数据控制的高级访问,它也是该领域的领导者之一。Walgreens、Co-op、MarksandSpencer和GEAviation等领先公司目前都在使用AzureSynapseAnalytics。根据Gartner的评估,主要问题在于定价模式。此类别中其他著名的参与者包括SAP、甲骨文、Yellowbrick、Cloudera和Teradata。总体而言,DWaaS解决方案市场预计将从2020年的14.4亿美元增长20%至2026年的43亿美元。据MordorIntelligence称,这一激增主要是由于公司对了解有关业务流程、产品、客户和服务,以利用新的商机。原标题:什么是数据仓库即服务(DWaaS)?定义、关键功能和解决方案提供商,作者:ShubhamSharma
