数据虚拟化是指数据管理方法,该方法允许应用程序在不关心数据源和物理存储位置的数据格式时以统一的方式获取和使用整个组织中的所有数据。数据虚拟化方法是传统的ETL方法。在数据提取,转换和加载数据的数据之后,将不同系统的数据收集到统一的物理系统中,并在标准化处理后将格式统一。数据虚拟化的特征是数据存储位置不变,并且真正的时间访问。根据Gartner的数据管理技术成熟度曲线,数据虚拟化技术已进入生产的成熟度,相关理论和技术也已经成熟。如果公司被困在无法有效打开的各种系统或部门的数据的问题中,则可以考虑数据虚拟化技术。
早期数据虚拟化实践是联邦数据库。JDBC/ODBC连接是在不同数据库之间建立的,数据访问是通过标准SQL在数据库中实时执行的。该方法在传统数据库模式下解决了一定程度的一定程度的Inter -DATA源源数据访问的问题。在大数据时代,数据存储和数据的访问方法是完全不同的。每个数据处理组件仅解决一个特定方案问题,并且具有不同的数据存储方法,组织方法和访问方法。大量数据,Elasticsearch用于全面搜索大量数据,以及MPP数据库,地图数据库,内存数据库,时机数据库等。在各种情况下进行大规模数据处理。在实际应用中,为了满足不同业务维度的需求,在同一业务中经常使用不同的处理组件,甚至在不同地区分发的不同数据处理组件也导致了高业务复杂性,数据冗余,冗余数据冗余,低访问效率和其他问题。
大数据时代的数据虚拟化技术是解决此交叉源和交叉域情景中有效数据访问的问题。通过统一的界面,接近本机系统的性能以及跨区域的数据访问。为了满足上述要求,数据虚拟化产品需要具有以下四个功能:
华为MRS Cloud Lake平台的Hetuengine是一个数据虚拟化引擎,该引擎在大数据时代解决了Cross -Source Cross -domain问题。如下图所示,MRS Cloud Lake平台基于逻辑数据湖平台建筑由hetuengine.hetuengine构建,可以在Hadoop平台,MPP数据库,数据市场(包括HBASE,Elasticsearch,Clickhouse等)上进行交叉式访问,并为数据访问提供均匀的SQL SQL接口。交叉集合数据访问以实现分析和高性能交叉-DATA湖泊,数据仓库和数据市场的查询。。
现在,Hetuengine帮助许多政府 - 企业客户解决了在大数据方案中使用困难面临的困难和困难的问题。大型国家拥有的企业使用Hetuengine的Cross -domain分析能力来解决实际 - 时间访问真实时间的问题它的长期数据。
这家大型国家拥有的企业在全国各地分发了许多下属省级公司,每个省级公司都有自己的数据湖平台来支持省级公司内的数字服务。所有省级公司每天向集团公司报告自己的数据,集团公司将对国家数据进行统一的处理和处理,以支持集团的业务决策-Making。此方法面临以下问题:(1)数据报告不完整。限制带宽,仅是结果的一部分结果可以报告,所有细节都无法报告。某些需要详细数据数据的业务不能在小组级别进行。(2)数据报告延迟。处理数据后,子公司分批向小组公司报告。数据延迟是在小时级的,无法支持该集团的真实时间业务发展。(3)对资源的投资太大。随着业务的发展,该集团需要越来越多的数据,越大的资源池和输入和输出无法匹配。(4)数据需求响应不及时。新数据需求只能满足分支机构的数据,以重新开发分支机构公司的数据过程报告。效率太低,无法支持业务的及时性。
如上图所示,在旧模式下,所有数据只能通过常规报告收集到集中的大数据平台,然后分析上层业务。引入Hetuengine后,报告的数据仅是每日固定模型处理数据。详细信息和临时摘要数据都可以通过Hetuengine在真实的时间查询中进行检查。它不仅可以通过Hetungine实现高效效率实时数据查询,而且可以通过Hetungine对跨金刚元进行数据相关分析省级公司之间的数据墙,并大大提高了跨域数据分析的效率。
Hetuegine可以通过其自己的交叉域查询引擎发送复杂的交叉域查询任务,可以根据数据的位置查询数据群,从而充分利用边缘群集的计算能力以改进数据分析的效率和整体总体利用率。如下图所示,有必要对35岁的用户进行计数,同时在两个省份同时开放帐户。您可以查询两个省份的数据同时,公司通过SQL.hetuengine将此SQL推向了两个省级公司的集群,以执行该SQL,并将执行结果退还给集团公司进行统一摘要,并将最终摘要结果直接归还给业务层。整个过程是自动实时执行的,边缘群集的计算能力充分利用边缘群集的计算能力。集团公司只需要消耗少量带宽和计算能力即可完成整个计算过程。
Hetuengine还完全考虑了交叉域场景中整个计算过程的可靠性和安全性。DATA访问遵循统一的安全控制模型,并对远程数据访问执行精细的控制控制。数据传输过程使用加密的传输来确保在期间确保安全性数据传输过程。考虑到交叉区域查询通常受传输带宽的限制,Hetuengine支持交通控制,以防止由于过度查询结果而导致的完整传输带宽并影响其他业务。此外,Hetuengine还全面采用了稳定性和效率交叉 - 域询问抗网络抖动,断点连续性,压缩传输和类查询。
最后,借助Hetuengine提供的数据虚拟化能力,该小组创建了一组有效的全球数据统一查询分析平台。首先,全局数据在小组级别确实是统一的。使用Hetuengine可以随时访问该集团所有省级公司的数据。第二,集团公司集群的压力已减少,并将大量数据分析任务发送到省份公司的集群以完成省级公司边缘群集的计算能力。省级公司集群数据可以在延迟的前几个小时内进行查询。在本文中,借助Hetuegine的Cross -source查询功能,可以在不同省份的不同存储组件中直接分发的数据可以分析。在Hetuengine中,打破数据之间的隔离,带来了许多新的数据应用程序方案,进一步进一步提高了数据的价值。
本文分享了华为云社区的诚意,作者:前锋。