当前位置: 首页 > 网络应用技术

使用MRS CDL实现真实时间数据同步的最终性能

时间:2023-03-08 13:28:43 网络应用技术

  MRS CDL提供了从多个RDBM捕获CDC事件的机制,并将复制到大数据生态系统以实现真实的 - 时间数据湖分析和真实的-Time DWH方案。解决性能问题是解决低延迟和低延迟和低延迟和的关键要求之一。高吞吐量使用。REAL-时间数据复制性能通常使用以下两个属性进行测量

  CDL夫人旨在实现最大数据复制和吞吐量以及低复制延迟。MRSCDL提供以下各种竞争功能,以实现最佳性能:

  MRS CDL提供了一种配置了白名单和黑名单模式以过滤数据复制表的机制。白色列表是一个正则表达式列表,将完整的有限表格标识符与要复制的表格匹配;任何不包含在白色列表中的表格都将被排除在复制之外。相似地,黑名单是逗号分隔的正则表达式列表,将完整的限量表标识符与从复制中消除的表格匹配。任何表都不包含在黑名单中。此功能有助于仅从数据库日志中复制所需的数据,以提高整体吞吐量和效率。

  MRS CDL提供了对并行和可扩展数据复制的支持,仅需要很少的配置。它提供了将MRS CDL单个操作分解为多个配置任务的机制。有多个任务,MRS CDL提供了一种获得的机制CDC从多个数据库更改。例如,如果体系结构中有30个表,则可以配置30个任务。这些任务将并行从每个表接收CDC数据以增加吞吐量。

  除了在并行化中支持多个任务外,CDL太太还支持任务中的并行化。内部内存队列并使用执行程序线程池并行处理,如下所示。这些线程将从内部线中提取事件,对其进行处理并将其推向Kafka以提高性能。

  RDBMS的分区函数解决了关键问题,通过允许您分解一个非常大的表。oracle之类的RDBMS支持各种分区机制,例如范围分区,哈希分区,列表分区和复合分区。使用Multi -Tasking处理大型分区表。这有助于我们使用日志复制技术并行捕获CDC事件,并促进KAFKA主题分区的并行分离,如下所示,以改善吞吐量。

  集成了CDL夫人和各种示意图解决方案,该解决方案为元数据提供了服务层,并为存储和检索架构提供了宁静的接口。Schema注册表存储基于指定主题名称策略的所有架构的历史记录,提供了多个兼容性设置,并提供了多个兼容性设置,并提供了多个兼容性。允许进化体系结构根据配置兼容性设置兼容性,并扩展这些体系结构类型的支持。它提供了一个序列化器,该序列化器插入Apache Kafka客户端,该端口存储和检索以任何支持格式发送的KAFKA消息的模式。

  使用集成模式注册表,CDL太太不会在每条消息中发布架构为Apache Kafka,从而减少了消息大小,从而改善了Apache Kafka的发布和使用CDC消息所涉及的性能改进性能。Avro是一个开源数据序列化系统,非常快。它有助于在系统,编程语言和处理框架之间交换数据。

  将来,CDL夫人将继续强迫吞吐量和延迟指示,以护送真实时间数据湖的数据及时性和质量!

  本文分享了真诚的Yunyun社区,作者:大数据从业人员。