数据是指任何电子或其他形式的信息记录,可以是数字、文本、图像、声音等。数据能够被复制、流通、利用,就被认为是财富,否则可能成为企业的负担。数据复制作为数据流通、交换、共享、保护、集成、计算分析和管理等领域的关键应用,在帮助数据实现价值最大化方面发挥着重要作用。本文来自:中国数据复制产业白皮书(2022)数据复制的过程主要包括数据抓取、数据传输和数据恢复三个环节。数据抓取环节主要是指生产端对变化数据的识别和抽取,要求识别粒度细,对生产系统影响小。数据传输链路主要是指对数据进行分段、拆分、合并、加密、压缩,以达到准确和高效的目的。,安全传输数据;数据恢复主要是指目标端的数据接收和数据写入,其核心是在快速写入的同时保证数据的一致性和可用性。数据复制应遵循三个原则:一是合规性,包括数据安全、数据一致性、数据加密传输、数据分级、分级保护、归档管理等;二是时效性,包括实时或周期性的数据复制、快速恢复、RTO合规性、满足可用性、供应需求等;三是多样性,包括复制数据格式的多样性,数据复制覆盖系统层、数据库层、存储层等多个层次,满足用户多平台生产环境、多功能、个性化的需求。数据复制行业的主要应用领域包括数据合规和大数据采集应用等,此外,系统迁移也很常见。数据合规应用包括容灾、备份、治理、归档、加密、脱敏、数据库审计、分级分类、分级保护等。灾难恢复备份也称为灾难恢复,或灾难恢复。容灾作为数据复制的典型应用场景之一,用于保障用户数据安全和业务连续性。衡量容灾系统的性能指标有RPO(DataRecoveryPointObjective)和RTO(RecoveryTimeObjective)。根据RTO和RPO的区别,容灾系统可以分为定时备份系统和容灾系统,而数据复制能力从根本上决定了RPO/RTO,也决定了容灾系统的整体能力。一、数据复制基础知识数据复制就是将一组数据从一个数据源复制到另外一个或多个数据源。根据计算机网络体系结构(OSI),数据源在IT系统中处于不同层次,数据复制主要分为存储硬件层数据复制、操作系统层数据复制和数据库层数据复制。同步复制:也称为完全同步复制,要求在处理下一个操作之前,每个I/O写操作都在源和目标上完成。特点是数据丢失较少,会影响生产系统的性能,除非目标系统在物理上离生产系统更近。异步复制:不等待数据复制到目标系统后再处理下一个I/O写操作。特点是复制的数据与源数据存在时间差,但这种复制对生产系统的性能影响不大。半同步复制:介于全同步复制和异步复制之间,主库执行完客户端提交的事务后不会立即返回客户端,而是等待至少一个从库接收并写入relaylog后才返回给客户。与异步复制相比,半同步复制提高了数据的安全性,但也会造成一定程度的延迟,至少是一个TCP/IP往返时间。序列化传输副本:由于网络传输的数据一定是二进制数据,但是调用者请求的输入输出参数都是对象,对象不能直接在网络上传输,所以需要在网络中转换成可传输的二进制advance,转换算法是Reversible,而序列化是将对象的状态信息转换成可以存储或传输的形式的过程。以上几种数据复制方式各有优缺点,也有各自的应用场景。从用户的角度来看,无论采用哪种复制方式,都要求数据的采集尽可能不影响数据生产端的业务逻辑,保证业务运行与数据采集的交互。无影响,即无创数据采集。2.串行数据复制技术根据计算机网络体系结构,数据源的层次可分为存储硬件层、操作系统层和数据库层。存储硬件层的数据是指存储设备中的所有数据,可能对应多个操作系统层的数据。操作系统层的数据是指操作系统内部由卷层和文件系统组织管理的数据,可能存储在多个存储设备中。数据库层的数据通常是业务系统和应用程序存储在数据库中的数据,需要随时查询或使用。根据数据采集层次的不同,数据复制软件还可以分为存储硬件层数据复制软件、操作系统层数据复制软件和数据库层数据复制软件。具体如下:A.存储硬件层复制技术存储硬件层复制主要是指存储磁盘阵列之间的直接镜像,通过存储系统内置的固件或操作系统连接,利用IP网络或光纤等传输介质。将数据同步或异步复制到目的地。存储硬件层复制的优点是复制工作只在存储硬件层面进行,与操作系统层无关,因此可以避免服务器性能开销过大的问题。适用于关键任务和高端交易应用,是目前存储应用最广泛的灾难场景数据复制技术之一。存储硬件层复制的缺点是主要适用于同品牌同型号的同构存储系统,需要配备低延迟、高带宽的物理链路。成本高,给远程复制带来很大困难。B.操作系统层复制技术在英国实践中,操作系统层复制根据数据捕获链路的不同分为字节级复制和块级复制。字节级复制技术是指实时捕获生产服务器文件系统的I/O操作信息,生成序列化的I/O操作日志发送给目标服务器。操作日志包括I/O操作发生的时间和发起的进程,操作的具体目标文件,文件具体操作的位置,操作的内容。目标服务器收到I/O操作日志后,写入数据,完成数据复制。该技术具有占用计算机资源小、复制粒度细等优点,可以实现高实时性的数据复制,在灾难恢复和持续数据保护等领域具有很强的优势。块级复制技术是指在生产服务器的文件系统下设置驱动模块,在磁盘驱动器之上设置卷层,以捕获磁盘数据的变化。通过划分生产服务器的磁盘空间,构建磁盘位图,将数据变化的位图信息发送给目标服务器,并与之前的位图信息融合,实现数据复制。与字节级复制相比,块级复制的粒度更粗,单次传输的数据量更大。适用于海量文件系统或非标准化文件系统的场景,在定时备份领域具有很强的优势。C.数据库层复制技术数据库层复制通常采用逻辑复制的方式,将源数据库中的重做日志和归档日志解析成SQL语句,发送到目标数据库,在目标数据库上重做SQL语句实现数据复制。逻辑复制的优点是可以实现不同品牌数据库之间的数据复制,可以实现数据库读写分离,多活,适用于容灾,高可用,读写分离等场景各种数据库数据。无论哪种数据复制,都有其优缺点。用户可以根据生产环境和项目规划,选择合适的技术产品来实现自己的目标。以上三种复制技术的优缺点如下:3、数据复制技术的发展趋势数据的爆发式增长、数据应用场景的不断丰富、数据交易的可持续发展是实现复制的基本条件。推动了数据复制技术的快速发展。在新基建和下一代信息技术背景下,数据复制技术也呈现出三大发展趋势。A.数据复制技术解耦软件和硬件数据复制技术最早是由存储硬件和数据库厂商开发的,作为其存储硬件或数据库软件的辅助工具,通常与存储硬件或数据库绑定,通常仅供公司数据使用存储硬件或数据库之间的复制。其优点是与公司的存储或数据库产品兼容性好,稳定性高,数据复制速度快,但缺乏灵活性和扩展性。随着信息技术的发展,各行业的信息系统不断升级迭代,存储和数据库类型多样化,数据量的增加也带来了分级存储和分级备份的需求。与硬件或数据库绑定的复制技术功能单一、缺乏灵活性等缺点逐渐显现。数据复制技术软硬件解耦,可实现不同存储硬件、不同数据库之间的数据复制,在信息系统升级、数据分级存储等场景下具有强大优势,有望成为我国数据复制行业的重要发展方向未来。与此同时,在国产信息系统软硬件安全可靠的趋势下,国产存储设备和数据库也相继涌现。数据复制技术解耦软硬件,也将在信息系统国产化过程中发挥重要作用,加速国产化进程。B.云数据复制技术与传统IT架构相比,云计算具有资源配置效率高、运维难度低、多站点多中心布局、业务冗余能力强等优势。随着云计算技术和新基建的逐步成熟,越来越多的企业开始将业务系统和数据应用迁移到云端。数据复制技术也在从本地数据复制向云端数据复制发展。与本地IT架构不同,云计算架构将底层硬件设备虚拟化,形成统一的计算资源、存储资源和网络资源。云端企业的业务系统全部部署在数据中心的虚拟平台上。因此,云复制与本地复制相比,传输环境有很大的不同。云复制的传输具有带宽窄、传输不稳定的特点,这对复制技术的压缩能力和可续传能力提出了更高的要求。同时,云复制还需要考虑数据隐私和安全问题,尤其是在公有云场景下,云提供商拥有更大的数据管理权限。因此,在云复制场景下,数据脱敏、加密、备份也是云复制技术需要考虑的重要问题。例如,与其将所有数据存储在云端,不如考虑在本地备份重要数据。C.大数据平台实时复制技术大数据平台是满足大数据存储、计算、分析和展示的软件平台。主要功能包括数据访问、数据计算与处理、数据存储、查询检索、分析与可视化、安全管理、数据交换与流转等。大数据平台有专门的文件系统、数据库和数据处理模块,以适应大数据的查询、存储和计算。以Hadoop为例,Hadoop平台采用HDFS分布式文件系统和HBase分布式数据库,通过Hive数据仓库存储、查询和分析数据,这与传统的数据库结构有很大区别。因此,传统的数据库数据复制技术无法实现大数据平台之间的实时数据复制,也无法实现传统数据库到大数据平台的实时数据复制。随着大数据技术的不断演进和应用的不断深入,以数据为核心的大数据产业生态正在加速构建。4、异构复制技术的应用场景在开源软件和信息技术路线多元化发展的趋势下,数据复制异构场景逐渐增多。由于异构复制在技术和产品架构上的差异,数据复制过程中存在诸多挑战,包括数据库、操作系统、桌面用户数据、迁移过程的复杂性、大量的非结构化数据、迁移过程的安全性等,包括字符集不兼容、中英文转换难、数据管理难度大、兼容性差等系列难点。场景一:异构文件迁移与复制在异构文件场景中,又细分为“异构服务器/操作系统之间,异构NAS存储、对象存储数据迁移与复制”三类应用场景。场景二:数据库异构迁移和复制异构数据库的迁移和复制,其应用场景可以细分为“通过Kafka或直接复制的异构平台迁移、异构数据融合和异构数据库迁移”。场景三:整机异构迁移复制整机迁移即操作系统迁移。该场景融合字节级迁移和块级复制技术,为用户提供整机在线热迁移。场景四:HDFS异构迁移和复制HDFS的英文全称是HadoopFileSystem。作为大数据文件系统的主要应用场景,在容灾方面难以实现底层的实时复制和容灾。在线下载链接:https://www.info2soft.com/whitepaper
