当前位置: 首页 > 科技观察

TB级数据云备份保护如何应对

时间:2023-03-15 01:31:19 科技观察

大规模数据备份保护现状从多备份10万多用户中发现的大客户来看,业务规模稍大,包括日志、DB归档、在线编辑、生产加工。日常操作的数据、设计文档和积累的数据很容易超过TB。对于TB级的数据,有几种场景和区别:单个节点的数据量是TB级的,总量是TB级的,但是分布在多个节点上的数据总量是TB级的,但是总量单个文件的大小为数百GB,文件数量非常大,总共有几万,甚至上亿TB,而且类型各不相同。有的是DB备份后的压缩文件,有的是图片,有的是文档。TB级的数据由用户产生,从用户,到用户之间,比如视频、图片等UGC内容,对于这种冷数据,逐渐需要归档和冷存储准备。对于以上六种情况,我们知道大部分企业都没有做系统防护,或者对系统进行防护,但是都是在本地环境下做的。一旦出现人为原因、软件缺陷或存储故障,数据丢失的风险相当高;做云存储备份方案,但在灵活性、系统化、可扩展性、成本等方面没有优势。毕竟,这不是企业的核心业务。市场上已有的一些解决方案的特点:策略一般是全量+增量的组合,使用专用存储设备,连接高速光纤通道,配备专门的系统维护人员。这类方案有足够的本地解决方案优点,备份和恢复速度快,但缺点也相当明显,而且从设计理念来看,以下几点只能靠厂商自己的革命来解决:1:复杂性、配置、部署、使用、运维都需要专业技能的管理者,基本上从互联网公司的角度来看,即使是完成了B/C/D轮的公司,甚至是上市后的公司,也不会考虑这样的方案,如果他们买得起这笔钱。第二步:升级扩容复杂,提前预估容量。后面扩展起来挺麻烦的。需要改变存储策略,或者重新下线进行数据的迁移和分布。如果最初的存储扩展是有限的,以后就不能升级扩展了。3:3-5年左右的生命周期,也就是说数据几年后,需要升级数据,购买新的方案。这样,当数据达到数百TB级别时,整个项目的实现也是相当复杂的。No.4:很难改变与互联网+连接的想法。既然是离线备份存储方案,如果和业务系统打通,基本是不可能的。尤其是当前,不少企业开始加强互联网+运营思路的调整。数据不断地与外部系统交换或连接。第五:贵,非常贵。如果对原始数TB的数据进行专业的备份保护,您将不得不投入数十万。具体到不同的行业,如果性能和保护窗参数稍有提升,投资立马上升到最高水平。当然,如果资源非常丰富,预算充足,这一切似乎都不是问题;但实际上,这样的用户只存在于相当有钱的机构和企业中,甚至银行也不能完全按照严格的银行实施和维护计划执行,才会有接二连三的银行机房烧毁和数据丢失,或者停机几十个小时。毕竟对于关键业务系统的备份保护,有一套专业的解决方案,或者做异地容灾,完全可以解决问题;更重要的是,它必须易于操作,易于验证,强大的应急解决方案。多备份自2013年成立以来,一直以互联网简单、亲民的服务理念不断发展。目前其服务过的客户,从GB级到TB级,涉及关键运营业务系统数据库,以及企业日常运营产生的文档存储备份保护等。经过PB级数据训练,多备份从第一代全云架构方案,转变为目前迭代的基于混合云架构的二代保护方案。第二代方案设计的目标主要是针对TB级的数据保护需求。将TB级数据完全划分为六个组成部分,主要分解为以下几点:最小化备份存储空间,数倍降低企业TCO投资简化使用门槛,包括配置流程,数据备份恢复速度在基于云的架构下,足够快地按需在线扩展,永不停止,足够可靠地支持数据按需流动,真正让数据在需要的时候被激活。只有客户可以全程加密和控制数据,充分保护数据隐私。基于以上六个设计目标,我们将从几个方面来分析多备份是如何实现的。云为核心,外网IT存储设施混杂。本地+云的混合设计模式一、多备整体架构围绕云设计,充分利用云的多种特性按需扩展,按需增加客户对多备服务的投入.可靠、云计算和存储分布式的特点使系统在计算和存储方面具有数倍于传统结构所不具备的可靠性和安全性。基本的云服务提供商不关心安全成本。与自建IT设施相比,更专业、更可扩展、更开放。好吧,它使构建的服务更容易与外部系统连接。目前具体的基础实施平台包括阿里云、腾讯云、AWS、金山云、微软AZURE、移动云、七牛、百度云等平台。是全球乃至国内知名的大型云平台。其次,为了更好地结合企业IT场景和一些合规性法规,多备份在第一代云的基础上,增加了周边对接,支持数据备份存储在本地存储设施,如NAS、SAN或节点。另一个磁盘分区等,这有三个好处:数据可以存储在本地,特别是热点数据,其他数据可以部分或全部备份到云端进行保护。定期的备份恢复任务会在秒1时间在本地环境完成,数据在本地完成后,可以最快的时间同步到云端。部分政企合规数据可内部存储,其他非敏感数据可加密上传至云端。#p#数据发现、传输、存储等均采用具有时间尺度特性的全增量+时间点版本映射结构设计,本地和云端两级全增量索引,实现更低的存储开销,更快的备份和恢复速度,多备份从索引设计,数据版本组织策略采用全增量模型,支持任意时间点版本和索引的映射,提供了可行的任意时间点数据恢复或下载。支持。索引是整个系统的关键。数据的变化,无论是从本地到云端,还是从云端到本地,都依赖索引快速找到对应的数据块。在传统方案中,索引也是存在的。多备份的特点是云合并后,所有的索引都使用分区和段来构建云索引中心的扩展模型。就规模而言,动态迁移是传统解决方案无法比拟的。理论上,客户越多,数据越大,边际效应越好,对客户的成本优势越明显。这里,本地索引用于快速支持数据变更检测,云端索引用于本地故障后的变更检测和在线数据服务接口支持。在每个数据备份时刻,都会记录对应的数据映射关系,可以满足任意时间点的数据恢复和检索需求。按照目前的设计,本地可以支持2TB的数据索引关系,支持的数据量可以达到PB级别,文档数量(包括数据库备份压缩备份归档数据文件)可以达到亿级规模。云上集中存储的规模理论上受限于云平台本身的存储容量。幸运的是,即使此时此刻,多备份仍然可以正常运行,因为多备份底层已经支持多云分布或分流。聚合。本地+云端两级全增量策略保护模型,更快更经济Multi-backup在数据战略组织上,这里全部采用增量模型,与传统的常规全增量+增量模型相比,在存储空间和效率上有显着差异不同之处。一般来说,如果原始数据在500GB规模,按照通常的服务通信模型,三个月后就会有10TB的规模。如果采用传统方案,成本将达到最大投资规模。依托于云存储的冗余分布特性,多备份在时间和空间分布可靠性上远大于本地存储。正因如此,多备份增量备份存储策略机制保持了最小的数据开销规模,每次备份效率都高得惊人。同样,根据时间点任意恢复数据的速度也相当快。同样,由于其边扫描边备份、实时增量检测、块级存储的增量特性、智能压缩策略,单个文件、文本、图像、视频等数百GB规模的数据仍然处于最大拥有大量的规模下才能胜任。基于云的二级增量模型的最大优势在于超低投资,TCO甚至低至传统方案的1/10,TB级数据规模下的高速;同样具有时间尺度恢复的特点,端到端的AES256加密机制和Cloud5区块算术冗余分配机制,让数据足够安全可靠。在整个多备份系统的设计中,从端到后台都考虑了安全性,在整体设计上充分考虑,不妥协。该机制保证了云端数据的机密性。数据连接到客户端传来的数据后,立即进行AES256加密,加密后的数据分布在云存储中,加密密钥由客户端在安装过程中生成并保存。对于特别可靠的数据,Cloud5技术可以进一步提高多个不同类型的云存储之间或单个云的多个存储中心之间备份数据的可靠性,同时保持两倍的成本投入,几乎不丢失。大约80%的场景设计、安装设置和维护都尽可能快速和简单。多备份在具体的部署方案中分为控制中心和客户端设计,当然也没有安装模式。目前无论是控制中心还是客户端,都是采用80/20场景适配的原则来考虑。在具体的使用流程和参数布局上,彻底改变了传统的上百种令人眼花缭乱的参数配置方案。所有标准化操作考虑80%的场景覆盖,除频率、内容设置、限速、必要的链路参数外,其他不在多备份主流程中。这样,具体的功能组合、流程模板展示、操作菜单、按钮都可以保持非常简洁的流程和交互设计。作者简介:联合创始人&CTO——陈元强曾就职于宝德、腾讯、盛大(旅游)、易搜、4399,历任经理、总监等核心研发职位。主导了***IT安全系统的研发与实施;负责家庭战略项目的产品研发和管理,主导QQ空间大数据分析和腾讯分布式流量分析平台的研发。在海量用户、数据安全、网络通信、大数据挖掘等应用领域具有丰富经验。博文来源:http://my.oschina.net/jiequer/blog/414751