当前位置: 首页 > 科技观察

为什么重复数据删除对云存储如此重要?

时间:2023-03-18 23:14:50 科技观察

【.com速译】大多数人认为云存储服务比物理存储便宜。毕竟,您可以以每年每TB276美元或更低的价格租用存储资源,具体取决于您的性能和访问需求。相比之下,企业数据仓库每年每TB的成本通常在2,500到4,000美元之间。  但是,除了一级数据之外,还需要在云环境中备份或保存数据的副本,这无疑会大大增加资源使用支出。试想,如果一家企业每月需要保留100TB的备份数据,为期三年,那么其原始备份数据大约相当于3.6PB,每月的支出将超过8.3万美元。这还不包括数据访问和检索的成本。  正因为如此,高效的重复数据删除技术对于内部和云端存储系统都极为重要,尤其是当企业需要长期保留其归档数据时。事实证明,如果没有重复数据删除,在云环境中使用存储资源的成本会迅速上升到不可接受的水平。  云存储的承诺:廉价、可扩展、始终可用  云存储长期以来一直被视为一种廉价、可靠且可无限扩展的资源——事实也确实如此。AWSS3等对象存储服务的标准层使用费用仅为每月每TB23美元,顺序访问层的费用为每TB12.5美元。许多现代应用程序已经能够利用对象存储的现有优势。云服务提供商提供他们自己的文件或块存储选项。例如,AWSEBS每月每TB块存储资源的费用为100美元,并且可以按小时计费。还有许多第三方解决方案可以用作后端,将传统文件或块存储与对象存储系统连接起来。  即使是每年每TB1,200美元的AWSEBS,其成本也是本地解决方案的二分之一到三分之一,这还需要更昂贵的前期投资。正因如此,企业纷纷选择云存储来降低运营成本和初期投资,享受按用量收费的好处(而不是像传统解决方案那样购买远超实际需求的资源容量)。  云存储成本爆炸之路:无限复制  云存储与传统内部存储的成本差异在于前者的成本要素更加分散。云存储的成本要素主要包括:  1)初级数据存储的成本,包括对象或块存储。  2)副本、快照、备份或数据归档的成本。  3)数据传输成本。  ***项之前已经讨论过,我们来看最后两项。  资料复制。无论您在云中存储多少数据都没有关系——上传数据是免费的,而且存储单个副本的投资也很少。最糟糕的是保留数据的多个副本——用于备份、存档或其他需要——这可能会无意中导致可怕的开支。即使您不主动复制数据,应用程序或数据库的内置数据冗余和数据复制功能也会默认增加资源需求。  在云环境中,每组副本产生与原始对象相同的成本。虽然云提供商可能会在后台进行重复数据删除或压缩,但这并不常见。以消费级云存储服务Dropbox为例,复制十份文件副本会占用十倍的存储配额。  对于企业来说,这意味着快照、备份和存档数据的额外成本。例如,AWSEBS的每月存储快照成本为每GB0.05美元。虽然快照经过压缩并且仅存储增量数据,但如果不进行重复数据删除,100TB数据集的快照每年要花费60,000美元。  数据访问。公有云提供商通常对不同云服务区域之间或云外的数据传输收费。例如,在不同的亚马逊服务之间移动或复制1TB的AWSS3数据需要20美元,而将其移动到互联网需要90美元。事实上,GET、PUT、POST、LIST、DELETE等请求都会产生相应的数据访问成本。  重复数据删除对云存储的意义  云应用设计具有分布式特性,标准部署在非关系型大规模可扩展数据库中。在非关系数据库中,即使没有复制,大部分数据仍然是冗余的。以MongoDB或者Cassandra为例,它的复制因子是3,也就是说为了保证数据的完整性,它会在分布式集群中保留3个副本。  备份或二级副本通常是从快照创建和维护的。数据库架构规定,当我们保存快照时,我们实际上同时制作了三个副本。  不仅仅是重复数据删除-语义重复数据删除  大多数重复数据删除技术都在存储层工作,在存储层对数据块进行重复数据删除。这种方式对于SAN或NAS等集中式存储非常有效,但不适用于MongoDB等分布式数据库的数据层。在这个领域,去重技术需要解决两个基本问题:  1)需要基于数据层,而不是存储层。为了在分布式集群中实施重复数据删除,软件需要理解和解释底层数据结构。  2)写入数据库前需要清除冗余数据。写入数据后,它会在集群内复制,这意味着必须使用实时重复数据删除。  原标题:为什么重复数据删除对云存储很重要  原作者:JeannieLiou