Part01异构存储架构数据存储需求因使用场景不同而不同。对于那些需要快速访问的数据,应该存储在高速访问设备中,通过高性能存储系统进行访问;而需要计算和归档的数据应该存储在廉价、低速的设备中,并以分布式的方式计算。异构存储架构是具有多个存储设备的系统架构。通过对数据的自动化管理,根据访问频率等指标将数据分为冷数据和热数据,然后控制存储在不同的设备上,实现优化。性能,降低存储成本的目的。Part02异构存储面临的挑战在数据异构存储的增强中,我们主要面临以下几个核心问题:1??如何选择合适的存储介质?存储介质不仅要满足性能和成本要求,还要满足可靠性、可用性、容量可扩展、运维简单等要求。2??如何定义业务的冷热数据,并在存储介质中分层?在业务上,如何描述哪些是热数据,哪些是冷数据,是产品层面需要考虑的问题。3??如何迁移冷热数据?随着时间的推移,业务中的热数据降温为冷数据后,存储介质如何感知温度变化,进行数据迁移,降低存储成本。4??如何提高冷数据的访问性能?冷数据仍然会被接入,比如数据运行分析需求,用户需要对过去一年的数据进行统计分析,进行历史回顾和趋势分析。由于冷数据量大,查询涉及的数据量大,存储介质性能低。如果不进行优化,可能会在元信息和冷数据内容的访问上出现瓶颈,影响业务使用。Part03冷热数据识别通过定义识别策略,如访问频率、数据大小、最近访问时间等,这些因素用于辅助异构存储系统,成为区分冷热数据的指标。数据访问频率。也就是说,一段数据在一段时间内被访问的次数越多,我们就越将其定义为热点数据。数据大小。通常,数据量大的数据不能作为热点数据。如果访问频率高,需要考虑拆分,多维度读取,而不是整体存储。数据访问的及时性。即访问的数据离当前时间点越近,我们也将其定义为热点数据。由于大多数应用场景具有空间和时间的局部性,当前访问的数据下一次被访问的概率相对较高。Part04异构数据迁移根据存储策略迁移数据块时,通过对数据的自动分析,基于策略的数据压缩和小文件合并,平台级数据的自动备份和迁移,实现业务无感知。分池存储的核心是数据在不同存储层之间的流动。主要解决不同介质之间的性能和容量差异问题。数据迁移的因素主要包括:存储池空间水位、数据冷热特性、手动数据迁移等。写缓存:通常前端数据先写入SSD层再返回,满足用户高吞吐、低延迟的需求。然后在后台将数据迁移到HDD层。整个过程用户是感知不到的。在吞吐量衡量过程中,SSD+HDD集群基本兼顾了SSD的性能和HDD的容量,成本明显低于SSD集群;读缓存:由高速和低速介质容量的比例决定,大部分数据最终写入HDD层。根据数据的局部热点特性,高速层也会成为读缓存。具体来说,系统会根据数据的冷热特性,尝试将热点数据迁移到高速设备上,从而最大限度地提高读取性能。
