当前位置: 首页 > 科技观察

这三个分布式存储文件系统你搭建了吗?

时间:2023-03-20 11:45:08 科技观察

随着全球云计算的快速发展,谷歌、亚马逊等公司的崛起,尤其是“互联网+”深度融合背景下的业务云化需求,传统企业被动徘徊在数据中心构建介于传统存储阵列和分布式存储系统之间的存储架构。这两种存储结构并没有绝对的区别,大数据的繁荣使得分布式存储架构在近几年得到了很大的关注。分布式系统中的传统存储传统SAN以其可靠性高、稳定性好、功能丰富等特点在应用实践中得到广泛认可。随着数据量的不断增加,企业对数据存储的可扩展性有了要求,分布式存储系统逐渐成为一种可扩展性强且成本低廉的选择。考虑分布式存储的关键技术主要包括:全局命名空间、缓存一致性、安全性、可用性和可扩展性。从数据形式来分,主要有:结构化数据、非结构化数据和半结构化数据。GFS、AFS、Lustre成为主流的三大分布式存储文件系统。其中,GFS(Googlefilesystem)简称谷歌文件系统,其性能、可扩展性、可靠性和可用性都得到了肯定。主要组件包括一个Master和n个chunkserver,ChunkServer(数据块服务器)可以供多个CustomerClient访问。GFS体系结构不同于传统的文件系统。GFS不再将构建错误视为异常,而是将其视为常见情况。文件的大小一直是文件系统必须考虑的问题。对于任何文件系统,数千KB的系统总是会压垮内存。所以对于大文件,管理一定要高效,对于小文件也是支持的,但是没有优化。在GFS中,chunkserver的大小固定为64MB。这个blocksize比一般文件系统的blocksize大很多,可以减少元数据开销和Master的交互,但是过大的blocksize也会造成内部碎片。,或同一个Chunk中的多个小文件可能会产生访问热点。GFS主要运行在大量运行Linux系统的普通机器上,从而降低了它的硬件成本。而一系列的冗余备份、快速恢复等技术保证了其正常高效运行。GFS也是实现非结构化数据的主要技术和文件系统。AFS是AndrewFileSystem的缩写。AFS将文件系统的可扩展性放在设计和实践的最前沿,因此AFS具有良好的可扩展性,可以轻松支持数百甚至数千个节点的分布式环境。AFS最初是由卡内基梅隆大学设计开发的,已经相当成熟,用于研究和一些大型网络。AFS概述AFS的主要组成部分包括:Cells、AFSclients、基本存储单元Volumes、AFSservers和Volumereplication。AFS实现是模块化的,不需要所有服务器进程都在每个服务器上运行。AFS具有良好的可扩展性,客户端花存可以提高性能和可用性。AFS的缺点是管理员界面不够友好,需要更多的专业知识来支持AFS。Page2:Lustre并行分布式文件系统Lustre是惠普、英特尔、ClusterFileSystem与美国能源部共同开发的Linux集群并行文件系统。它的名字来源于LinuxandClusters。同时,Lustre也是一款遵循GPL许可协议的开源软件。Lustre也被称为并行分布式文件系统,常用于大型计算机集群和超级计算机。Lustre架构图Lustre的主要组成部分包括:元数据服务器(Metadataservers,MDSs)、对象存储服务器(objectstorageservers,OSSs)和客户端。MDS提供元数据服务,MGS管理服务器提供Lustre文件系统配置信息,OSS对象存储服务器暴露块设备提供数据。Lustre文件系统针对大文件读写进行了优化,可以提升性能IO能力;在源数据独立存储、服务和网络故障快速恢复、基于意图的分布式锁管理、系统快速配置等方面表现出色。