山燕数据CTO:对象存储将成为企业存储新标准数量已经超过传统NAS存储的处理能力,因此各大互联网厂商都根据自身特点开发了适合业务需求的分布式存储架构,比如:Google的GFS、亚马逊的AWSS3、FaceBook的Cassandra等。尤其是亚马逊在2006年推出的AWSS3对象存储,其定义的S3接口逐渐成为非结构化数据存储的事实标准。 知名分析机构IDC报告预测,到2020年,非结构化存储数据量将达到410EB,相比2015年增长4倍,对象存储占文件总量的70%以上存储容量。报告显示,2015-2020年对象存储市场收入年复合增长率将达到8.7%。非结构化数据量的激增和对象存储时代的到来,让企业用户越来越意识到对象存储技术的重要性。基于多年在对象存储领域的实践经验,今天很荣幸能和大家分享一些自己的积累和感悟。. 山燕数据CTO邱尚高 传统NAS存储制约业务发展 “互联网+”趋势的推进和各种智能终端的普及,非结构化数据呈现爆发式增长,如:金融业务开户视频、互联网金融行业申请材料、保险行业理赔数据、快递行业电子快递单、安防行业视频监控视频等。同时,为了满足政策合规性,一些行业法规要求长期存储,以供查询取证。 如今,这些传统企业的IT部门正在经历着互联网公司遇到过NAS无法解决的存储问题,主要体现在以下几个方面:NAS存储采用古老的文件系统技术,单个文件容量大系统受限,超出容量后,将给IT运维带来巨大挑战;NAS中存储的目录文件系统采用B+树进行文件索引。当文件数量过多时,会严重影响访问性能;大、更换时间长、数据迁移存在风险等。 那么,对象存储相对于传统的NAS文件存储,能带来哪些颠覆性的技术优势呢,我简单和大家分享一下。 对象存储将成为企业存储新标准 分布式去中心化架构,易于扩展容量和性能调整容量,数据可以自动均衡,并使用复制和擦除机制(类似RAID5/6)实现数据的高可靠性和高可用性。 传统NAS过维护后,需要手动将过保设备上的数据迁移到新购买的NAS上。文件量大的用户需要花费1~2个月的时间,运维人力消耗非常大。通过下图所示的分布式架构,无需人工干预,可以动态移除旧设备,不影响业务。 创新的索引技术真正解决海量小文件的问题 海量小文件的存储是业界和学术界公认的难题。解决问题的关键技术点是优化元数据管理。由于传统NAS采用B+树来进行文件检索。当文件数量比较少的时候,B+树基本可以缓存,性能还是不错的。但是随着文件数量的增加,当B+树占用空间过多,无法缓存时,就会涉及到机械磁盘操作,导致性能大幅下降。如果层次很深,仅通过索引访问会产生多次磁盘随机访问操作,严重影响文件访问性能。 分布式哈希查找算法(DHT)是对象存储中常用的算法。技术原理:对象存储在建立集群时,将整个存储空间划分为一个哈希环,每个磁盘负责一部分哈希环。哈希分区存储。当需要访问文件时,系统通过“目录/桶名+文件名”的哈希计算,查询DHT表,定位到具体的磁盘进行文件访问。由于哈希环不会随着文件数量的增加而增加,因此搜索性能不会受到文件数量的影响。 超大容量单目录,满足业务全生命周期存储需求 传统NAS存储采用文件系统技术,单文件系统容量一般为几十TB。由于IT管理者无法在业务上线前对规格容量和目录需求做出准确的评估,对于一些产生大量数据的业务系统,需要挂载多个文件系统目录,这会带来很多无价值的增加运维工作。 对象存储采用平面文件名唯一定位方式,单个目录或存储空间可达几十PB甚至上百PB,可以满足业务系统全生命周期的存储容量需求,无需挂载目录和调整业务系统,让IT人员更加关注业务价值本身。 更适合多数据中心容灾场景 高效的业务系统容灾解决方案是企业IT部门最为关注的焦点之一。对象存储接口的技术改进,使其在支持多数据中心容灾方面更加全面。大多数对象存储供应商都支持两个或多个多数据中心的灾难恢复。传统NAS往往采用双活模式进行容灾,而对象存储一般支持双活模式进行容灾,实现就近访问本地数据中心应用。这对于采用负载均衡模式数据中心的企业来说是非常有价值的,可以提高各数据中心业务系统的访问性能。 实现私有云与公有云之间的数据流转 随着企业互联网业务的发展,越来越多的应用运行在智能终端和公有云平台上,仍然保留在企业内部。传统NAS的CIFS/NFS协议只能被企业内网访问,不能直接提供给外网。对象存储最先应用于互联网和公有云场景,因此对象存储的访问协议(S3、SWIFT)基于HTTP标准协议,可以支持内网和外网应用系统自由访问存储。 安全方面,数据采用AES加密传输,支持HTTPS,确保传输链路安全。S3协议还定义了完整的多租户访问、文件授权访问等多种安全技术,保证对外开放数据访问的安全性。 对象存储技术应用建议 匹配对象存储的典型应用场景,另外一个是离线编辑场景,主要满足不修改文件内容的归档和查询需求。在实际应用中,离线编辑场景占总数据容量的80%以上。对象存储接口可充分满足离线编辑场景的需求,用户可在此类场景下完全替代传统NAS。为了让用户更好的匹配对象存储的重点应用场景,我们做了如下总结: 1)文件数量特别多,访问性能受到影响的场景。例如:银行图像数据、保险电子保单、快递电子快递等,对象存储可以保证这种场景下的访问性能。 2)数据存储量特别大,需要长期保存。例如:金融行业的双录、医疗行业的图像数据、客服中心服务的语音数据等,利用对象存储的弹性扩展能力和超大容量目录,保证全生命周期业务系统不需要做任何改动。 3)互联网业务使用场景,如互联网金融相关业务,对象存储可以使互联网应用安全访问企业内部文件,让数据在企业内部和互联网之间高效流动。 4)多数据中心共享场景,如跨区域文件共享、总部与分支机构之间的文件共享与收集等应用场景。 关注厂商的技术服务能力 虽然AWSS3协议已经成为对象存储的事实标准,但是其数据访问接口比传统的文件系统访问接口更加简单。但是由于S3接口提供了比NAS更丰富的功能,包括:权限管理、租户管理、标签、外部链接、配额、多版本、生命周期、多数据中心策略等。上百个API接口,如何做全利用这些接口帮助业务系统提高数据安全性、优化业务性能、优化存储管理、优化多数据中心访问方式和存储策略等,可能需要有对象存储部署经验的厂商协助。 因此,我们建议用户在引入对象存储技术的同时,更加关注厂商对应用开发技术的服务能力,以实现对象存储部署价值的最大化。
