本文转载自雷锋网。如需转载,请到雷锋网官网申请授权。虽然受“疫情”的影响,技术人群放弃了聚会,减少了面对面的交流,但他们对学习和交流的渴望从未停止。为此,华为特地推出#Σco时间#系列栏目,以线上直播+互动的形式,共同探讨技术变革与行业变革。3月4日下午3点,#Σco时间#本期话题为《大数据存储是‘分’还是‘合’,你做对了吗?》——华为智能数据与存储分布式存储高级营销专家崔宇翔来到华为“智能数据基础设施“学堂学堂””直播间,分享了华为如何看待存储计算分离的价值,以及华为大数据存储——计算分离解决方案及应用实践,与千人交流与会嘉宾共同探讨了存储计算分离技术的发展趋势和市场前景。崔玉祥介绍,在数字经济时代,大数据架构正在向存储-计算点方向发展。数字经济时代,数据成为新的生产资料,从数据管理走向数据运营,大数据发挥着越来越重要的作用,数据驱动体验、数据驱动决策、数据驱动流程的各种应用每天都在上演。随着5G和AI技术的发展,数据量势必迎来爆发式增长,传统大数据存储计算一体化架构面临资源利用不均、存储成本高、资源难获取等挑战多行业共享。以国内电信运营商为例,每年的市场采购额达数亿元,但如此庞大的投资在支撑电信业务的同时,也带来了计算资源的浪费,以及庞大的服务器设备占用网络资源等诸多挑战。占用机房空间,导致制冷和供电成本高。“已经成为电信运营商的重要诉求。同样,提高资源利用率、灵活部署、按需调度计算资源的诉求也成为金融、政府领域用户迫切需要解决的问题。如何解决如此多的问题?”挑战?崔玉祥认为,计算与存储分离是大数据架构演进的必然趋势,也是解决行业用户数据痛点的利器。他解释说,在Hadoop1.0时代,计算和存储高度集成,只能处理单一的MapReduce分析业务;在Hadoop2.0时代,计算层和数据开始解耦,通过Yarn实现独立的资源管理。并开始支持Spark等更多的计算引擎;而现在Hadoop3.0时代,计算和存储正在走向分离,用HadoopEC支撑冷数据的存储,逐渐向数据湖架构演进。“存储和计算分离其实更适合企业市场,实现资源云化和弹性扩展,让用户享受到更专业的存储,更好的可靠性和利用率。”三大优势让华为OceanStor分布式存储更高效了解用户2019年,华为创新推出大数据存储计算分离解决方案。崔宇翔为观众详细讲解了华为OceanStor分布式存储这一大数据存储解决方案,可以打造出更具性价比的解决方案。简直就是为多风格存储、大数据量的用户量身定做。“简而言之,华为OceanStor分布式存储最显着的三个特点是成本最优、效率最高、易用。”【成本最优】在成本方面,华为OceanStor分布式存储实现存储与计算分离,资源按需独立扩展,弹性EC+分级,大幅降低存储成本。“性能和可靠性媲美HDFS的三副本,但存储利用率是三副本的1.75倍。”崔玉祥还指出,OceanStor分布式存储通过自动生命周期管理,可以实现更好的性价比,计算身边没有任何感知。用户可以定义不同的数据写入策略,让不同类型的应用可以读写不同的存储池,实现资源的最佳利用;用户还可以定义数据迁移策略,实现热、温、冷数据的自动转换,降低OverallTCO。他以上述电信运营商为例。在运营商日志留存场景下,当计算利用率为30%,总容量需求大于256TB时,切换到存储计算分离方案将具有TCO优势;总容量需求大于2PB,存储计算分离方案的TCO节省将达到40%以上。【最高效率】在数据应用效率方面,华为OceanStor分布式存储采用全对称分布式NameNode。集群性能和支持的文件数量随着节点数量的增加而增加。单个命名空间支持数百亿个文件。不仅如此,华为还实现了多集群数据融合互通,提升数据共享和分析效率。协议互通,分析效率提升30%,空间占用减少50%。“在某金融客户的应用测试中,基于相同的计算和存储硬件配置,OceanStor存储-存储-计算分离方案的性能在大部分测试中都超过了原生HDFS三重副本,部分测试项的执行时间甚至减少了70%.%或更多。”【最易用】在实际运维方面,华为原生的HDFS接口提供了更好的性能和用户体验,例如完整的HDFS语义,100%兼容主流大数据组件,用户无需安装插件,安装维护简单,更重要的是可以通过ViewFS或Hbase元数据网关实现新旧共存,保护用户现有投资,系统级数据冗余保护可支持4节点同时故障。崔玉祥强调即使一个节点出现故障,华为OceanStor分布式存储也可以自动调整EC级别,保证新写入数据的可靠性不下降,同时多节点并行重构可以实现2TB/小时的数据恢复效率。存储计算分离,助力千行百业推进大数据2019年以来,华为OceanStor分布式存储解决方案ution已广泛应用于电信、金融、政务、大型企业等各个领域。在本次直播活动中,崔玉祥特别分享了两个具有代表性的应用案例。在江苏,原有政务系统大多部署在烟囱里,数据孤岛比比皆是。但随着数据量的快速增长,江苏决定基于华为存储计算分离解决方案,着手构建分层、解耦、高效共享的大数据平台。华为助力江苏政务系统打造统一的大数据平台,可同时支持多项业务,实现部门间数据快速共享,实现政务服务“最多跑一次”。在部署中,存储和计算的分离发挥了作用。加上计算资源和存储资源的云化,实现资源的灵活配置,业务上线时间缩短90%。同时,借助OceanStor分布式存储的弹性EC技术,存储利用率从33%提升至91.6%,轻松应对数据快速增长的挑战。在河北电信,已经部署安装了89个集存储和计算于一体的大数据集群。整体存储空间利用率已超过80%。存储空间不足,经常需要通过删除数据来释放存储空间。而且现有机房空间紧张,只能容纳135台2U服务器。按照原有的存储计算一体化方式进行扩容,机房空间无法满足要求。对此,华为创新采用存储计算一体化+存储计算分离共存的方案,扩容100个计算节点+35个存储节点,并采用Hadoop数据联邦方案(ViewFS),不仅解决了存储与计算共存新老问题,同时也实现了性能和容量的均衡扩展,相比原方案,可用容量提升60%。崔玉祥指出,存储计算分离方案无缝扩展,数据读写均衡。用户无需升级现网大数据版本,也无需迁移现网数据。相信通过本次直播活动和华为大咖带来的精彩分享,行业用户将对存储计算分离有更深入的了解,也将能够知道如何选择适合的存储计算分离解决方案。
