当前位置: 首页 > 科技观察

数据中心如何应对数据海啸

时间:2023-03-18 12:24:59 科技观察

数据中心建设规模不断扩大,增速长期不会下降,这与数据量的快速增长密不可分。今天,全球数据总量每18个月就会翻一番。这样的增长速度是一件“可怕”的事情,远远超出了所有人的想象。据IDC预测,到2025年,全球数据量将达到163ZB,相当于四个大西洋的海水,全球数据中心流量将增长3.3倍。数据量的增长速度就像海啸一样,迅速吞噬着全球数据中心的各种存储设备和设备。数据中心花费巨资不断采购大量存储设备,以满足不断增长的数据存储需求。给数据中心带来了巨大的成本压力,降低了数据中心的盈利能力。数据海啸已经成为每个数据中心无法回避的问题,数据中心必须采取有效的应对措施,才能不被数据海啸所淹没。那么如何有效应对数据海啸呢?本文给出一些对症药方。删除无用数据从表面上看,数据量在高速增长,但很多数据在某些方面是重复无用的,没有任何使用价值,完全可以丢弃。存储数据时,必须进行过滤,防止垃圾数据进入存储设备。很多数据也是高度重复的。可能大家会收藏一部经典电影《人鬼情未了》,将这部影片存储在数据中心的个人存储空间中,这样想看的时候直接登录就可以播放。没关系,这部电影大部分时间都静静地存放在数据中心的存储设备中,毫无意义,占用了巨大的存储空间。因此,数据中心只能存储这部电影的一份,然后存储无数个人用户的数据链接。当人们需要看这部电影时,看似点击电影播放,但后台其实只是一个数据链接。然后给它播放一个存储的电影,这样会大大减少数据的存储空间,对于其他重复的数据也可以实现。我们知道,一般一个应用软件使用20年,很多软件其实很少被人接触到,留下的大量数据就变成了无用数据。数据中心应及时清理这些数据,以释放存储空间。来节省存储设备的使用。数据中心的存储资源是有限的。迟早,一天会累死。这一天来得越晚,数据中心就越节省成本,这将带来数据中心优越的竞争力。一些中间计算数据也会占用暂存空间,应及时清理。还有,对于这个数据中心来说,数据可能是有用的,通过大数据技术分析可以得到一些有用的东西,但是这些数据中心对于其他的数据可能就没用了,再多的分析也不行得到的好处是,这些数据可以直接删除,不占用数据中心的存储空间。事实上,数据中心90%的数据可以说是无用数据,应该及时清理。利用压缩技术众所周知,数据可以被压缩。在我们将数据保存到存储设备之前,我们可以对数据进行压缩,以尽量减少占用的空间。数据压缩技术在不断改进,压缩率越来越高,减缓了数据对存储空间的消耗。压缩技术包括无损压缩和有损压缩。无损压缩主要是一些编码算法,如子带编码、差分编码、霍夫曼编码等算法;有损压缩主要是一些量化算法,比如arate,urate,lloyds***量化算法。对于一些不重要的音视频资源,适当使用一些有损压缩技术对数据的使用没有影响,还能大大提高压缩效果。对于本文中的一些文件,即使采用无损压缩,文件也可以缩小几十倍甚至上百倍。压缩技术的普及和使用,可以有效缓解数据存储的压力,值得在数据中心推广使用。当然,对于那些实时性高的数据,不适合使用压缩存储,因为数据解压是需要时间的,压缩率越高的数据解压越费时间,所以在访问这种压缩数据时,你需要更多的等待时间降低访问效率。对于这样的访问,不适合使用压缩算法来保存数据。压缩技术也在不断进步,解压时间也在不断缩短,从而不断扩大压缩技术的广泛使用范围。网络带宽扩展数据量越大,需要占用的网络带宽就越多。正是因为数据量的不断增加,我们才需要更高的带宽。有时,甚至网络带宽的高低也成为影响数据中心业务部署发展的最关键因素。网络带宽越高,数据传输速度越快,可以避免网络拥塞影响数据中心的业务运行。数据中心网络设计应该简单,网络层次少,网络设计扁平化。一般从接入到核心出口设计两级,这样网络中的拥塞点较少。网络流量模型不应该设计成茶壶的形状,小口大肚。它应该设计成圆柱形,入口和出口要大,这样数据才能足够快地加载到数据中心。网络带宽的扩展不仅仅指网络出入口的位置,还包括对网络整体的规划设计,包括与服务器端、存储端的连接,提高上层与下层之间的速度。数据中心的机架外交换机、服务器网卡和存储设备。避免大马拉车或小马拉车的情况。随着海量数据的到来,现有数据中心的存储容量远远不够。数据中心需要从多方面去迎接这场数据海啸的到来。至少在过去十年,全球数据仍将保持高速增长趋势,数据海啸给数据中心带来了巨大的存储压力。海量数据一直在高速增长,我们必须想办法控制它。未来的数据中心将在如何减少海量数据上下功夫,不会任由数据海啸扩大。除了从以上三个方面攻克数据海啸外,数据中心还可以在提高存储利用率、优化存储资源配置、无效数据筛选能力、云计算和大数据应用等方面加大投入,这些都是应对的好方法随着数据海啸的到来,它们需要在未来的数据中心中得到应用和实践。