当前位置: 首页 > 科技观察

时间精度对数据中心的重要性

时间:2023-03-22 15:06:12 科技观察

俗话说,“失之毫厘,失之千里”。时间的准确性对我们的工作和生活非常重要。2000年的千年虫事件和2017年的元旦一秒全球事件都引起了极大的关注,尤其是数据中心行业。数据中心中的许多系统都依赖于时间才能正常运行。人们应该仔细评估这次变化对内部运行设备的影响。如果设备不能自行调整时间,就会与实际时间产生偏差,从而带来一系列问题。错误的判断会导致问题。因此,时间精度是数据中心非常重要的参数。数据中心时间有两个维度,一个是相对时间。例如,很多网络设备需要开启OSPF、ARP、MAC等多种协议,而每种协议都有各种定时器来实时判断协议状态是否发生变化。OSPF邻居需要每隔一定时间发送和接收Hello报文,以保持邻居状态为Full。一旦超过3个Hello报文的发送间隔,没有收到Hello报文,则认为邻居状态发生变化,邻居状态由SwitchFull变为Init或Down,定时器为记录Hello报文的超时时间一定要准确,定期记录每条Hello报文的接收时间,以便准确统计;另一个是绝对时间,即北京标准时间。新闻联播看到的时间,2000年的Y2K事件,2017年的元旦一秒多事件,都是指这个时间。数据中心有很多设备。这些设备在运行过程中会产生大量的日志和告警信息。所有信息都有时间记录。只有时间准确了,才能通过这些时间来分析问题。比如数据中心出现了业务中断,我们首先要知道中断是什么时候发生的,持续了多长时间,和哪些设备相关,然后搜索这个时间点,留下相关记录在设备上,以及分析时间的准确性。服务中断的原因非常关键。如果没有每个设备准确的运行时间,就无法判断中断时上报了哪些信息,哪些信息与故障有关。故障结果分析起来会比较困难,所以绝对时间也很重要。无论是相对时间还是绝对时间,对于数据中心的运行都是非常重要的。同时,还要保证两次时间的准确性。如果精度太差,也会出现很多问题。上面也介绍过,会导致网络协议的各种定时器判断不准确,发生故障时无法知道故障时上报了哪些。这只是一个例子,其实还有更多的方面。如果相对时间不准确,误差较大,服务器上的应用系统也会出现问题。如果是银行的存取款业务系统,每存入一笔钱,错误就会逐渐增加,有可能达到***,甚至是银行卡上的金额数据记录有错误存款人,甚至有损失的情况。如果相对时间不准确,表项在二三层转发网络的老化时间不一致,有长有短,导致表项学习不稳定,流量转发丢包,学习严重失败表项,导致网络中断。;如果绝对时间不准确,数据中心所有设备记录的信息都是不准确的,各个设备之间的信息没有可比性,无法从时间轴上清楚地区分相互影响和作用。在一些重要的变更和操作中,由于绝对时间的不准确,操作的时机会不完美,变更和设备精度不同步,就会出现这样那样的问题。由于时间精度对于数据中心来说非常重要,因此有必要提高时间精度。然而,提高时间准确性并不是一件容易的事。首先,对于相对时间,这与北京时间无关,而是与个别设备有关。这只能通过设备的内部实现来保证。许多网络设备会在内部设置许多定时器。这些定时器记录各种协议的运行时间,以判断协议的状态是否正常。这个时间一般是通过计算CPU的晶振频率得到的。相对时间的准确性与设备的CPU性能有很大关系。通常高端设备使用更精确的CPU晶体振荡器频率。当然,此类设备的价格也高得多。其次,对于绝对时间,为了保证数据中心所有设备的时间一致,可以同步所有设备的时间,尽量做到时间同步。但是,每个设备的时间精度不同,有些设备运行一年。半载,偏差可能达到几十秒,但有些设备偏差很小,所以虽然一开始时间是正确的,但不同设备的运行时间是一致的,随着运行时间越来越长,误差变得越来越大,所以这种做法是行不通的。更多的数据中心设置了NTP服务器,可以是网络设备也可以是服务器,甚至可以是专门的授时设备,然后数据中心内的所有设备都通过这个设备获取时间,从而使整个数据中心的运行时间的设备是完全一样的。如果用一般的网络设备作为NTP服务器,运行几个月,这些服务器的运行时间与实际时间的偏差可能达到几十秒。虽然这些时间偏差比较大,但是仍然可以保证这些设备之间的相对时间是一致的,不妨碍各种任务的开展,包括问题定位。但是,有时数据中心业务对时间的要求比较高,这时候就需要使用专用的计时设备作为NTP服务器。授时设备运行时间误差小,精度可达毫秒甚至微秒级,与北京时间完全一致。即使运行时间较长,偏差也在微秒级,保证了数据中心所有设备与实际北京时间完全一致。一致,避免时间不准造成的这样那样的问题。除授时系统外,还有时频基准、用于计时的原子钟、星载原子钟等技术。这些技术的使用可以大大提高数据中心的时间精度。时间准确性已成为数据中心运行中的一个重要参数,所有数据中心活动都与时间准确性密切相关。数据中心对高精度时间和频率的需求越来越强烈,需要一系列精度越来越高的计时仪器。同时,各种设备之间必须做时间同步,保持设备之间时间的一致性,以便于进行各种数据中心的运维工作。