当前位置: 首页 > Linux

从零开始搭建数据中心的N-threshold门槛-又一拍干货分享

时间:2023-04-06 20:05:02 Linux

分享|莫江城主办|西北12月15日晚,又是一个云内干货分享的夜晚。优派云网络运维工程师莫江城为优派云的小伙伴们带来了数据中心共享,对数据中心存在的意义、数据中心的组成、能量、选址等进行了详细的讲解。顺便也比较了国内外数据中心的差异。小拍马不停蹄的为大家整理了莫江城的分享,非常全面的关于数据中心的干货!不要快速阅读。大家好,我是运维部DCIN团队的莫江城。我主要负责网络、数据中心、基础设施维护和EP工程生产力。今天给大家带来的是关于数据中心的分享。数据中心存在的意义承载服务器无处不在支撑世界规模效应全冗余的数据中心是很底层的东西,存在的时间比较短。WIKI上对数据中心有一个非常有趣的定义,叫做ServerFarm,字面意思是“数据农场”,一个有大量服务器、面积很大的地方。数据中心的含义就是为服务器提供一个存储场所。再以另一个云为例——数据中心是统一管理数千TB的数据,无数TB的客户源数据,以及来自T带宽的CDN边缘节点的访问请求数据的地方。举个更形象的例子,如果我每天只为几十个人提供服务,一台电脑完全可以满足要求。但是当用户量增加时,带宽就不够用了,需要拉专线。当用户量增加时,你发现电力和网络的可靠性都会出现问题。这就需要对现有的一些设施进行大量改造,再加上一些额外的散热和降温设施。因为当服务器堆叠在一起工作时,产生的热量是非常巨大的。一个约有5000个机柜的机房每天产生的余热可以为一个大学校园供暖。因此,这种散热和冷却辅助设备也会增加整个数据中心的运营成本,也就是一般所说的TCO,即总拥有成本。目前,全球有数十万个数据中心共同支撑着整个互联网。如果没有这些数据中心,互联网就不会发展到这种规模。规模越大,可以产生的效益和支出的比率越好,单位成本越低。数据中心需要高可靠,这是数据中心的生命线,因为数据中心需要为所有服务器提供及时可靠的保障。电力、网络、冷却系统都是冗余的,还需要添加楼宇自动化系统(BMS)来进行环境控制。此外,数据中心的安全系统也很重要。当公司的员工人数增加时,你不可能认识每个人。谁可以进入数据中心,谁可以管理服务器,成为一个现实的问题。数据中心可以帮助企业进行人员权限控制,完成人员组件的认证,授予相应的访问或操作权限。数据中心组成建筑:主体结构环境控制:温湿度照明安全:消防安防网络:综合布线电源:市电、UPS、发电机服务器最关键的三个部分是电源、温度、网络.数据中心为服务器提供服务,因此需要在这三个方面进行保护。维护数据中心是一项非常复杂的系统工程。数据中心的主要部件比较简单,但是会涉及到建筑结构。数据中心最重要的部分是为整个机房内的设施提供电力的部分,包括UPS、发电机、外接市电接入。服务器对工作温度和湿度都有一定的要求,不同的服务器可能有不同的最佳工作环境。数据中心对整个环境进行调控,为服务器保持最佳环境。数据中心也有安全、消防和安保要求。安全主要是涉及到人员权限的控制。消防员会有火警、烟雾探测等预警,相对高级的机房一般可以在几分钟内清空机房内的所有人,并通过释放惰性气体来灭火。数据中心涉及的人员,包括高压电气工程师、低压工程师、暖通、给排水、消防和安保人员,以及BMS自动化、动力环境监控、网络工程师、网络监控人员、IT软件和硬件人员维修人员。此外,还包括设备供应商,如UPS、发电机等支持人员。数据中心的任务是在任何情况下,尽可能提供安全、稳定、良好的服务器运行条件。有的机房甚至制定了暴乱和恐怖入侵的应急预案;例如,谷歌的数据中心会在主入口安装挡车网,避免汽车打卡之类的事情发生。数据中心机房的建设和选址靠近某些事物:用户、服务主题、电力、冷却资源、交通枢纽、骨干网络远离某些事物:自然灾害风险、热点、热点地区廉价电力:当地电费、风能、水能、太阳能凉爽:气候冬暖夏凉,附近有天然水体面积大:可容纳大量附加设施的机房的建设和选址数据中心前期工作中非常重要的一环。建筑一般分为仓库式和楼房式。1、仓库式:平铺结构,比较低,一般最多三层,这种结构比较容易搭建;2、楼宇型:国内楼宇型机房,一般由写字楼改建而成。机房的选址通常要避开不稳定因素,如自然灾害、热点地区、热点等。当然,在很多情况下,机房的位置并不是绝对可控的。例如,在日本很难找到永远不会发生地震的地点。由于数据中心对功能的追求,会针对某些功能选择特殊位置建设机房。一个典型的例子就是优派云的CDN节点。CDN节点离用户越近越好,所以优派云在各省主要一二线城市都放置了自己的服务器。在这些位置选择数据中心的主要原因是物理上靠近所服务的对象。针对数据中心对资源和电力的需求,选择电价低的地方;对于冷却系统需求,选择年平均气温较低的地区,或靠近大海或河流,水源可用作水冷循环;对于交通枢纽,选择靠近骨干网络道路的地方。由于现在很多机房占用的空间都很大,所以一定要选择面积足够大的地方。△微软选择在水中“建造”数据中心。这是微软数据中心的所在地。这种做法是极端追求冷却水资源的案例。他们将机柜放入密封罐中,直接沉入水底,然后通过水冷循环。冷却内部服务器。数据中心的能源保障至少两条市电线路连接至少两套UPS能够承受满负荷发电机和N+1配置数据中心最重要的部分是能源,而电源机房是它的生命线。一个5000个机柜的数据中心的用电量可以顶一个小城市或大学的用电量,这是任何地方都没有的。在机房建立初期,一般会与当地电网协商,看能否为周围至少两个变电站提供电力接入和电力保障。一些高层数据中心可能接入三线城市电源,比如杭州联通省内一号枢纽大楼的机房就建在联通枢纽大楼内,所以那里的电力保障条件特别高,在不同的位置会有三个变电站,直接连接到机房给它供电。在这种情况下,它的电力保障水平非常高,不太可能出现所有市电和所有备用电源都失效的情况。△35KVA高压接入设备这是35KVA高压接入设备。高压电源接入主要来自变电站,变电站基本分为10KVA、35KVA和110KVA,主要看机房规模和负荷。△数据中心发电机接下来说说发电机。有的数据中心一台发电机价值六七百万,要配置十几台。最高的安全标准是发电机和UPS都具有100%的双冗余,也就是说,如果任何一个系统整体出现故障,另一套仍然可以提供满载能力。欧洲富裕国家卢森堡有一座名为DataHub的Tier4数据中心,使用两套相同的发电机组,其中任何一台都可以为数据中心提供满负荷的电力负载能力。说到发电机,一个很有趣的故事。美国飓风肆虐时,有机房因市电停电,不得不改用发电机供电。当时飓风还没有结束,石油公司也没有办法及时补充备用油。因为大多数数据中心的发电机通常只能为机房提供8到10小时的全功率供电保障,如果超过这个时间,机房将被彻底关闭。某VPS提供商向所有用户发送邮件,通知并希望用户选择其他线路。但是那个机房里排满了人,因为大家都很好奇用柴油发电机供电是什么感觉。△数据中心UPS中的电池系统数据中心的电池很多。上图数据中心内有3万多块这样的电池,可以为机房提??供大约两个小时的电力保障。与发电机相比,UPS可以持续特别短的时间。因此,数据中心并没有采用UPS作为长期电力保障。现实中,UPS通常完全承担整个机房的供电不超过一分钟。基本上,上级机房在UPS接管供电时,会自动切换到柴油发电机组供电。因为柴油发电机从正式启动到并网发电需要15到20秒,所以UPS主要是在这短时间内工作,但它提供的备用能量不能少于半小时,否则会有是风险。△一个简单的机房电源结构分析机房供电结构:ATS开关是一种自动切换电源控制开关,在市电中断时自动将输入电源切换到发电机,高压电源到低压配电柜后,转换成低压直流电供给UPS,UPS再送至服务器。每排柜子的前面都会有一个柜子,专门用来放电源柜的,这个柜子是专门用来存放高压设备的。UPS到顶柜,服务器接在顶柜下面,也就是负载。UPS始终在网络中运行,即必须始终通过UPS为服务器供电,这就是数据中心在断电时不会中断的原因。因为ATS有一个切换时间,一般为15到30毫秒。如果是特别敏感的机器,就会感应到一闪而过,导致业务失败。UPS串接后就没有问题了,因为闪闪时UPS还在供电。较好的机房通常有四台UPS,因为每个机柜的电路一般分为AB和AB两条电路,是完全独立的两台UPS电源。只要服务器设备有冗余电源(一般我们称之为“双电源”),即使其中一个断电,或者闪断,也不会影响服务器的运行。排云未来要用的数据中心,都是四台UPS,A路两台,B路两台。机房冷却系统机房的冷却系统通常分为风冷和水冷。风冷是传统意义上的空调。它的工作原理与家用空调相同,只是这种空调称为精密空调。它可以非常精确地控制环境温度和湿度,为服务器创造最佳运行条件。△水冷系统的水冷原理与风冷有很大不同。水冷的成本比较高,体积也很大,因为它会有冷水机,就是传统空调意义上的压缩机,热交换器,外置冷风机。;服务器的热量会通过水管传到室外,再由冷水机或板式换热器将热量交换到室外的散热器,将其排出。两种系统的优缺点水冷:成本高、体积大、维护复杂、可靠性高需要特殊设计、能效高风冷:成本低、体积小、偏移、易维护、能效低当气候相对降温、水冷系统无需使用压缩机,直接通过板式换热器降温,省电。△机柜内部散热这是常规机房的散热方式,就是在机房内给机柜降温。早期的机房没有冷热之分,就像早期的PC机一样。很少有人说控制机箱中的风道。但随着时代的进步,有预先设计风道的迹象,在机箱中使用各种挡板来调节气流,迫使冷空气流过需要散热的设备和区域,成为热风从机箱后口排出。事实上,数据中心的散热与此原理类似。刚开始的时候,没有冷热空气区分的时候,空调的能耗是非常高的。后期在设计机房时,会通过规划冷通道来调节冷热气流的流动。△冷风转换示意图这个箱子是两排相对的柜子,红色的是余热,蓝色的是空调。冷空气通过旁边的空调机组排入地下,通过地下的预制风管,在冷通道下向上排出。服务器正面,即吸风侧吸入冷空气,从后面排出时已经变成热空气。此时空调吸入热风,对热风进行降温,完成一个制冷循环。这是目前使用最多的冷通道模式。现在比较新的机房普遍采用简单的散热方式。它不再规划两个机柜之间的冷通道,而是直接在机柜下方开一个开口,将下方的冷空气排出,然后冷空气上升到服务器。阳性,然后吸出来。那就是把冷通道固化成一个柜子。这种方法保证了冷空气从底部向上吸入,热空气从后面排出。该机柜的前面板是密封的。冷空气的规划越精细,成本就越高。比如在这个结构下可以做一件事。通过在机柜上方布置管道,可以将热风点对点地直接输送到空调机组,确保空调机组得到的都是需要制冷的热风。在这种情况下,可以获得更高的散热效率,可以有效降低能耗。但企业追求的是总拥有成本,而不是单个子系统能达到多少效果。所以,具体选择哪种降温方式要视情况而定,并不是越高级,你就得用。谷歌在建设数据中心时也发现了这个问题,因为如果使用大量的板材或金属成型件来隔离冷通道,成本会非常高。谷歌直接去便利店购买透明门帘和透明塑料布,将门帘和塑料布从机房屋顶挂起来,用塑料布形成冷热通道的隔离区完成冷热隔离。这个成本很低,效果很好。根据谷歌自己的说法,它已经将PUE(整个设施运行所消耗的能量,与服务器本身消耗的总能量的比例)降低了一半以上。这种想法非常好。遇到不是很复杂的问题,可以用简单的方法解决。关于PUE,国内机房的PUE一般在2~2.5之间。国外如Google、Facebook,普遍将POE控制在1.3以下,所以差距还是挺大的。数据中心需要抵御自然灾害、地震、洪水、海啸、飓风、风暴、雷暴和火山爆发。优秀的数据中心在建设初期都会考虑各种突发因素。就像我刚才说的,谷歌会考虑暴力和恐怖袭击,日本会考虑更多的自然灾害。虽然地震、洪水、海啸、飓风、风暴、闪电、火山爆发的可能性很低,但对于某个机房来说,这样的事件可能永远不会发生。但是当机房很多的时候,或者当你的机房足够长的时候,一切皆有可能。在我的实际工作中,遇到过被水淹没的机房,也遇到过被雷击断电的机房。让我们关注地震。之前去日本的时候,参观过NTT的机房。深刻的。抗震有两点:选址避开地震带;提高建筑物和机柜的抗震能力。在数据中心的抗震方面,通常采用框架结构来抗震。其实最安全的做法是把机柜建在地下,因为地震的破坏主要来自地震的面波,也就是它在地面上传递的力,使建筑物左右摇晃。因此,地下建筑是最安全的抗震方式。当然,建造在地下的代价是极其昂贵的。重点讲解框架结构。框架结构是指建筑物的框架而不是墙体承重。在框架上进行减震和结构加固。框架结构一般能提供抗8级地震的能力。汶川地震时,电信机房有框架结构。当时它并没有倒塌,只是墙壁裂开了。日本在抗震方面有很多黑科技,因为在日本很难找到没有地震带的地方,而且他们的土地又贵,又没有办法建造大型框架结构来抗震,所以机房在日本的大城市一般都是大楼。十层以上的机房在地震时尤其危险。日本的做法是把地基打得很深,钻到很深的花岗岩岩层,可以承受极高的地震而不破裂。真正体现日本黑科技的是,他们把整个机房大楼建在一个类似于汽车悬架的系统上。△横向减震日本机房悬架吸收横向运动。它是一种水工结构,在地震期间可以不跟随地面的趋势移动。这种设计可以保证建筑物的稳定性。通过减震橡胶,在发生地震时吸收纵向振动。△纵向减震和拍云机房选择针对核心数据中心,拍云会综合考虑上述所有因素,再通过技术评估综合考虑安全性、稳定性、可靠性。还有网络连接。经过严格审核,才能确定机房是否能满足优拍云的需求,是否可以被优拍云使用。△有拍云在纽约的数据中心。海外数据中心会将设备放置得非常密集,这也涉及到国内外数据中心的布局习惯和能源状况。通常,海外数据中心的每个机柜可以提供4.5千瓦甚至更高的功率支持。国内一般是3千瓦左右。△热派云在纽约的数据中心从纽约数据中心的图片我们可以看到,有一张网可以防止物体掉落。这就是国内外差异很大的地方。国外数据中心的设计规划会更多的考虑到人性化的因素,或者说是交互体验,让你在使用的时候感觉非常舒服。这些都是专门评价的。国外数据中心非常注重美观,会考虑视觉因素。在建设机房时,他们会考虑很多硬指标之外的东西。在中国,这方面还很欠缺。国内数据中心在功耗、安全等硬指标方面都比较优秀。但在细节上还是有所欠缺。△优派云在香港的数据中心和国外的数据中心确实靠谱,但是当你遇到一些需要人员支持或灵活处理的问题时,他可能会向你收取每小时200美元的服务费。免费国内上架,安装,安装系统等东西。如果你出国,你可能会被收取每小时200美元的费用。这体现了我们中国人的伟大,因为中国人在国外开的机房都是免费的。