当前位置: 首页 > 科技观察

“熄灯”数据中心,你准备好了吗?

时间:2023-03-14 15:48:49 科技观察

“无人值守”数据中心的概念已经流行多年,但为什么要运营这样的数据中心呢?他们会在不久的将来开发应用程序吗?无人值守数据中心的基本理念很简单,就是指部署全自动化设施,无需人工参与即可完成运营的无人值守数据中心。通过“随手关灯”,大大节省了能源和人员管理成本。其实,“熄灯”的想法起源于制造业,可以追溯到1955年菲利普·迪克的一篇短篇小说。文章提到,在荷兰,飞利浦工厂可以在少数质检员的监督下生产剃须刀。在日本发那科工厂,即使长时间关闭空调和暖气系统,机器人的生产效率也丝毫不受影响。十多年来,传统数据中心一直有运维人员管理和维护数百甚至数千台服务器。他们通常不会进入机房,除非更换硬件或修理故障。数据中心的机械和电气设备也是自动化的,因此冷却装置可以无人值守运行,并提示工程师或致电制造商进行偶尔的预防性维护。长期以来,传统数据中心一直是人工管理和维护服务器。为此,为运维人员提供工作环境和条件的各种安全设置和环境设施或多或少需要占用一定的空间和能源。Lights-out数据中心于2011年首次亮相,当时美国互联网服务提供商AOL进行了一次大型演示,宣布推出一种名为ATC的小型无人值守微型设施。AOL技术副总裁、前微软数据中心专家MikeManos在博文中称赞了熄灯数据中心的想法,称该技术“从根本上改变了业务”。熄灯数据中心的炒作现在,十年过去了,AOL早已不复存在,数据中心仍然需要运营商来维护和管理。确实,ATC的一些想法一直存在,在这类数据中心往往可以通过预装服务器的方式来安装机架。数据中心设计师指出,数据中心机架和服务器可以放置得更近,如果建筑物的宜居性不是一个因素,这可以通过在更高的温度下运行来减少冷却费用。从空气中提取氧气可以防止火灾并减少腐蚀。但总的来说,数据中心仍然充满了需要现场工作人员的大型设施。UptimeInstitute是数据中心可靠性方面的权威机构,长期以来一直建议数据中心运营商需要准备好应对出现的任何问题。该机构的技术专家RichardF.VanLoo在2015年的简报中表示:对于需要在TierIII或TierIV数据中心设施中进行关键任务操作的组织,我们建议至少有一个或两个数据中心运营商的员工全天候(24X7,一年365天)在现场。此后,无人值守数据中心的发展发生了一些变化,尤其是在较小的数据中心提供商(如EdgeConneX)中。EdgeConneX在美国和欧洲的24个数据中心一直致力于实现无人值守的运营模式。公司主营业务为二线数据中心市场的内容分发,以及不需要专职人员操作的数据中心设施设计。当需要提供上门服务时,可以使用先进的监控设备,进行远程操作。EdgeConneX的设计可能是使用自动化来简化数据中心运营的最雄心勃勃的例子,这是一种使用设计作为工具来转变业务模型的经济学。它采用先进的设计和运营模板,使EdgeConneX能够快速改造现有数据中心建筑,实现三级冗余,可支持更高功率密度的工作负载,每个机柜可超过20千瓦。EdgeConneXCIOLanceDevin说:我们的整个业务前提都基于熄灯数据中心。我们通常部署功率容量为2MW的数据中心,而不是功率容量为100MW的大型数据中心。因为我们负担不起数据中心的3个工程师、17个安全人员和2个维护人员。EdgeConneX拥有广泛的客户群,并运行一个分段管理系统,让客户控制IT硬件,而EdgeConneX管理电源和冷却基础设施。这样的数据中心并不完全是“熄灯”,但EdgeConneX能够远程控制安全性,以便客户服务人员可以在服务台操作,而无需与任何操作员实际会面。封锁导致熄灯运营随着COVID-19大流行席卷全球,大多数公司(即使是那些被认为必不可少的公司)都采取了严格的在家办公政策。这也导致了一些问题:依赖现场数据中心支持人员的公司很快意识到他们对数据中心运营的可见性有限或没有,因为他们的员工通常在现场监控数据中心;许多积极主动且之前部署了远程功能DCIM(数据中心基础设施管理)的公司很快发现其覆盖范围存在差距;被视为“低优先级”的云迁移项目已经成为“高优先级”甚至“最高优先级”;因为很多企业这一次准备不够,更多的是期待下一次的准备。以下是大多数公司应该采用的一些非常具体的策略:执行维护和升级功能,使内部数据中心尽可能“熄灭”。在越来越多的员工需要在家远程工作的当下,数据中心运营商对远程控制服务的使用激增。据数据中心运营商QTSDataCenters的首席技术官BrentBensten称,由于大流行,在封锁的前三周内,该公司远程管理门户(服务交付平台或SDP)的登录量激增了30%,而用户在系统上花费的时间也是原来的两倍。“COVID-19加速了远程管理平台和工具的采用,因此以前在现场完成的工作可以远程完成,”Bensten说。关灯运营还是继续面临技能短缺?在许多情况下,“熄灯”是降低数据中心技能要求的一种方式,既是一种削减成本的手段,也是一种解决难以找到熟练员工的方法。施耐德电气工程师StevenCarlini在一篇博文中解释了为什么每个数据中心在未来都将成为无人值守的数据中心。他认为,企业应该“尽可能”地“关掉”本地数据中心,部分是为了应对疫情造成的封锁,部分是为了解决技能短缺问题。“熄灯和无人值守可能并不完全准确,因为安全人员可能会在现场,”Carlini说。建议数据中心聘请具有机械技能的安保人员,让他们进行即插即用的硬件更换,部分企业已经在尝试使用Zoom视频软件指导人员进行维护和维修。在许多情况下,“熄灯”数据中心的概念已经演变成一个不需要太多技能的地方。水下数据中心的探索那么,真正“熄灯”运行的数据中心真的存在吗?可能有一些数据中心是这样运作的,但是没有公开;可能是出于保密的原因,也可能是因为最终失败了,比如AOL的ATC数据中心。但是,我们确实知道一个众所周知的案例。早在2016年,微软就对外发布了创新的“环保型”数据中心——ProjectNatick数据中心(实际上该项目于2014年启动,2016年正式对外公布)。最初,微软首先建造了一个水下数据中心的原型,一个代号为LeonaPhilpot的数据中心胶囊,并于2015年将其放置在加利福尼亚海岸10米深的水中四个月。LeonaPhilpot数据中心胶囊无需人员值守,使用寿命20年以上。它使用可再生能源,每五年更换一次服务器硬件。2018年,ProjectNatick研究项目进入第二阶段,开始设计和制造成熟完整的水下舱室。这一次,微软研究团队用服务器填充了12个数据中心机架,然后将服务器部署在压力容器中,并将其沉入苏格兰海岸外的海底。2020年,微软从海底打捞出这个代号为“SSDC-002”的水下数据中心。数据中心是一个充氮钢制容器,12个机架864台服务器运行,存储容量27.6PB,通过电缆和光纤连接到地面。Natick海底数据中心项目负责人大卫卡特勒说:“我们已经在无人接触的情况下运行该设施25个月零8天,结果当然令人满意。可靠性和摩尔定律水下数据中心服务器的可靠性是水下数据中心服务器的7倍高于陆地上的同类服务器。ProjectNatick水下数据中心使用了一批二手服务器,其中135台放置在陆基数据中心,其余855台服务器部署在水下数据中心。结果显示,135台陆地服务器中有8台在两年内出现故障。在水下数据中心的855台服务器中,只有6台出现故障。服务器都执行相同的任务并且没有经过任何维护,但传统数据中心的振动和氧气环境似乎会影响其可靠性。“熄灯”数据中心的一大反对意见是,服务器和存储需要定期更换,不是因为它们磨损了,而是因为它们已经过时了。几十年来,IT硬件遵循着摩尔定律(即随着技术的进步,硬件性能每18个月翻一番),仅在能源成本方面,使用新服务器就可以在三年内收回投资。如今,芯片技术已接近极限,摩尔定律即将终结,服务器的寿命将更长。卡特勒预测,这最终将使数据中心运营商转向“熄灯”模式。服务器通常占数据中心整个生命周期成本的很大一部分。在后摩尔定律时代,真的没有理由每两年更换一次基础设施。“在边缘采用Lights-Out数据中心虽然传统数据中心仍将需要运营商对其进行管理,但新的应用场景和边缘计算领域可能需要运营Lights-Out数据中心。物联网和人联网等新技术流媒体和应用送货上门的需求导致了对高度分布式低延迟资源的需求,这意味着大量的小型数据中心设施需要部署在靠近人和数据源的地方,大多数边缘数据中心规模更大比微软的ProjectNatick水下数据中心(代号SSDC-002)小很多,有的甚至安装在灯柱上。除非能完全取消现场访问和操作,否则边缘数据中心容量将成为财务噩梦,就像电话一样光纤机柜中的网络让我们回到“熄灯”概念的开始。当AOL的技术副总裁MikManoseManos提出了这个想法,他实际上是在谈论旨在提高AOL服务效率的边缘计算设施。贴近客户。卡特勒表示,随着技术的进步和发展,light-out数据中心的发展可能比人们想象的要快,将成为数据中心行业的一种趋势。尽管“熄灯”数据中心仍面临挑战,但可以肯定的是:无人值守“熄灯”数据中心不再是科学项目或幻想。随着技术的进步和发展,它的发展可能比人们想象的要快,这将成为数据中心行业的一种趋势。本文翻译自:https://blog.se.com/datacenter/2020/06/22/why-every-data-center-in-the-future-will-be-lights-out/和https:///www.datacenterdynamics.com/en/analysis/what-lights-out-data-center/