当前位置: 首页 > 科技观察

成熟的数据中心模型设计

时间:2023-03-15 22:35:50 科技观察

《我的企业数据中心目前的运营状况是好是坏?这是企业数据中心管理者经常反复提出的问题。虽然他们不会每天都为此苦苦挣扎,但当一个人安静和内省时,它确实会时不时地出现。与IT业务中的大多数事情一样,这个问题实际上很重要。但要真正找到正确的答案是引导“工作真正发生的地方”。在我与读者深入探讨这个问题之前,让我讨论更深层次的思考,然后解决另一个问题:“成熟”的数据中心意味着什么,为什么会有人想要这样的数据?中心呢?虽然这个答案看起来很明显,但我的建议是:一个“足够好”的数据中心可能已经足够好了。正如MalcomGladwell在《Outliers》书中提出的,成为公认的行业领域专家和领导者需要10,000小时,与具有一般能力的普通从业者之间的相对成本差距是多少?真正优秀的行业领域专家虽然令人羡慕,但往往是不必要的。没有远大抱负的人可能不想成为***专家;他们只想与家人和朋友度过每一个美好??的夜晚。再次,如果我们将数据中心的成熟度与行业专家的卓越程度进行比较,一个完全成熟(即***)的数据中心的成本是相当高的,无论是货币成本、时间成本、人员投入或者其他参数成本——那么,我们要问的另一个问题是:“最好的数据中心是否满足企业的业务需求?”通常,答案是否定的。您企业的数据中心实际上只需要准备好满足特定客户(内部同事和外部客户)的需求,即可达到预期的服务水平。所以,我想澄清一下:当我提到“成熟”时,我并不是说它是“***”的同义词;相反,我指的是一个足够稳定和强大的数据中心来运行,以满足您企业的业务需求并由可用的员工维护。了解了这一点,数据中心如何提供有效的服务,如何在企业现有员工的服务层面实现可维护性,对于任何在数据中心环境中管理或工作的人来说都是极其重要的。的。能力成熟度模型幸运的是,有一个确定成熟度的模型,业界称之为能力成熟度模型(CMM)。CMM现在广泛应用于软件开发(即最初提出它的领域)、产品交付和摩天大楼建造等方面。不幸的是,与信息技术基础架构库(ITIL)、面向服务的体系结构(SOA)和六西格码一样,CMM的使用通常不太理想。毕竟,运行数据中心就像开发软件应用程序一样。需要明确的是,我并不是说ITIL、SOA、SixSigma或CMM是糟糕的框架。它们非常好而且非常有用。但并非在所有情况下。因此,虽然了解企业数据中心的相对成熟度水平很重要,但使用CMM并不是了解它的最佳方式。因此,我想就如何创建一个对您的业务特定情况有意义、相关且更有效的模型,提出我自己对成熟度模型的一些想法。创建您自己的数据中心成熟度模型数据中心成熟度模型的目标是帮助您了解您的企业数据中心位于一个连续统一体中的什么位置,一方面没有复杂性,另一方面又很复杂。完全免费。这意味着您需要仔细考虑重要类别。例如,在许多情况下,从手术室到商业餐厅厨房,清洁度当然是一个重要的成熟度类别,但它可能不是数据中心的关键指标。另一方面,组织和计划显然是一个很好的起点。但是您的下一个想法必须是“组织计划是什么?”您是否只是在谈论物理方面,例如将所有备用电缆进行颜色编码并按长度组织以便随时可用?或者组织的概念是否扩展到手册、工具、设备、员工时间表、流程审查,甚至在线常见问题解答和知识库?想出三到五类成熟度检查应该不难,只要回顾一下,想想你每天处理的问题、任务和活动类型。但是当你想到更详细的细节时,需要尽一切努力将它们分类为特别强调的学科。这方面的示例包括:可视化:您能否识别和查看数据中心各个方面的状态?这包括从楼层和机架图(静态或交互式)到硬件、软件、交易等当前状态的监控显示。容量:您知道数据中心油箱中有多少燃料吗?您知道您的数据中心耗尽燃料的速度有多快吗?情况下,粗略估计一罐汽油可能耗尽的时间?同样,这些问题适用于存储、处理器、内存、负载平衡等。回应:您如何知道问题何时发生?有哪些工具可以促进初始响应——包括自动修复、升级、故障排除以及最终的平均修复时间(MTTR)?一旦您的组织为此制定了成熟度类别,您将可以提出问题,让您评估这些领域的成熟度/复杂性/准备情况。你应该避免是、否或SAT式的问题。将需要对答案进行排序的问题替换为选择答案。通常,我的目标是为多项选择题提供一到五个备选答案,以方便找到问题的答案或问题的陈述。然后对这些答案进行结构化,让其中一个备选答案可以一眼就被淘汰,而中间的其他答案则设置为接近最佳答案,但不是最佳。下面,我解释一下为什么这样做,例如:当我晚上睡觉时,我相信我可以看到我的企业数据中心的基础设施发生以下情况:1.0-25%(我永远无法入睡!)2,26-50%3,51-75%4,76-95%5,96-100%我们的工具可以帮助显着降低MTTR(与没有这些工具相比):1,0-5%(什么是MTTR?)2,6–25%3,26-50%4,51-75%5,76-100%我们通过以下方式应对容量挑战:1.观察系统崩溃的情况2。每个工作人员密切关注被管理设备或分配系统的状态3.定期检查系统,记录数据并得出结论4.使用数据创建整体使用情况的简单线性预测5.使用连续自动数据收集以计算每个元素的基线,在资源可能耗尽时使用它进行投资,并根据“正常”而不是固定数量设置警报阈值微调问题和答案,然后将其发送给数据中的团队中心。如果您认为匿名回答有助于获得更周到和诚实的答复是可以的,但每个人都应该为改善数据中心的运行环境做出贡献。收集到员工的答案后,以一致的尺度评估结果。然后,您可以跟踪每个问题的平均结果,同时确保每个类别的最终平均值。***,我的推理还与您呈现结果的方式有关。尽管每个问题-如果您按照我上面的介绍-都会产生一个整洁的五步阶梯,例如在典型的CMM模型中提出的阶梯,但这不是您应该显示的结果。相反,它应该如下图所示:本演示文稿的美妙之处在于,您可以看到一个领域的优势在哪些方面有助于填补其他领域的空白。或者更现实地说,你的超级竞争高层管理人员会想看到上面的雷达式显示吗?当然,我们都想成为超级英雄。然而,我们通常不愿意支付以上所有五项所需的成本,无论是更新设备、更强大的监控、雇用更专业的人员、更高级别的供应商SLA等等。更强大的监控并不需要花费一大笔钱,因此您应该始终愿意尝试可用的最佳工具!显然,创建成熟度模型和分析数据与实际改进数据中心运营并不相同。但在某些情况下,“我们如何改进”的答案可能是显而易见的。然而,映射到成熟度模型的评估工具创建了一个可重复的过程,使您不仅可以确定需要改进的领域,还可以评估您的改进进度。同时,记录完备、可重复的流程必须首先成为数据中心成熟度的重要组成部分。