【.com原稿】如今,随着ITIL4在业界的落地和推广,IT治理目标的企业倾向于创建闭环服务价值链(SVC)。即通过构建一套可靠、可控、完备的服务运维实践模型,为企业的日常业务运营保驾护航。既然是治理,就需要站在用户的角度去看待IT服务的交付过程。通常,用户主要关注三个方面:服务本身是否可用,提供服务的团队是否到位,是否能够调动必要的资源。显然,受疫情影响,这三个方面已经无法通过统一的办公空间来传递。因此,我们需要确保它们能够持续、准确地远程提供给用户。下面我们一一讨论。可用性管理不仅适用于“在家值班”的IT工作者。事实上,整个公司都在密切关注疫情期间信息系统和服务的可用性。简单来说,可用性管理的目标可以归纳为两个方面:在事故发生前保证业务服务和系统架构的稳定性。在事件发布后,最大限度地减少中断持续时间和此类事件的频率。对此,我们团队从当前服务类型、系统的业务价值、可能存在的外部威胁、内部薄弱环节出发,从以下三个维度进行可用性状态排查:把握最大允许中断时间(MTD).通常,我们可以从业务功能的重要性出发,大致分为五类:关键(1-4小时)、紧急(24小时)、重要(72小时)、一般(7天)、非必要(30天)亲切。了解每个应用程序组件本身的复杂性,以及对其他组件的依赖程度。通过梳理,我们得出了类似如下的表格。梳理一下目前各种SLA(ServiceLevelAgreement,企业向外部客户提供的服务协议)、OLA(OperationalLevelAgreement,企业内部IT向其他部门提供的服务协议)、UC(UnpinningContract),外部供应商向企业提供的服务协议)企业提供的IT设备支持合同),提取各种性能指标,进而建立组件当前状态基线和阈值告警机制,提供参考可能的性能问题的诊断依据。当然,上述基本状态是比较容易掌握的,关键是如何落实到可用性的计算中。通过大家的集思广益,为了简化和快速找到可衡量的起点,我们引入了业界常用的“几个九”的计算方法。其中,对于单个服务组件,我们采用:平均无故障时间(MTBF)=(约定服务时间-总停机时间)/中断发生次数,平均恢复服务时间(MTRS)=总停机时间/发生次数interruptionsAvailabilitylevel=MTBF/(MTBF+MTRS)对于更复杂的业务系统,我们科学界的聪明人采用了如下算法:串联系统的整体可用性=A组件可用性×...×N组件可用性整体可用性并联系统的总可用性=1–(1–A组件可用性)×…×(1–N组件可用性)混合系统的整体可用性=串联部分的整体可用性×并联部分的整体可用性它可以是可见,要想缩短MTRS的时间,就需要提高综合处理事故的能力。例如,我们在维护现有的云业务环境时,从整个生命周期的各个方面对其进行管理和改进。其中包括:在检测和识别阶段:我们从各个虚拟机中捕获并过滤系统事件和基于网络的异常流量信息,然后将过滤后的日志信息继续写入到HBase数据库中,用于后面的各种关联。分析,以及必要的证据提供重要依据。调查分析阶段:利用工具对事件类型进行分组,根据特征码统计事件发生频率。同时,我们引入了应用性能分析(APM)模块,准确定位应用服务中哪个URL的访问速度急剧下降,或者用户延迟提交了哪个SQL语句,让我们可以更快速的定位到根本问题。在抑制和修复阶段:我们可以暂停有问题的虚拟机镜像,以隔离它与其他系统和服务的逻辑连接。这样不会破坏虚拟机上的证据,防止事态恶化。为了提高MTBF,及时了解目标系统的可用性,我们在每个办公地点设置了可靠性工程师(SRE)的角色。他们的日常工作主要体现在预防性例行检查上。其中,在硬件和机房环境方面,SRE们利用疫情期间有限的返工机会,在每个机房安装或使用现有摄像头,监控关键位置的状态灯或LED屏实时查看设备面板,以便集成快速发现和定位各种硬件组件上的问题。对于软件应用,我们通过部署的常规日志和事件监控工具(如开源的Zabbix),远程集中审查和跟踪各项性能指标。当然,我们将监控过程中抓取到的事件信息,按照重要程度进行了分类:信息类事件,比如用户进出,会触发人事管理系统,向相关运维人员群发消息一封内部电子邮件,以便他们可以采取适当的设置和操作。预警举例:去年2月疫情初期,大量居家办公用户远程连接企业内网,导致服务器CPU占用率逼近甚至超过设定阈值。异常,比如:去年3月底,欧美疫情爆发,远程用户数量激增。上述服务器的CPU使用率和最大连接数持续快速超过设定的阈值,直接导致新用户无法连接使用远程网络。值得一提的是,我们的计费模块会不断记录每个用户触发的满足计费条件的打印和复印作业。然而,经过去年5月的部分升级调整后,却意外地影响了我们在全球各个办公地点的打印和复印作业的输出性能和速度。幸运的是,SRE通过对打印速度的日常监控,及时发现了这个瓶颈问题。通过对整个团队的后续分析,最终在造成大规模影响之前得到了纠正。关系管理由于疫情导致我们的IT团队无法直接提供现场或面对面的技术服务,远程桌面和电话沟通成为我们惯用的支持方式。为避免IT人员与终端用户、管理层、IT团队内部因无法见面而出现疏远,我们在管理上借鉴SWOT分析法,围绕IT团队进行全面分析。梳理方方的关系:优势:公司拥有ISO27000认证,在管理规范、技术设施、文件覆盖等方面都比较充足。同时,我们有配置管理数据库(ConfigurationManagementDatabase,CMDB)和问题知识库(KnowledgeBase,KB),可以按需查询。劣势:用户使用的软硬件去年初本应更新,但疫情阻碍了设备更换、系统重装、软??件升级等计划。此外,用户家庭网络的速度和带宽也在一定程度上限制了远程技术支持和更新的能力。机会:远程“非接触式”服务方式,在一定程度上消除了用户对支持人员的既有刻板印象。当然,这个企业的用户一般都具有较高的学历,有一定的计算机技能和理解能力,对技术人员也有信任和尊重。威胁:敏感信息在原办公内网之外的环境中查看和编辑,用户通过“隐形”的远程通信方式进行协作,这些都带来了更大的被攻击风险。疫情期间,用户的服务需求可以说是有增无减,而且纷繁复杂。基于以上分析,我们预先安排优先级,合理分配响应资源,制定了以下具有“疫情”特点的服务沟通和支持方式:,不仅让公司看到我们还在“演戏”,还在提供服务,也让他们了解了IT服务的运行机制,增加了对支持人员的理解和耐心。在了解到用户的需求或问题后,及时给出处理时间的预估,以便用户调整后续的工作或日程安排(毕竟是在家里,不是在办公室)。定期设置技术直播,方便感兴趣的用户随时加入学习。当然,我们也会录制这些“公开课”,并将视频资源和配套文档发布在内网,供无法参与直播的用户点播学习。考虑到疫情对大家居家工作效率可能造成的影响,我们邀请用户以投票的形式参与决定何时更改或升级某些服务。定期群发一些常见问题的回复和公告,不仅体现了IT部门的服务意识和关怀态度,也无形中培养了用户对类似问题的基本认识和简单处理能力。提倡“多一件事”的服务理念。即在远程服务用户结束后,支持人员可以与对方亲密聊聊健康状况,或主动、贴心地询问是否还有其他IT需求。当然,俗话说“有人的地方,就有江湖”。同样,服务也必然会出现问题。因此,为妥善处理因问题本身或不知情而产生的各种投诉,我们不仅要保证上报渠道的畅通,还要按需配合其他部门及时给当事人答复,变被动为主动,并向管理层汇报证明IT团队在非常时期的价值。前面提到了IT团队内部关系的维护。为此,我们将疫情前分散的各部门例会合并为各技术部门每季度一次的线上会议。会议上,除了重点讨论存在的问题供大家集思广益外,我们还会汇报和表扬表现好的个人,尤其是得到用户好评的个人,从而在整个团队中形成一个“良性循环”。此外,为了给许久未见的IT人员“存在感”,激发他们的参与意识,我们每隔一到两天就会举办形式多样的技能集会和知识竞赛活动。几个月的时间,让大家在发挥所长的同时,营造了一种相互学习、取长补短的氛围。总之,建立和增加良好的沟通关系是我们促进各项服务增值、保证IT项目顺利进行的必要条件。理财需要保证的第三项是财务管理。众所周知,今年防疫之年,大部分企业都捂紧了钱包。事实上,这对IT部门来说既是挑战也是机遇。我们称之为挑战,因为对于像我们这样“烧钱”的部门来说,获得软件和硬件以及可以继续或添加的项目比以往任何时候都更加困难;而它是一个机会,意味着我们需要以“物有所值”的方式,更高效地利用现有的资源,创造和体现自身的价值。对此,我们利用去年上半年的时间,仔细理清了以下两类收支关系:?“收”:IT部门转账的人力、资源消耗等成本在为其他部门提供服务的过程中。例如:对于用户直接使用的硬件成本,可以按用户数或节点数分摊。软件和应用程序的成本可以根据使用的部门和分配的许可证数量进行分摊。对于网络连接设备和技术支持的成本,由于缺乏参考计算标准,可按人数比例和规模分摊到各部门或分支机构。?“支持”:IT管理团队与财务部门合作支付IT服务的采购和支持费用。凭借上述对IT服务费用的全面把握和收支分类的合理管理,自去年9月初以来,我们开展了以下预算驱动的财务管理实践:?早在今年上半年,我们全面梳理出当前软硬件资产价值,以及保障各项业务服务和日常运营所需的IT费用清单。?我们将资产项目和服务项目细分为:用于增加或更新IT服务的资产支出;维护机房环境和云系统的运营支出;用于设备维护和软件支持的定期固定支出;处理特定项目的可变成本,更改事件。?各事业部确定了2021年的经营目标,以及企业发展和投资的方向后,就可以着手分析相关领域的成熟技术和产品,借鉴行业内其他公司的经验进行实施技术,最终制定周密合理的预算。?在前瞻性方面,我们从“可能的服务”而非“现有功能”出发,综合考虑各种内外部因素,参考来年市场各种可能的调价方案。?外包服务方面,针对疫情对现场日常服务需求的大幅下降,我们在减少该类费用的基础上,适当增加事后纠错服务的比重。当然,除了在预算上下功夫外,我们还根据上述分摊原则,参考上述CMDB,制定了成本映射表。通过不断增加费用记录和动态调整成本项目,及时跟踪各项成本费用,并及时与预算进行比对修正。总结疫情期间,IT支撑部门难免会受到各方面的影响,甚至“寒风瑟瑟”。然而,我们的团队却醒悟到:与其得过且过,不如趁机“练内功”,提高竞争力。在当前的IT架构和服务可靠性(Reliability)、可维护性(Maintainability)、可服务性(Serviceability)加固的互联网上,维持甚至提升用户满意度,与企业“产生共鸣”。正如一位IT同事在去年底文艺总结时所说:“不管用户看不看,我们团队都在,永不放弃,永不放弃。”【原创稿件,转载请注明原作者及出处.com】
