当前位置: 首页 > 科技观察

没有数据,就没有工作!“数据思维”在运维中有多重要?

时间:2023-03-17 13:50:19 科技观察

本文转载自微信公众号《高效运维》,作者顾黄亮。转载本文请联系高效运营公众号。前言信息通信研究所的一些分析数据表明,企业IT的信息化进程正在逐步完成,与此同时,企业对IT精益化运营的需求也越来越迫切。在这种场景下,数据的思考和使用能力成为了提升IT生产效率的制约因素。镣铐。笔者认为,企业数字化的范围在运维领域,更多的场景还在数据量化的拓展中。所以除了服务输出和业务连续性能力输出,还有一个重要的场景需要开发,包括运维。维度数字信息能力输出。同时,按照的说法,在数据驱动的基础上,运维的重要功能已经从安全、稳定逐渐延伸到高效、低成本。本篇我们重点介绍运维的数据思维和数据场景的应用。1、运维方式和运维数据的发展过程考虑到企业信息系统的规模和复杂度以及运维技术的应用,我们可以大致将运维方式的发展分为五个阶段:人工操作运维、流程运维、自动化运维、DevOps、AIOps。在这五个阶段中,运维的场景输出能力在不断提升,从最初的各种资源分配控制到容量管理,从资源交付到持续部署,从被动接受问题到早期预测问题,乃至现在主动介入用户体验和增值业务投资的技术运营场景。因此,运维方式的发展也遵循运维无边界的思路,“渗透”进入整个IT服务体系,从业务角度提升运维价值,提高投入-技术产出比,降低企业成本压力。运维数据按照上述运维方式的发展过程逐步构建数据生态。如果将运维方式的发展浓缩为运维技术提升和工具建设,那么相应的,运维数据的发展也有四个阶段:自动化运维能力、平台化运维能力、数据运维能力基于运维能力、智能运维能力。在数据化运维能力方面,运维数据初步形成了初步的数据生态标准,能够构建运维数据中心和数据可视化,也能进行初步的血缘关系分析并影响数据的能力。在智能运维能力上,运维数据已经形成规模化。因此,运维经验结合大数据和机器学习技术,制定一系列智能策略,提升运维数据的输出能力,让运维维度的数据边界延伸到更多场景。2、运维的“数据思维”运维模式是什么?运维方式的发展,提高了运维人员的基础门槛能力。不靠谱,可以用数据来验证。(一)数据对运维的价值打通业务服务环节数据的价值是企业数字化进程的核心,对运维也是如此。不同的数据对于不同的运维人员有不同的价值,同样的数据对于不同的运维人员有不同的价值。所以对于运维来说,数据对于运维打通业务服务环节的价值主要有以下几点。在产品运营阶段,快速发现业务问题。公司管理层通过经营指标发现公司经营中存在的问题。同样,运维人员也可以通过业务数据发现产品运营中的问题。业务数据的背后是每个用户行为的积累。如果数据有波动,那一定是有些节点和步骤和平时不一样,需要重点关注。让我们来看一个简单的场景。例如,如果多个第三方渠道的访问量和成功率下降,但系统没有故障,是第三方渠道有问题,还是新上线的功能有问题导致数据改变,或者缺少一些Switch和策略,所以在产品的运营阶段,数据是连接技术和业务的桥梁。对于运维来说,监控焦点靠前有助于更快地发现业务问题。在业务监控中,数据波动点是公司运营的问题点,也是运维工作中的重点。协助运维人员进行决策。在实际的运维资源输出工作中,一般会有一些流程无法覆盖的特殊场景,比如重大事件的资源扩容、紧急情况下的系统降级等。在链路系统扩展方面,有系统A扩展和系统B扩展。如果有数据支持可以直接证明A系统扩容优于B系统扩容,则应该采用A系统扩容。可能有人会说,为什么不用链路压测来决定。在庞大的业务系统链路中,涉及外部第三方系统的多级调用不一定能够协调足够的资源,只能基于现有数据支撑决策,紧急情况下系统退化也是如此。在数据积累的过程中,如果数据性能向着正向发展,就需要放大这种效应,充分运用措施来提升数据。如果数据性能向不好发展,快速定位数据波动的真正原因并解决。无论是运维方向的决策,还是运维方案的决策,都可以以数据为指导。项目运维成本审查及后评价。对于企业来说,评价每一个项目和需求启动的结果只有一个最合适的指标,因此项目后评价是成本审查的重要手段。是判断人力资源、软硬件资源的投入和产品运行后的产出的重要手段,是判断一个项目或产品是否成功,从更高的角度对项目和产品进行优化的重要手段。对于运维来说,除了容量管理,运维的成本审核也是很关键的一点。将项目上线前的预期收益与项目上线后的阶段性实际收益进行对比,相关数据可以判断软硬件投入是否产生收益,也可以作为业务继续进行的参考迭代优化和离线止损。(2)运维人员的数据视图没有数据,不起作用。在运维自动化阶段,对于运维人员来说,如果没有数据作为日常工作的参考,工作的方向和思路就会产生严重的偏差。你所负责的业务线和系统已经不能给你最准确的状态和及时的反馈。同样,资源的管理和分配也因数据的实时性和准确性而大打折扣,导致无法高质量交付。因此,对于运维人员来说,需要充分利用数据的反馈和支持。数据及时暴露所有问题。对于线上BUG,第一反馈是数据波动;对于系统和资源问题,首先反馈体现在监控反馈上;对于代码质量,第一反馈是在持续构建过程中;渠道质量不高,最先反馈的是数据的同比对比。总之,在业务连续性的问题上,数据及时暴露了一切问题。把数据用好就好了,不一定要做数据生产者。运维领域集中了公司业务发展的所有数据,包括资源数据、监控数据、业务数据、后台支撑数据。因此,运维人员只需合理使用数据,将运维场景与数据输出场景相匹配即可。大数据工程师负责分析业务运营数据并提供架构,数据研发工程师负责满足公司各种数据需求,运营人员负责对业务数据提出建议和实时反馈。运维人员只需要将运维场景的数据和其他第三方数据有机结合起来,运维人员随时看数据,不需要成为他们。运维服务能力的边界延伸并不意味着运维技术的发展推而广之,运维人员需要善于利用已有的数据,获得想要的结果和反馈。3、运维人员如何实施“数据思维”我们已经讲过什么是数据指标体系,以及如何构建数据指标体系。因此,运维人员实施数据思维的第一步是形成初步的运维数据生态,并具备输出数据场景的能力。(1)拥有运维数据生态。一般来说,运维数据生态汇集了公司业务发展的所有数据,让适应场景的数据流动起来。对于资源管理,基于CMDB的数据一般分为以下两类:数据中心数据,包括机房、机柜、U位、设备、服务器及配件、系统版本、IP信息等。云管理数据包括宿主机、虚拟机、容器、系统版本、IP信息、承载系统、负载均衡、系统信息、中间件信息、业务信息。系统化数据来源于业务日志,包括时间、请求数、系统、接口、方法、耗时、响应码等。基于业务的信息一般包括PV、UV、转化率、成功率、新客户数、利润等。基于组织结构的信息一般包括部门、团队和人员。此外,还有一些文档数据,如需求文档、接口文档、知识库等。如下图所示,运维数据生态基础需要对上述源数据进行采集、存储、处理、分析,最终达到应用的效果。(2)数据使用场景运维的日常场景很多,看似复杂,但最终离不开对稳定、安全、高效、低成本四大基本价值的更高追求。通过运维数据能力,运维可以为企业决策提供有力支持,实现稳定、安全、效率提升、成本合理控制。在本文中,我们只对常见的场景进行简单描述,详细的场景分析将在下一篇文章中体现。知识图谱使用统一的语言定义运维数据,通过实体之间的关系来表达运维对象,将运维领域的实体关系整合起来形成知识图谱。运维领域的关系包括但不限于产品、服务、集群、服务器、网络、IDC等数据中心,为运维域建立数据中心,资源数据等统一管理,告警数据、性能数据、业务数据、日志数据、工单数据、指标数据、拨测数据等,为上层运维分析场景提供统一的数据访问路由、数据服务目录、数据访问管理、数据可视化等功能,打破“数据孤岛”,通过融合开放,深度挖掘运营数据价值。识别前端数据需求,整合后端数据,处理输出数据,建立数据中心级数据服务共享平台。通过数据整理、数据源规划、数据流程整合、存量数据加工整合,以数据服务的方式实现数据监控和资源利用分析。数据可视化,通过数据的可视化呈现,帮助运维人员直观、方便、快速地分析问题,同时也提供了一系列的工具组件,让运维人员可以根据自己的业务情况快速查看和编辑海量数据.多层下钻分析、多维度关联分析、报表排版、横向纵向行情数据对比等,数字化改造传统运维体验,大幅提升问题排查、风险发现、知识积累。下一篇文章将介绍更高层次的场景描述,如无人值守变更、故障自动评估、故障自动预测等。(3)养成每天看数据的习惯。运维人员要有看数据的好习惯。以笔者为例,每天最重要的就是随时看监控数据,同时兼顾业务数据,同时保持对数据的敏感度。对于数据性能,无论是正常还是异常,都需要与研发团队、产品团队、业务团队保持沟通,让大家了解当前项目和线上产品的数据性能。一方面,我们可以得到团队的反馈,反馈会进一步强化我们看数据的行为。另一方面也树立了自己靠谱的形象,每天都能看懂数据和业务指标。这就是运维人员的可靠性。4.后记总之,运维离不开数据,尤其是在企业IT逐渐进入精益运营和价值交付的今天。作者简介顾煌良,十年研发运维经验,涵盖基础设施、应用架构、数据库、DevOps、互联网、电子商务、金融经验。专注于DevOps在企业中的应用与落地,致力于打造企业智能运维体系。参与了多项行业和国家标准的编写,《开源许可证使用指南(2018)》的起草人之一,国家标准《研发运营一体化(DevOps)能力成熟度模型》的起草人之一,《企业IT运维发展白皮书》的起草人之一。维修部负责人。