简介:SysOM是一个集监控、告警、诊断、修复、安全等能力为一体的操作系统运维平台。文/系统运维SIG如果你被突如其来的OOPS和满屏的奇怪功能打上了问号?机器内存明明很大,却申请不到内存?业务周期波动,ping命令偶尔耗时较长,却无从下手?程序就那么几行,但是程序怎么跑,CPU都跑不高,业务流量上不去?或者CPU使用率在90%以上,ps一堆乱七八糟的任务不知道怎么选择……当你试图在社区中寻找运维的开源产品时,你将彻底从免费美味的Linux天堂到地狱。因为你要搜索的是一堆专门的、重复的甚至相互冲突的命令和千篇一律的监控系统。这些命令你是看不懂的,监控系统也只是一个监控CPU使用率、内存使用率、网络吞吐量的面板,根本解决不了你的问题,而且Linux低的初始投入带来了极高的运行和维修费用。因此,SysOM就在这里。SysOM(SystemOperation&Maintenance)是龙蜥社区系统运维SIG打造的一站式操作系统运维平台。实现主机管理、系统监控、异常诊断、日志审计、安全控制等复杂的操作系统管理。SysOM的诞生主要是为了解决以下问题:Linux社区有大量的运维管理工具、监控工具、诊断工具,但工具碎片化严重。单一工具只能解决单一场景问题,需要用户花费大量时间研究工具。在使用中,没有统一的平台为用户提供良好的操作系统运维体验。操作系统作为一个非常底层的基础设施,其运维难度非常大。对宕机问题、内存问题、网络问题等各种疑难问题的分析,需要非常专业的分析。操作系统知识对于一般运维人员来说太高了。一般的开源操作系统都提供软件安全更新,但没有统一管理安全漏洞影响范围、漏洞发现、漏洞修复的运维平台。基于以上解决这个问题,DragonLizard社区SysOM应运而生。目前SysOM提供了以下四种能力:统一平台:一个平台解决操作系统运维过程中需要的各种关键能力。SysOM集成了主机管理、监控、诊断、审计、修复和安全功能。通过基于Web的界面管理,用户可以轻松操作和维护所有机器;使用方便:提供统一的监控系统,用户可以配置多个维度观察被管理主机的状态;提供统一的诊断系统,用户可以使用web界面完成各种操作系统问题的深入诊断;深度分析:集成SysAK工具集深度诊断解决方案,沉淀百万核心层面运维经验,从内核源码层面分析问题;安全可靠:提供统一的安全中心,对用户管理的主机提供全方位的漏洞监控、管理、修复,保障系统安全;同时提供多种安全加固能力,满足不同应用的不同安全需求。SysOM介绍1.架构介绍SysOM的整体架构分为:前端展示、服务端分析、客户数据采集。所有运维业务的分析数据通过统一的前端Web展示给用户:二、功能介绍SysOM主题功能包括以下6大类:主机管理作为SysOM管控接口,负责添加、删除、修改、检查管理节点、终端操作系统等功能。您可以通过简单的web界面操作将需要管理的机器添加到管理界面,也可以一键登录相应的机器进行shell操作。监控中心监控中心主要为用户全方位展示操作系统的情况,包括但不限于:网络延迟、资源使用、任务负载、系统任务等,会根据具体情况提供类似于网络抖动监控的Netinfo功能场景(如游戏、金融等),还提供完善的操作系统基础指标监控。宕机中心宕机作为操作系统异常的一种极端情况,往往会对用户应用产生重大影响。SysOM宕机中心将为用户提供统一的宕机问题管理,包括宕机监控、已知问题管理、在线分析和解决能力。通过多维度的宕机管理,降低宕机问题对用户的影响,提高用户业务的稳定性。诊断中心操作系统作为一个非常底层的软件基础设施,运维难度大。针对操作系统层面的问题,SysOM集成了龙蜥社区的SysAK能力,为用户提供全方位的诊断能力,包括:系统健康检查(即一键诊断)、网络/内存/存储/调度深度诊断,通过综合诊断帮助用户分析操作系统层面的各种问题。日志中心日志中心会为用户提供日志审计的功能,方便管理员监控和管理自己负责的集群的运维情况。安全中心安全问题越来越受到大家的关注,操作系统中包含大量的开源软件包,不断产生新的安全漏洞。作为操作系统管理员,最关心的是能否及时发现系统中的安全漏洞并快速修复。SysOMSecurityCenter为用户提供实时的安全漏洞检测,并根据操作系统的修复进度提供白屏修复操作。实践一、环境准备操作系统:AnolisOS8.4ANCK64位系统规格:2核8g数量:3个网络:公网IP2、SysOM部署2.1监控组件部署选择Server节点,执行如下命令部署监控组件部署目录mkdir-p/usr/local/sysom/server/monitor/下载grafana+prometheus+node-exporter下载grafana到/usr/local/sysom/server/monitor/wgethttps://dl.grafana.com/oss/re...-P/usr/local/sysom/server/monitor/下载prometheus到/usr/local/sysom/server/monitor/wgethttps://github.com/prometheus...-P/usr/local/sysom/server/monitor/下载node-exporter到/usr/local/sysom/server/monitor/wgethttps://github.com/prometheus...-P/usr/local/sysom/server/monitor/2.2诊断组件部署在Client节点上。执行以下命令部署监控组件。如果没有安装诊断组件,SysOM的诊断中心将无法运行部署目录mkdir-p/usr/local/sysom/server/diagnose下载诊断组件sysAKwgethttps://gitee.com/anolis/sysa...-P/usr/local/sysom/server/diagnose/installsysAKrpm-idv/usr/local/sysom/server/diagnose/sysak-4.19.91-24.8-1.2.1-1.an8.x86_64.rpm--nodeps2.3SysOM部署下载SysOMwgethttps://gitee.com/anolis/syso...-P/usr/local/sysom/cd/usr/local/sysom/tar-zxvfsysomRelease-20220329115704.tar.gzcdsysomRelease-20220329115704安装Sysom选择一台准备好的机器作为SysOM服务器。如果只有公网IP,只需填写相同即可(暂不支持离线安装)。./deploy.sh/usr/local/sysom内网IP公网IP3.使用SysOM部署成功后,用户可以通过浏览器访问部署好的SysOM平台。直接在浏览器输入公网IP(如果只有内网IP也可以)。3.1登录界面3.2系统界面3.3功能使用这是SysOM系列的第一篇文章。SysOM功能的详细介绍请参考后续系列文章。原文链接本文为阿里云原创内容,未经许可不得转载。
