当前位置: 首页 > 科技观察

在线运行及在线排错

时间:2023-03-14 11:22:02 科技观察

1.了解机器连接数问题:1.2.3.4中sshd的监听端口为22,如何统计1.2.3.4中sshd的连接状态(TIME_WAIT/CLOSE_WAIT/ESTABLISHED)连接。参考答案:netstat-n|grep1.2.3.4:22|awk'/^tcp/{++S[$NF]}END{for(ainS)printa,S[a]}'netstat-lnpta|grepssh|egrep"TIME_WAIT|CLOSE_WAIT|ESTABLISHED"n[AlibabaCloudonly]说明:netstat是一个常用的网络连接问题追踪工具,与grep/awk结合使用是神器。当然,如果是在阿里云上,还有更方便的方法。2.从备份的日志中查询数据:从备份的suyun.2017-06-26.log.bz2日志中,查询出有多少条日志包含关键字1.2.3.4。参考答案:bzcatsuyun.2017-06-26.log.bz2|grep'1.2.3.4'|wc-lbzgrep'1.2.3.4'suyun.2017-06-26.log.bz2|wc-llesssuyun.2017-06-26.log.bz2|grep'10.37.9.11'|wc-l解释:在线日志文件一般用bz2压缩后保留。如果解压再查询,会消耗大量的空间和时间。bzcat和bzgrep是研发同学必须掌握的工具。3、备份服务技巧:对/opt/web/suyun_web目录进行打包备份,排除目录下的日志和目录,打包后的文件存放在/opt/backup目录下。参考答案:tar-zcvf/opt/backup/shenjian.tar.gz\-exclude/opt/web/suyun_web/logs\/opt/web/suyun_web说明:网上经常用到这个命令,项目需要打包的时候而迁移后,经常需要排除日志目录,exclude是一个需要掌握的参数。4、查询线程数:查询服务器上运行的线程总数。当机器线程数超过报警阈值时,可以快速查出相关进程和线程信息。参考答案:ps-eLf|wc-lpstree-p|wc-l5.磁盘告警,清除***文件问题:查出服务器上运行tomcat产生的大量异常日志,查出文件,并释放空间。不妨设置包含log关键字的文件,并且大于1G。参考答案:第一步,找到文件find/-typef-name"*log*"|xargsls-lSh|moredu-a/|sort-rn|greplog|morefind/-name'*log*'-size+1000M-execdu-H{}\;第二步是清除文件。假设找到的文件是a.log,正确的做法应该是:echo"">a.log,文件空间会立即释放。很多同学:rm-rfa.log,虽然文件被删除了,但是由于tomcat服务还在运行,空间不会马上释放,需要重启tomcat才能释放空间。6.显示文件,过滤注释问题:显示server.conf文件,屏蔽以#开头的注释行参考答案:sed-n'/^[#]/!p'server.confsed-e'/^#/d'server.confgrep-v"^#"server.conf7.磁盘IO异常排查:如何排查磁盘IO异常,如写慢或电流大,请找出导致磁盘IO异常高的进程ID。参考答案:第一步:iotop-o查看当前写入磁盘的所有进程ID信息。第二步:如果此时所有写指标都很低,基本没有大写操作,需要检查磁盘本身。可以查看系统dmesg或者cat/var/log/message看是否有相关的磁盘异常错误,同时可以在慢写磁盘上touch一个空文件,看磁盘故障是否使不可能写。【本文为专栏作者《58神剑》原创稿件,转载请联系原作者】点此阅读更多该作者好文