说实话,每次遇到这种漏检导致的低级线上故障,我都有点无奈,毕竟很多中小团队要么是兼岗,要么是刚入行的新手,手里要么没有规范的巡检流程,要么是随便找了个网上的模板,改都没改就用,完全不贴合自己的业务场景。今天这篇,就结合我6年踩过的各种漏检坑,整理一份2026年最新、适配中小互联网Linux集群的服务器运维巡检表模板,帮大家规范日常运维工作,尽量把低级隐患掐灭在萌芽里。
先给大家说下巡检的周期怎么分,我个人 中小团队别搞太复杂的,人力跟不上反而白搭:核心业务节点、MySQL主库Redis主节点做每日早9晚9各一次的快速巡检(重点看负载、磁盘、内存、核心进程);所有线上节点做每日下班前15分钟的全量基础巡检;非核心业务节点、备用节点、CDN回源节点做每周六上午的深度巡检。
模板里我会附几个可直接落地的简化脚本片段,别担心太复杂看不懂,注释我都写得很明白。第一个快速脚本,就是小李那次踩坑后我给他赶出来的,每日检查核心负载、磁盘使用率、核心进程存活,不用打开终端敲一堆命令,直接一键执行:
#!/bin/bash
中小团队核心节点快速巡检脚本2026版
作者:我自己(网站id运维老王)
检查系统负载,超过4核服务器阈值1.5倍核心数就输出告警
LOAD=$(uptime | awk -F 'load average:' '{print $2}' | awk -F ',' '{print $1}' | sed 's/ //g')
CORE=$(nproc)
THRESHOLD=$(echo "$CORE 1.5" | bc)
if (( $(echo "$LOAD > $THRESHOLD" | bc -l) )); then
echo "⚠️ 系统负载告警:当前负载 $LOAD,阈值 $THRESHOLD"
fi
检查根分区和/home分区使用率,超过85%输出告警
for PART in / /home; do
USE=$(df -h | grep -w $PART | awk '{print $5}' | sed 's/%//g')
if [ $USE -ge 85 ]; then
echo "⚠️ 分区 $PART 使用率告警:当前 $USE%,阈值85%"
fi
done
检查核心进程(根据自己业务改,这里以nginx、mysql、redis为例)
for PROC in nginx mysql redis-server; do
if ! pgrep -x $PROC > /dev/null; then

echo "❌ 核心进程 $PROC 未运行!"
fi
done
第二个是日志轮转配置的简化示例,很多新手/兼岗直接忽略logrotate,或者默认配置只切access.log,不处理error.log,这里给个通用的nginx logrotate修改方法:
# 编辑nginx logrotate配置文件
vi /etc/logrotate.d/nginx
修改后的核心内容(保留原文件权限相关,只改关键部分)
/var/log/nginx/.log {
daily # 每天轮转
rotate 30 # 保留30天日志(中小团队30天足够复盘,占空间也不大)
compress # 轮转后压缩
delaycompress # 延迟压缩到第二天,方便当天排查问题
sharedscripts # 所有日志轮转完再执行脚本
postrotate
[ -f /var/run/nginx.pid ] && kill -USR1 cat /var/run/nginx.pid # 通知nginx重新打开日志文件
endscript
}
第三个是测试logrotate配置是否生效的命令,很多人改完就不管了,一定要先测试下:
logrotate -d /etc/logrotate.d/nginx
-d是debug模式,不会真的轮转,只显示会执行的操作
接下来聊聊新手/兼岗最容易犯的两个专属避坑提醒。第一个是别照搬网上的模板,比如网上很多模板会要求检查DNS解析、CDN节点状态,但如果你的业务是纯内网的,或者CDN是用的第三方已经有告警的,那这两项就完全没必要,改成自己业务核心的才有用;第二个是别只看数据,不看趋势,比如今天磁盘使用率是80%,昨天是79%,前天是78%,看起来只是正常增长,但如果是nginx error.log每天涨1G,那大概率是代码有问题或者有恶意扫描,一定要提前介入排查。
我把整理好的完整服务器运维巡检表模板(带Excel表格版本和Markdown版本的获取提示)放在了评论区置顶链接,你们可以点进去下载,然后根据自己的业务场景修改。 你们在运维工作中有没有遇到过类似的漏检导致的故障?欢迎在评论区分享你的排查经验。

评论列表 (0条):
加载更多评论 Loading...