后来我花了大半年时间磨,试了好几个网上看来的“团队管理妙招”,踩了虚招的坑,最后留了几个能直接在咱们中小团队落地的玩意儿,说实话这几个招用下来,上周直播正式场碰到3倍流量波动,团队配合得特别顺,连预热那天睡熟的新人都主动提前开了业务专用手机的免打扰白名单。
先说说我个人觉得最有用的那个“专属运维小台账加分制”。中小团队嘛,不可能像大厂那样有专门的KPI考核系统,靠的就是实打实的小事积累和大家的自觉。我一开始弄的时候,也是随便加了个“处理一个故障加1分”“写一个文档加2分”的规则,后来发现根本没用,新人写的文档没人看,老人挑小故障处理,后来我就把台账和每个人的季度调薪申请、年假申请优先级绑得更具体了——调薪的时候,加分项占30%,而且只认“别人看不懂但能立刻上手的实操文档”“跨业务组解决并做了复盘记录的故障”“发现了系统隐患并提前修复避免损失的”这三类硬东西,年假申请的话,同样天数的申请,加分多的优先批。比如上个月那个新人,就因为给咱们新上线的Redis集群写了个带踩坑截图的重启排查手册,加了5分,上周提前一周申请国庆连休的年假,直接就批了。

然后就是“每周半小时的碎碎念茶话会”,别不信,真的比每周两小时的正式技术分享有用10倍。一开始我也是照着大厂的经验来,每周五下午开两小时技术分享,每次都是我准备一堆PPT,讲最近学的Docker Swarm或者K8s的新特性,台下新人要么在玩手机要么在打瞌睡,老人要么在处理没干完的活要么在发呆,根本没人听。后来我索性把时间改到每周三下午的3点到3点半,地点改到公司楼下的便利店,每次只买3杯冰美式,不说“今天我们来讲什么技术”,就说“最近踩了什么坑?或者有没有什么想吐槽的?或者有没有什么想跟大家学的?”一开始大家还不好意思说,后来熟了就放开了,新人会吐槽“昨天排查MySQL连接超时问题,查了半天文档没查到,不敢问你们怕挨骂”,老人会吐槽“上周帮业务组上线了一个新服务,连个感谢的话都没有,下次不想帮了”,每次吐槽完或者踩坑分享完,我都会顺便提一句自己的小 或者让踩过类似坑的老人给新人讲一讲,效果特别好。
最后一个是“每月一次的线上故障模拟演练”,这个真的能快速提升团队的整体战斗力。演练的时候,我会提前准备一个真实的线上故障场景,比如“Redis主节点突然挂掉了”“磁盘满了导致MySQL写不进去数据了”,然后随机抽一个人当“值班运维”,其他人当“辅助运维”或者“业务组紧急联系人”,限时30分钟解决问题。演练结束后,我们会一起复盘,看看哪里做得好,哪里做得不好,有没有可以优化的地方。上个月我们演练的就是“Redis主节点突然挂掉了”,一开始新人当值班运维的时候慌了神,差点把从节点的数据删了,后来在老人的提醒下才顺利完成了主从切换,复盘的时候大家提了好多 比如把Redis主从切换的操作步骤贴在每个人的工位上,比如提前准备好一键切换的脚本。
说实话,中小团队的服务器运维管理,真的不需要什么高大上的理论,只要能让大家有归属感、有动力、有配合的意识,就够了。你们在运维团队管理中有没有遇到过类似的坑?欢迎在评论区分享你的经验。

评论列表 (0条):
加载更多评论 Loading...