Linux日志定位:从grep到journalctl
2022年7月记录,分类「Linux」。内容按测试执行视角整理,尽量把背景、操作和验收口径讲清楚。
先看现象
服务器问题不能靠感觉猜。这篇是我整理的一套基础排障顺序,适合页面打不开、接口超时、服务重启失败这类场景。
整理时我特意把输入、动作、观察点和风险拆开,方便后面补用例。
排查顺序
- 先确认时间点、影响范围和是否所有接口都失败。
- 再看端口、进程、磁盘、内存,排除基础资源问题。
- 最后按 Nginx、uWSGI、Django、MySQL 的链路往下追。
ss -lntp
df -h
free -m
journalctl -u nginx --since "30 min ago" --no-pager
常用命令
- 能定位是网关、应用、数据库还是系统资源问题。
- 关键错误日志有时间点和上下文。
- 处理动作可以复盘,不只留一句已恢复。
我一般会把这部分同步到缺陷模板里,让开发能直接看到复现材料和判断依据。
记录习惯
排障时最值钱的是顺序。顺序稳定了,紧急问题也不会越查越乱。如果放到流水线里,建议先从最小冒烟开始,再逐步扩大覆盖。