Files
user-system/docs/guides/ALERTING_ONCALL_RUNBOOK.md

4.4 KiB
Raw Permalink Blame History

告警与值班 Runbook

更新日期2026-03-24

目标

  • 统一用户管理系统的告警分级、响应时限、升级路径与恢复验证动作
  • 让“有告警规则”转变为“有处理流程、可追责、可复盘”

当前边界

严重级别

  • critical
    • 典型场景:高错误率、数据库连接池耗尽、高内存
    • 目标响应5 分钟内确认15 分钟内给出处置方向
  • warning
    • 典型场景:高响应时间、高登录失败率、低缓存命中率
    • 目标响应15 分钟内确认60 分钟内恢复或降级
  • info
    • 典型场景:在线用户数偏低、请求量异常
    • 目标响应:工作时间内确认,纳入趋势分析

标准处理流程

  1. 接警后确认 alertnameseverityservice、开始时间和当前值。
  2. 检查基础健康:
    • GET /health
    • GET /health/ready
    • GET /api/v1/auth/capabilities
  3. 如涉及登录/后台主链路,执行:
    • cd frontend/admin && npm.cmd run e2e:full:win
  4. 对照指标判断是瞬时抖动、配置错误、发布回归还是依赖故障。
  5. 若为发布回归,直接进入回滚流程:
  6. 故障恢复后记录根因、影响范围、恢复时间、后续永久修复项。

升级路径

  1. 一线值班先确认告警是否真实、是否影响核心用户路径。
  2. critical 未在 15 分钟内止血,升级到应用负责人和平台负责人。
  3. 涉及数据一致性、备份恢复、跨版本回滚时,升级到 DBA/平台发布负责人。
  4. 需要对外沟通时,由服务 owner 输出统一事故通报。

发布前检查

  • 告警规则结构校验通过
  • Alertmanager 路由接收者已替换为真实联系人与真实 SMTP/通知通道
  • Alertmanager 模板已完成渲染,且渲染产物不再包含 ${ALERTMANAGER_*} 未解析变量
  • live-delivery drill 已使用真实 env 注入执行成功并形成红acted evidence
  • 最新基线低于阈值,不存在“发布即告警”
  • 回滚脚本和备份恢复脚本可执行

本地校验

  • 告警包校验脚本:
  • 告警渲染演练脚本:
  • 告警真实投递演练脚本:
  • 最新校验证据:
    • 校验执行后会生成 docs/evidence/ops/<date>/alerting/ALERTING_PACKAGE_<timestamp>.md
    • 渲染演练执行后会生成 docs/evidence/ops/<date>/alerting/<timestamp>/ALERTMANAGER_RENDER_DRILL.md
    • live-delivery drill 执行后会生成 docs/evidence/ops/<date>/alerting/<timestamp>/ALERTMANAGER_LIVE_DELIVERY_DRILL.md

关联材料