Files
ai-customer-service/docs/GRAY_DASHBOARD_MINIMUM.md

2.2 KiB

灰度阶段最小 Dashboard

状态:已定义
用途:灰度 5% / 20% / 50% / 100% 放量时,值班工程师和 TechLead 必须看的单页观察面


1. 必须展示的 8 个指标

  1. Webhook 5xx 比例
  2. Webhook reject 数
  3. Ticket 创建量
  4. Handoff 比率
  5. Audit 写入失败数
  6. Readiness down 次数
  7. PostgreSQL 连接异常
  8. 单实例重启次数

2. 推荐布局

第一行:放量门禁

  • Webhook 5xx 比例
  • Audit 写入失败数
  • PostgreSQL 连接异常
  • Readiness down 次数

这些指标用于判断:是否必须停止放量或立即回滚

第二行:业务链路健康

  • Ticket 创建量
  • Handoff 比率
  • Webhook reject 数

这些指标用于判断:是否出现隐性降级或业务异常漂移

第三行:实例稳定性

  • 单实例重启次数
  • 当前灰度比例
  • 当前版本
  • 最近一次 Gate B / 回滚演练记录链接

3. 颜色规则

指标 绿色 黄色 红色
Webhook 5xx <= 0.5% 0.5% ~ 1% > 1%
Webhook reject 数 在预期基线内 高于基线但 <20% >= 20%
Ticket 创建量 与 handoff 基本匹配 明显下降 handoff 存在但 ticket 持续为 0
Handoff 比率 <= 15% 或接近基线 15% ~ 25% > 25% 或高于基线 2x
Audit 写入失败数 0 短时抖动 > 0 持续 5 分钟
Readiness down 次数 0 偶发 连续 3 次
PostgreSQL 连接异常 0 短时抖动 持续异常
单实例重启次数 0 1~2 / 10min >2 / 10min

4. Dashboard 直接用途

值班期间,只允许做三类决策:

  1. 继续放量 前提:所有门禁指标为绿色,且观察窗口已满足

  2. 冻结当前档位 前提:出现黄色趋势,但未触发红色门禁

  3. 立即回滚 前提:任一核心门禁指标变红


5. 当前状态

这份 dashboard 文档已经定义完成,但真实共享预生产/灰度环境还需要补:

  • 指标来源接线
  • 展示面板
  • 告警路由

在这些接线完成前,只能说:

Dashboard 设计已完成,运行时观察面尚未真正上线。