91 lines
2.2 KiB
Markdown
91 lines
2.2 KiB
Markdown
|
|
# 灰度阶段最小 Dashboard
|
||
|
|
|
||
|
|
> 状态:已定义
|
||
|
|
> 用途:灰度 5% / 20% / 50% / 100% 放量时,值班工程师和 TechLead 必须看的单页观察面
|
||
|
|
|
||
|
|
---
|
||
|
|
|
||
|
|
## 1. 必须展示的 8 个指标
|
||
|
|
|
||
|
|
1. `Webhook 5xx 比例`
|
||
|
|
2. `Webhook reject 数`
|
||
|
|
3. `Ticket 创建量`
|
||
|
|
4. `Handoff 比率`
|
||
|
|
5. `Audit 写入失败数`
|
||
|
|
6. `Readiness down 次数`
|
||
|
|
7. `PostgreSQL 连接异常`
|
||
|
|
8. `单实例重启次数`
|
||
|
|
|
||
|
|
---
|
||
|
|
|
||
|
|
## 2. 推荐布局
|
||
|
|
|
||
|
|
### 第一行:放量门禁
|
||
|
|
|
||
|
|
- Webhook 5xx 比例
|
||
|
|
- Audit 写入失败数
|
||
|
|
- PostgreSQL 连接异常
|
||
|
|
- Readiness down 次数
|
||
|
|
|
||
|
|
这些指标用于判断:**是否必须停止放量或立即回滚**
|
||
|
|
|
||
|
|
### 第二行:业务链路健康
|
||
|
|
|
||
|
|
- Ticket 创建量
|
||
|
|
- Handoff 比率
|
||
|
|
- Webhook reject 数
|
||
|
|
|
||
|
|
这些指标用于判断:**是否出现隐性降级或业务异常漂移**
|
||
|
|
|
||
|
|
### 第三行:实例稳定性
|
||
|
|
|
||
|
|
- 单实例重启次数
|
||
|
|
- 当前灰度比例
|
||
|
|
- 当前版本
|
||
|
|
- 最近一次 Gate B / 回滚演练记录链接
|
||
|
|
|
||
|
|
---
|
||
|
|
|
||
|
|
## 3. 颜色规则
|
||
|
|
|
||
|
|
| 指标 | 绿色 | 黄色 | 红色 |
|
||
|
|
|------|------|------|------|
|
||
|
|
| Webhook 5xx | `<= 0.5%` | `0.5% ~ 1%` | `> 1%` |
|
||
|
|
| Webhook reject 数 | 在预期基线内 | 高于基线但 <20% | `>= 20%` |
|
||
|
|
| Ticket 创建量 | 与 handoff 基本匹配 | 明显下降 | handoff 存在但 ticket 持续为 0 |
|
||
|
|
| Handoff 比率 | `<= 15%` 或接近基线 | `15% ~ 25%` | `> 25%` 或高于基线 `2x` |
|
||
|
|
| Audit 写入失败数 | `0` | 短时抖动 | `> 0` 持续 5 分钟 |
|
||
|
|
| Readiness down 次数 | `0` | 偶发 | 连续 3 次 |
|
||
|
|
| PostgreSQL 连接异常 | `0` | 短时抖动 | 持续异常 |
|
||
|
|
| 单实例重启次数 | `0` | `1~2 / 10min` | `>2 / 10min` |
|
||
|
|
|
||
|
|
---
|
||
|
|
|
||
|
|
## 4. Dashboard 直接用途
|
||
|
|
|
||
|
|
值班期间,只允许做三类决策:
|
||
|
|
|
||
|
|
1. **继续放量**
|
||
|
|
前提:所有门禁指标为绿色,且观察窗口已满足
|
||
|
|
|
||
|
|
2. **冻结当前档位**
|
||
|
|
前提:出现黄色趋势,但未触发红色门禁
|
||
|
|
|
||
|
|
3. **立即回滚**
|
||
|
|
前提:任一核心门禁指标变红
|
||
|
|
|
||
|
|
---
|
||
|
|
|
||
|
|
## 5. 当前状态
|
||
|
|
|
||
|
|
这份 dashboard 文档已经定义完成,但真实共享预生产/灰度环境还需要补:
|
||
|
|
|
||
|
|
- 指标来源接线
|
||
|
|
- 展示面板
|
||
|
|
- 告警路由
|
||
|
|
|
||
|
|
在这些接线完成前,只能说:
|
||
|
|
|
||
|
|
> **Dashboard 设计已完成,运行时观察面尚未真正上线。**
|
||
|
|
|