监控(Monitoring)
监控 = 把系统状态转化为可决策的信号。本 group 解决 L4 第一问:"什么指标 + 什么阈值 + 什么动作?"
本 group 包含
| 文档 | 核心问题 | V2 节点 |
|---|---|---|
| Business & Tech Metric | 业务指标 vs 技术指标如何配比? | B2 认识自己 |
| SLO | SLO 如何定义和衡量? | B6 权衡 |
| Alert | 报警如何设计才能不疲劳? | 控制论 §1 反馈 |
| Spectral Analysis | 时序信号的频谱分析? | 控制论 §3 |
| Zero-Effort Miss | 静默故障如何捕获? | B2 认识自己 |
| Event Observability | 事件流的可观测? | B4 抽象 |
| Coordination Deviation | 协作偏差如何度量? | 控制论 §5 |
监控的 3 个层次
监控 = 3 个层次
1. 业务指标(用户在做什么?) — 转化率 / 留存 / NPS
2. 应用指标(应用在做什么?) — QPS / 延迟 / 错误率
3. 系统指标(机器在做什么?) — CPU / 内存 / 网络阅读顺序
business-and-tech-metric (基调:业务+技术双层指标)
↓
slo (SLO 定义与衡量)
↓
alert (报警设计)
↓
zero-effort-miss (静默故障)
↓
spectral-analysis (信号处理)
↓
event-observability / coordination-deviation (专项)与其他 group 的关系
- 上游:L3-observability(埋点 → 监控)
- 下游:03-feedback(监控 → 反馈)、04-iteration(监控 → 迭代)
关键洞察
监控的核心不是"指标多"——是"信号/噪声比高"——
- 100 个指标 → 没人看
- 10 个核心指标 + 智能聚合 → 决策可用 监控的成败 = 在于"如何精简"而不是"如何详尽"。
相关链接
- L3 Observability——监控的数据来源
- L4 Feedback——监控 → 反馈
- L4 Closed Loop——闭环
- V2 B2 认识自己——监控 = 认识系统