Skip to content

监控(Monitoring)

监控 = 把系统状态转化为可决策的信号。本 group 解决 L4 第一问:"什么指标 + 什么阈值 + 什么动作?"

本 group 包含

文档核心问题V2 节点
Business & Tech Metric业务指标 vs 技术指标如何配比?B2 认识自己
SLOSLO 如何定义和衡量?B6 权衡
Alert报警如何设计才能不疲劳?控制论 §1 反馈
Spectral Analysis时序信号的频谱分析?控制论 §3
Zero-Effort Miss静默故障如何捕获?B2 认识自己
Event Observability事件流的可观测?B4 抽象
Coordination Deviation协作偏差如何度量?控制论 §5

监控的 3 个层次

监控 = 3 个层次
  1. 业务指标(用户在做什么?) — 转化率 / 留存 / NPS
  2. 应用指标(应用在做什么?) — QPS / 延迟 / 错误率
  3. 系统指标(机器在做什么?) — CPU / 内存 / 网络

阅读顺序

business-and-tech-metric (基调:业务+技术双层指标)

slo (SLO 定义与衡量)

alert (报警设计)

zero-effort-miss (静默故障)

spectral-analysis (信号处理)

event-observability / coordination-deviation (专项)

与其他 group 的关系

  • 上游:L3-observability(埋点 → 监控)
  • 下游:03-feedback(监控 → 反馈)、04-iteration(监控 → 迭代)

关键洞察

监控的核心不是"指标多"——是"信号/噪声比高"——

  • 100 个指标 → 没人看
  • 10 个核心指标 + 智能聚合 → 决策可用 监控的成败 = 在于"如何精简"而不是"如何详尽"

相关链接

Last updated:

从名家方法论与工程化思路中蒸馏出自己的工程体系。