核心概念与适用条件
RTO是恢复服务所需时间目标,RPO是可接受的数据丢失窗口,两者决定容灾强度。CDN降低静态资源延迟,但缓存规则影响命中率。基础监控覆盖资源、业务、错误和外部可用性指标,告警需区分通知、升级和自动化处理。
监控告警设置操作步骤
第一步确认目标、约束条件和可验证指标。第二步配置CPU使用率、内存水位、P95延迟监控。第三步设置告警阈值,区分通知级、升级级和自动化处理级。第四步验证告警通道,确保单点故障时能触达责任人。
风险边界与核查清单
核查单区故障场景下服务是否跨可用区部署。核查账单是否设置预算告警防止失控。核查安全组规则避免暴露风险。确认CDN动态接口已绕行,缓存刷新策略符合业务节奏。备份RTO/RPO是否满足业务连续性要求。