EDITORIAL NOTE

做选择前故障排查设置监控告警怎么安排 | 运维茶水间

Q: 如何确定合适的RTO和RPO？

高敏感业务（如金融交易）建议RTO<1小时、RPO<5分钟，可通过压力测试模拟峰值负载下的恢复能力；普通网站可放宽至RTO<4小时、RPO<15分钟，结合每日增量备份+实时binlog传输实现。

Q: 监控指标应该设置哪些阈值？

CPU持续>85%超过10分钟触发一级告警，内存水位>90%且波动率>5%/h需人工介入，P95延迟突增30%以上关联业务失败率上升，错误码5xx占比超1%自动扩容并通知SRE团队。

更新：2026-05-20 内容更新时间：2026-05-20

实施步骤

1. 确定服务恢复目标：根据业务连续性要求定义RTO（恢复时间目标）和RPO（数据丢失窗口）。2. 排查基础设施隐患：验证网络延迟优化措施（如CDN缓存策略），分析全生命周期成本构成（含备份、日志等隐性支出）。3. 配置分层监控体系：采集CPU/内存使用率、P95请求延迟等核心指标，建立覆盖应用层与依赖服务的健康检查。4. 设计自动化响应流程：针对不同告警级别预设通知渠道、升级规则及自愈脚本触发条件。

检查清单

✓ 核对RTO≤4小时且RPO≤15分钟的关键业务SLA要求 ✓ 验证CDN静态资源命中率≥90%的配置参数 ✓ 确认监控覆盖所有微服务实例及其数据库连接池状态 ✓ 测试告警通道在非工作时段的通知可达性 ✓ 存档故障切换演练记录（包括冷备启动耗时测试）

核对RTO≤4小时且RPO≤15分钟的关键业务SLA要求
验证CDN静态资源命中率≥90%的配置参数
确认监控覆盖所有微服务实例及其数据库连接池状态
测试告警通道在非工作时段的通知可达性
存档故障切换演练记录（包括冷备启动耗时测试）

常见误区

误判仅需关注服务器单价而忽略长期运维成本——实际总拥有成本可能高出初始报价3-5倍；盲目启用全局CDN导致动态接口被错误缓存引发数据不一致；监控阈值设置过于宽松造成雪崩效应预警失灵；未区分开发/生产环境的告警静默策略导致信息过载；忽视跨区域灾备同步延迟带来的RPO超标风险。

常见问题

如何确定合适的RTO和RPO？