后端系统和服务稳定性核心指标通常可以分成 6 组来看SLAService Level AgreementQPSQueries Per Second文章目录1. 可用性指标2. 延迟指标3. 吞吐与容量指标4. 资源健康指标5. 依赖稳定性指标6. 恢复能力指标如果只能抓最核心的 8 个不同角色最该看什么管理层/项目负责人开发/架构/运维一个常见的指标分层方法一个经验结论1. 可用性指标这是最核心的一层回答“服务是不是能正常用”。Availability / SLA / SLO可用率例如 99.9%、99.95%常见公式成功服务时间 / 总服务时间错误率5xx 比例业务失败率接口异常率成功率请求成功数 / 总请求数有时比“错误率”更直观这组指标最适合做高层稳定性看板。2. 延迟指标服务没挂不代表服务可用慢到超时本质上也等于不可用。平均响应时间参考意义有限容易被掩盖P50 / P90 / P95 / P99 延迟最重要的是尾延迟尤其是P95/P99超时率请求超时占比排队时间在线程池、连接池、消息队列里等待的时间稳定性场景里P99 延迟通常比平均延迟更值得盯。3. 吞吐与容量指标回答“系统在多大压力下还能稳住”。QPS / RPS / TPS每秒请求数、事务数并发数同时处理中的请求数带宽/流量入站、出站流量队列堆积MQ backlog任务积压数容量使用率当前负载占设计容量的百分比这组指标用来判断是不是“流量打满导致不稳定”。4. 资源健康指标回答“服务为什么不稳底层资源有没有问题”。CPU 使用率 / Load内存使用率尤其关注 OOM、内存泄漏趋势GC 指标GC 次数、GC 停顿时间JVM 很关键磁盘IOPS、磁盘使用率、磁盘延迟网络丢包率、重传率、连接数文件句柄 / 线程数 / 连接池使用率很多服务雪崩都卡在这些地方这类指标更偏“根因定位”。5. 依赖稳定性指标后端服务通常不是单机问题而是依赖链问题。数据库指标连接数慢查询数锁等待主从延迟缓存指标命中率淘汰率连接超时消息队列指标积压量消费延迟重试率下游 API / 微服务依赖成功率延迟超时率熔断次数DNS / 注册中心 / 配置中心可用率、错误率、响应时间实际线上故障里很多“本服务故障”本质是依赖故障放大。6. 恢复能力指标稳定性不只是“少出故障”还包括“故障后恢复得快不快”。MTTR平均恢复时间Mean Time To RecoveryMTBF平均故障间隔Mean Time Between Failures故障次数按周、按月统计告警到发现时间发现到止损时间止损到恢复时间管理层和稳定性负责人通常会非常关注这组指标。如果只能抓最核心的 8 个很多团队一开始不要铺太多先盯这 8 个最有效可用率请求成功率5xx 错误率P95 / P99 延迟QPS / 并发数CPU / 内存使用率下游依赖成功率和延迟MTTR不同角色最该看什么管理层/项目负责人更关注结果型指标可用率严重故障次数MTTR业务成功率核心链路 SLO 达成率开发/架构/运维更关注过程型指标P99 延迟错误率资源使用率数据库慢查询缓存命中率队列积压依赖服务异常一个常见的指标分层方法可以按这三层设计监控体系用户层成功率、延迟、可用率服务层QPS、错误率、线程池、连接池基础设施层CPU、内存、磁盘、网络依赖层DB、Redis、MQ、下游服务一个经验结论稳定性里最容易犯的错有两个只看平均值不看分位数只看自己服务不看依赖链路所以实践里通常会把成功率 P99 延迟 依赖成功率 MTTR作为最小闭环。