17370845950

SQL数据库健康检查_核心指标自动巡检
SQL数据库健康检查需自动化巡检连接状态、查询性能与存储IO三大核心指标:活跃连接超70%阈值、idle in transaction会话、P95/P99延迟突增、全表扫描率升高、执行计划异常、表空间>85%、WAL延迟>30分钟或IOPS超80%均触发告警。

SQL数据库健康检查的核心在于通过自动化巡检关键指标,提前发现潜在风险,避免突发故障。重点不是等出问题再救火,而是让系统自己“说”哪里不舒服。

连接与会话状态

活跃连接数、空闲连接数、等待连接数是判断数据库是否过载的第一道关口。连接池打满、大量会话卡在“waiting”状态,往往预示着锁争用或慢查询积压。

  • 监控阈值建议:活跃连接数持续超过最大连接数的70%,触发告警
  • 重点关注state = 'idle in transaction'的会话——它们可能持有锁却没提交,是隐藏的死锁源头
  • 自动巡检脚本应定期查pg_stat_activity(PostgreSQL)或sys.dm_exec_sessions(SQL Server),过滤出异常会话并记录

查询性能瓶颈

慢查询是数据库亚健康的最常见表征。光看平均响应时间不够,得盯住P95/P99延迟、全表扫描率、执行计划突变这三类信号。

  • 每天自动采集pg_stat_statements(PG)或查询存储(SQL Server)中耗时Top 10的SQL,对比前7天基线,波动超200%即标记
  • 对执行频率高但未走索引的语句,自动标记为“优化待办”,附带缺失索引建议(如PG的pg_stat_all_indexes分析)
  • 识别“隐式类型转换”导致索引失效的典型模式,例如WHERE user_id = '123'(字段是int型)

存储与IO压力

磁盘写满、IO等待飙升、WAL堆积,常在凌晨批量任务后集中爆发。这些指标变化缓慢但后果严重,必须前置拦截。

  • 表空间使用率>85%、WAL归档延迟>30分钟、IOPS持续超设备能力80%,三项任一满足即告警
  • 自动巡检需关联分析:高IO等待+低缓存命中率(shared_buffers_hit_ratio
  • 对增长过快的表(如日志表),自动识别并提示分区或归档策略,避免单表超GB级无管控

复制与高可用状态

主从延迟、同步节点掉线、WAL发送/接收中断,直接影响故障切换能力和数据一致性。不能只靠“绿灯”状态,要看数字是否可信。

  • MySQL主从延迟监控必须用Seconds_Behind_Master + SHOW SLAVE STATUS中的Read_Master_Log_PosExec_Master_Log_Pos交叉验证
  • PostgreSQL流复制中,pg_stat_replication里的write_lag/flush_lag超5秒需关注;同步备库sync_state != 'sync'要立即通知
  • 自动巡检脚本应模拟心跳检测:向主库写入带时间戳的测试记录,10秒内在所有备库查到才算链路正常