瓜农老梁

一个想分享点干货的家伙,微信公众号「瓜农老梁」

0%

MQ17# RocketMQ/Kafka监控项整理

系统监控项

CPU

CPU使用率、CPU Load、

内存

内存使用率

磁盘

磁盘使用率、磁盘IO、磁盘IOWAIT

带宽

带宽检测

实例存活

集群实例是否存活、实例端口是否可达

JVM监控

堆内存、Full GC时间等

集群监控项

集群节点数量

注:比如RocketMQ集群中有4主4从;当Master节点数量小于4时

集群节点可用性

注:检测集群节点是否可达以及RT Time

集群写入TPS

注:例如集群写入TPS压测值的40%

集群消费TPS

注:集群消费TPS需关注带宽及CPU

集群写入TPS变化率

注:例如5分钟内集群TPS陡增30%

集群消费TPS变化率

注:例如5分钟内集群TPS陡增30%

集群日消息总量的变化

注:例如集群中每日的消息总量监控

Broker写入/消费TPS

注:单节点的写入/消费TPS

主题监控项

主题写入TPS

注:单一主题的写入速率

主题写入TPS的变化率

注:例如某一主题5分钟内速率陡增30%

主题日消息量

注:例如单一主题每日消息量

死信队列监控

注:被丢入死信队列的消息监控

消费组监控项

消费积压

注:积压量的监控

消费TPS

注:消费速率监控

消费阻塞

注:消费者隔特定时间未消费数据

消费速率变化

注:例如5分钟之内消费速率陡降了30%

发送客户端监控项

发送消息体大小变化

注:发送消息的大小在小于1K、1~2K、大于5K等的分布

发送耗时变化

注:单节点消息发送在不通时间范围内的分布

发送速率变化

注:单个发送节点速率变化

发送成功失败分布

注:消息发送成功/失败分布情况

消费客户端监控项

消费速率变化

注:单节点速率变化

消费耗时变化

注:单节点发送耗时分布情况

消费成功失败分布

注:单节点消费成功失败的分布情况