系统监控项
CPU
CPU使用率、CPU Load、
内存
内存使用率
磁盘
磁盘使用率、磁盘IO、磁盘IOWAIT
带宽
带宽检测
实例存活
集群实例是否存活、实例端口是否可达
JVM监控
堆内存、Full GC时间等
集群监控项
集群节点数量
注:比如RocketMQ集群中有4主4从;当Master节点数量小于4时
集群节点可用性
注:检测集群节点是否可达以及RT Time
集群写入TPS
注:例如集群写入TPS压测值的40%
集群消费TPS
注:集群消费TPS需关注带宽及CPU
集群写入TPS变化率
注:例如5分钟内集群TPS陡增30%
集群消费TPS变化率
注:例如5分钟内集群TPS陡增30%
集群日消息总量的变化
注:例如集群中每日的消息总量监控
Broker写入/消费TPS
注:单节点的写入/消费TPS
主题监控项
主题写入TPS
注:单一主题的写入速率
主题写入TPS的变化率
注:例如某一主题5分钟内速率陡增30%
主题日消息量
注:例如单一主题每日消息量
死信队列监控
注:被丢入死信队列的消息监控
消费组监控项
消费积压
注:积压量的监控
消费TPS
注:消费速率监控
消费阻塞
注:消费者隔特定时间未消费数据
消费速率变化
注:例如5分钟之内消费速率陡降了30%
发送客户端监控项
发送消息体大小变化
注:发送消息的大小在小于1K、1~2K、大于5K等的分布
发送耗时变化
注:单节点消息发送在不通时间范围内的分布
发送速率变化
注:单个发送节点速率变化
发送成功失败分布
注:消息发送成功/失败分布情况
消费客户端监控项
消费速率变化
注:单节点速率变化
消费耗时变化
注:单节点发送耗时分布情况
消费成功失败分布
注:单节点消费成功失败的分布情况