rocketmq发生消息堆积时,我们可以通过jstack打印出线程的堆栈信息(可连续打印多次观察变化)。重点搜索 ConsumeMessageThread_ 开头的线程状态,例如下图所示:
如果发现大量的线程总是处于runnable状态,且堆栈信息中包含类似HttpClientUtil.doGet的信息,且有可能是因为http请求处理慢,导致大量线程被占用,消费能力不足导致消息堆积。解决思路,优优http请求,如设置较短的过期时间等。
如果发现大量的消费线程处于WAITING(parking)状态,说明消费线程在等待待消费的消息。如果仍然存在消息堆积,则极有可能是拉取能力不足,重点应该加强rocketmq拉取消息的能力。
还有一种假堆积,就是某条消息消费时,因为某种原因,一直卡住了(既不是消费成功也不是消费失败,而是类似于死循环无法返回消费状态)。这时候会导致无法更新broker端的消费offset(但后面的消息还是可以正常拉取消费的),这样子就导致了消费堆压报警(判断消息堆积是 broker offset - consumer offset(consumer上报broker的))。所以说消费消息的逻辑一定要简单,尽量不要抛出异常或有堵塞发生。