如何定位生产上CPU飙高100%的问题?

639次阅读  |  发布于4年以前

概括来说,分三步:

1,首先找到是哪个进程的CPU占有率飙到了100%。

2,根据进程号pid,定位到是哪个线程,找到对应线程的tid。

3,导出对应线程的dump日志文件,分析日志文件定位具体代码。

要解决这个问题,你应该具备以下技能:

1,linux的top命令。

2,jvm监控工具jps。

3,jvm监控工具jstack。

OK,接下来我们详细看一下如何定位问题。

一,linux的top命令如何使用

linux的top命令类似于windows下的任务管理器,我们可以使用linux命令来查看生产服务器的cpu使用情况。

常用命令如下:

top:每隔5秒显示所有进程的资源占用情况。

top -d 2:每隔2秒显示所有进程的资源占用情况。

top -c:每隔5秒显示所有进程的资源占用情况,并显示进程的命令行参数(默认只有进程名称)。

top -p 12345 -p 6789:每隔5秒显示12345和6789这2个进程的资源占用情况。

top -d 2 -c -p 123456:每隔2秒显示PID为12345的进程的资源占用情况,并显示该进程启动的命令行参数。

OK,我们可以使用下面的命令来查看某个线程下所有线程的CPU使用情况:

top -H -p pid

例如查找进程号为12345的进程下所有线程的使用情况:

top -H -p 12345

OK,我们离目标更近一步了,根据PID我们找到了tid,接下来我们就要使用另外一个命令了:jstack,找到了线程id意味着接下来的工作就要交给jvm提供的分析工具了。操作系统只能帮我们到这里了。

二,jvm监控工具jps

top命令很强大,不过我们也可以使用jvm提供的jps分析工具,这个是jvm专属的进程分析工具。

jps -lvm:查看当前服务器上运行的java进程。我们可以获取到java应用的pid。

接下来我们使用jstack -l pid命令查看java应用的堆栈信息。

总之,有2种方式可以获取到java应用的pid。

1,使用top命令

2,使用jps命令

jps的功能和linux的ps命令类似,都是用来查看进程的运行信息的。下面我们来看一下具体的参数都是什么含义。

jps -q:只列出进程id,注意这里列出的是jvm进程,非jvm进程jps是无能为力的。

jps -m:列出启动应用时传给main方法的参数。

jps -l:列出jvm进程id和运行主类全称。

jps -v:列出jvm进程启动时的jvm参数。

三,jstack性能分析工具

jstack可以导出某个线程的运行情况和当前状态等信息,命令如下:

jstack 98765 > 98765jstack.log

我们即可以把日志拉到本地来分析,也可以直接在linux上分析。总之,我们找到了日志文件,并且知道,文件里记录了线程98765的一些信息。接下来我们就是查看这个日志文件,定位到具体代码的位置。

四,如何分析日志文件定位到具体的代码

jstack导出的日志文件中,可能会包含以下几个关键信息:

1,Deadlock:死锁。

2,Runnable:执行中。

3,Waiting for condition:等待资源。

4,Waiting on monitor entry:等待获取监视器。

5,Suspended:暂停。

6,Object.wait()或者TIMED_WAITING:对象等待中。

7,Blocked:阻塞

8,Parked:停止

CPU飙高的问题,通常线程状态是Runnable。我们找到线程的状态信息后,再分析下面的详细堆栈信息,就可以大概定位到出问题的代码。

这里还有几个标识我们必须要清楚:

tid:java线程id。

nid:native线程id。

prio:线程优先级。

jps列出的id,到底是pid还是tid?

Copyright© 2013-2020

All Rights Reserved 京ICP备2023019179号-8