生产环境宕机问题处理系列之Full GC频繁导致CPU过高
lipiwang 2024-10-23 13:56 15 浏览 0 评论
生产环境Full GC并宕机的亲身经历
惨案的发生
Full GC很正常,但是频繁的Full GC并且导致线上CPU飙升,然后服务直接宕掉,这是很可怕的。(前提是垃圾收集器并不是CMS)
服务无法访问,界面无法打开(最初是Zabbix监控CPU飙升,然后邮件告警才知道)。
分析问题,首先是线上Full GC异常频繁,每隔几十秒一次,半小时后CPU飙升直接宕机。我们再结合本次升级的内容及排查是否有频繁的外部请求、频繁的读取数据库的操作,终于找到问题所在:
外部会请求一个http接口,然后该接口内部,在本次升级过程中有个功能是会去读取数据库
外部请求该接口每秒十几笔 读取数据库的数据量是400万+
综上,相当于每秒会有十几次的请求数据库几百万的数据!!!
解决方案
临时解决方案
为了上线成功,当时的临时解决方案是,先将该接口的读取数据库的这一部分功能下架(因为该功能外部还不会使用到这些数据)。
后续解决方案
将这部分数据缓存起来,然后每次请求都会拿缓存的数据,而不是读取数据库(这部分数据主要是拿来对比用的)
后续分析
因为这次的问题,我专门在后续抽时间分析了这个项目的内存使用情况,造成升级失败的根本原因,其实另有隐情!而那个接口是直接导火索而已!
JVM设置情况
线上的JVM配置信息如下:
JDK1.7
-Xms4096m
-Xmx20480m
-XX:PermSize=256m
-XX:MaxPermSize=2048m
-XX:-UseGCOverheadLimit
堆设置的非常大,足足20G!!!这种情况下竟然还会频繁FullGC且服务宕掉,令人匪夷所思。
UAT环境
因为我们线上不能操作,非常严格。所以我转移到UAT环境进行持续观察,UAT的数据量、环境配置和线上是一致的。
为了观察方便,我使用本地电脑安装好的JDK工具jvisualvm进行观察,不过在观察之前需要手动配置一些东西。
- 开放jmx连接: 因为我们项目是web项目,因此需要修改tomcat中的JVM配置cd /usr/local/tomcat/bin vim setenv.sh #JAVA_OPTS中添加如下参数 JAVA_OPTS="$JAVA_OPTS -Djava.awt.headless=true -Xms20480m -Xmx20480m -XX:PermSize=256m -XX:MaxPermSize=2048m -XX:-UseGCOverheadLimit -Dcom.sun.management.jmxremote.port=19999 -Dcom.sun.management.jmxremote.ssl=false -Dcom.sun.management.jmxremote.authenticate=false -Djava.rmi.server.hostname=183.61.26.210" export JAVA_OPTS
- 本地打开jvisualvm进行连接
观察结果
- 永久代 永久代很正常,没问题。不过也是理所当然,因为永久代主要是保存一些常量、类、方法等信息
- 堆对象 令人可怕的地方就在这里,每隔两分钟Full GC,一次持续8秒左右,全世界都安静了!!!因为这个原因,CPU也不断持续的跑高。
这里顺便用命令行工具查看下堆的情况:
sudo -u tomcat jps
sudo -u tomcat jstat -gcutil 3168 1000 #每隔10秒显示堆比例
sudo -u tomcat jstat -gc 3168 10000 #每隔10秒显示堆使用大小,单位KB
堆区域说明:
S0C:第一个幸存区的大小,单位kb S1C:第二个幸存区的大小,单位kb S0U:第一个幸存区的使用大小,单位kb S1U:第二个幸存区的使用大小,单位kb EC:伊甸园区的大小,单位kb EU:伊甸园区的使用大小,单位kb OC:老年代大小,单位kb OU:老年代使用大小,单位kb MC:方法区大小,单位kb MU:方法区使用大小,单位kb CCSC:压缩类空间大小,单位kb CCSU:压缩类空间使用大小,单位kb YGC:年轻代垃圾回收次数,单位s YGCT:年轻代垃圾回收消耗时间,单位s FGC:老年代垃圾回收次数,单位s FGCT:老年代垃圾回收消耗时间,单位s GCT:垃圾回收消耗总时间,单位s
由上图可知:
Eden区一直在创建新对象,请求内存空间 当Eden区100%时触发一次YGC,然后回收垃圾,S0和S1互换,然后存活对象移到老年代O区 当老年代O区100%时,则触发一次Full GC,进行所有的垃圾回收 可以看出,主要原因是Eden区一直不断的产生很多大对象,导致很多还未来得及退出方法的对象(即某个方法执行时间比较久,方法内产生的对象有被引用,会被当做存活对象)被当做存活对象移到老年代,如此反复,发生Full GC
除此之外,我们还能知道各个区域的内存大小:
S0:1.5g
S1:1.5g
Eden:3.5g
Old:14g
这种分配比例是合理的
分析
因为这个项目是我从别人手里接手的,凭经验觉得应该是有两个线程(这里定为线程A、线程B吧)在反复的读取、组装、缓存、写文件造成的,这两个线程是每个10S运行一次的!
然后我就暂时把这两个线程停止掉,再次观察CPU和堆的消耗,结果是:一条直线,非常平稳!!!果然是这两个线程搞的鬼。(因为当时还原场景的时候没有保存图片,这里就不附图了,也懒得再去还原一遍了)
进一步分析
知道是这两个线程搞的鬼,但是这两个线程里面的业务逻辑非常复杂,一坨坨的,具体是哪个环节出问题呢?
好的,JVM最强大的分析工具要上场了:MAT
当然,第一步是要先dump文件啦!visualVM工具有dump功能。
这里是手动dump,在接近Full GC那个点的时候,请戳一下"堆 dump"按钮。会生成到指定的路径除此之外,还可以自动在Full GC的时候触发文件dump,不过需要在JVM配置(如果dump文件巨大,比如6G以上,那么线上环境请谨慎开启,因为dump一次要几十秒):
-XX:+HeapDumpOnOutOfMemoryError
笔者dump下来的文件足足有8G多~~
第二步使用MAT工具啦。Eclipse有支持MAT的插件,具体使用百度。笔者用的是IntelliJ IDEA,如果为了一个MAT再去下载安装Eclipse,那是极其麻烦的!那么,集成版、绿色版的MAT工具来了。
下载地址:https://eclipse.org/mat/downloads.php
双击打开即可
友情提示:如果你的dump文件太大,比如我的8.5G,那么需要配置MAT的JVM参数。修改安装目录下的MemoryAnalyzer.ini文件(这里我直接上8G,电脑配置好就是任性):
这里上几张MAT分析的图吧:
其中,占据内存空间最大的是三个东东:InitListener、myScheduler-3、NgbLastCoverUtil。
其中InitListener这个类缓存很多数据,属于真正存活的对象,所以问题不是这个类。
myScheduler-3就是我上面所猜测的线程A、B,NgbLastCoverUtil类是线程A、B中会引用的类,所以之前的猜测是正确的!
继续分析,看下myScheduler-3堆栈信息,发现最终会指向String.split()这个函数
可怕的String.split()
赶紧追溯代码,看看是不是哪里有用到String.split()函数。果不其然:
for (String line : lines) {
String[] segments = line.split("\t");
......
}
是的,有一段逻辑会用到这个函数,乍一看,lines这个变量是List< String >类型,数据量最大的时候是66w条,每一条数据按 \t 切割后,平均会有5个数组对象。
冷静思考,先google下String.split()的可怕之处,发现JDK1.6和JDK1.7下的这个方法处理方式还不一样。
JDK1.6
底层实现是这样的:
public String substring(int beginIndex, int endIndex) {
if (beginIndex < 0) {
throw new StringIndexOutOfBoundsException(beginIndex);
}
if (endIndex > count) {
throw new StringIndexOutOfBoundsException(endIndex);
}
if (beginIndex > endIndex) {
throw new StringIndexOutOfBoundsException(endIndex - beginIndex);
}
return ((beginIndex == 0) && (endIndex == count)) ? this :
new String(offset + beginIndex, endIndex - beginIndex, value);
}
public String(int offset, int count, char value[]) {
this.value = value;
this.offset = offset;
this.count = count;
}
JDK1.6中使用String.split(),切割出来的字符串数据是直接复用了原String对象的char[],用偏移量和长度来表示不同的字符串内容,并不会创建新对象!
JDK1.7
底层实现是这样的:
public String substring(int beginIndex, int endIndex) {
if (beginIndex < 0) {
throw new StringIndexOutOfBoundsException(beginIndex);
}
if (endIndex > value.length) {
throw new StringIndexOutOfBoundsException(endIndex);
}
int subLen = endIndex - beginIndex;
if (subLen < 0) {
throw new StringIndexOutOfBoundsException(subLen);
}
return ((beginIndex == 0) && (endIndex == value.length)) ? this
: new String(value, beginIndex, subLen);
}
public String(char value[], int offset, int count) {
if (offset < 0) {
throw new StringIndexOutOfBoundsException(offset);
}
if (count <= 0) {
if (count < 0) {
throw new StringIndexOutOfBoundsException(count);
}
if (offset <= value.length) {
this.value = "".value;
return;
}
}
// Note: offset or count might be near -1>>>1.
if (offset > value.length - count) {
throw new StringIndexOutOfBoundsException(offset + count);
}
this.value = Arrays.copyOfRange(value, offset, offset+count);
}
public static char[] copyOfRange(char[] original, int from, int to) {
int newLength = to - from;
if (newLength < 0)
throw new IllegalArgumentException(from + " > " + to);
char[] copy = new char[newLength];
System.arraycopy(original, from, copy, 0,
Math.min(original.length - from, newLength));
return copy;
}
char[] copy = new char[newLength]
是的,在JDK1.7中,切割出来的每一个字符串都会创建一个新的char[]对象,而我们项目用的就是JDK1.7
那么,按照上述的数据量,则创建的新对象总数有:66w * 5 = 330w,一个巨量级,可怕!
验证
那么我们来验证一下吧,把这个线程中有关String.split()的代码去掉吧,部署上去,观察结果如下:
Full GC现在变为每隔6分钟执行一次了,虽然情况仍然很糟,但是至少有所改善,String.split()确实是一个原因所在。
所以唯一的办法就是重构这段逻辑。
总结
- 大数据量情况,避免使用String.split()
- 面对复杂的业务逻辑、大数据量的时候,如何定义数据结构、如何保存数据确实是一个难题,一定要慎重!
相关推荐
- 《每日电讯报》研发数字工具,教你更有效率地报道新闻
-
为鼓励新闻编辑部持续创新,《每日电讯报》正在尝试有战略地研发数字工具。网站的数字媒体主任马尔科姆o科尔斯(MalcolmColes)表示,《每日电讯报》正试图去“创建一些可持续资产”,以便于让记者们...
- html5学得好不好,看掌握多少标签
-
html5你了解了多少?如果你还是入门阶段的话,或者还是一知半解的话,那么我们专门为你们收集的html5常用的标签大全对你就很有帮助了,你需要了解了html5有哪些标签你才能够更好的。驾驭html5...
- 前端分享-少年了解过iframe么(我想了解少年)
-
iframe就像是HTML的「内嵌画布」,允许在页面中加载独立网页,如同在画布上叠加另一幅动态画卷。核心特性包括:独立上下文:每个iframe都拥有独立的DOM/CSS/JS环境(类似浏...
- 做SEO要知道什么是AJAX(人能看到但搜索引擎看不到的内容)
-
一个明显的,人能看到但搜索引擎不能看到的内容是AJAX。那么什么是AJAX呢?其实,了解过的基本上也都清楚,AJAX不是新的编程语言,而是一种使用现有标准的新方法。AJAX最大的优点是在不重新加...
- 介绍最前沿的人工智能创新,‘无反向传播’神经网络训练方法?
-
图像由GoogleImageFX生成前言:本文整理自NoProp原始论文与实践代码,并结合多个公开实现细节进行了全流程复现。对神经网络训练机制的探索仍在不断演进,如果你也在研究反向传播之...
- 说说我们对HTML6的期许(对html的看法)
-
HTML5概述HTML5是HTML语言最受欢迎的版本之一,它支持音频和视频、离线存储、移动端、和标签属性等等。还提供了article,section,header这样的标签来帮助开发者更好...
- 浏览器中在线预览pdf文件,pdf.mjs插件实现web预览pdf
-
背景:本来只是淘宝上卖卖袜子,想着扩展一下业务,准备做同名“来家居”海外袜子馆外贸项目,碰到pdf在线预览的需求,就找了pdf.js插件进行实践后把此方法记录下来,可以通过多种方法来实现,每种方法都有...
- SVG 在前端的7种使用方法,你还知道哪几种?
-
本文简介点赞+关注+收藏=学会了技术一直在演变,在网页中使用SVG的方法也层出不穷。每个时期都有对应的最优解。所以我打算把我知道的7种SVG的使用方法列举出来,有备无患~如果你还...
- HTML5常用标签大全(html5em标签)
-
HTML前端开发最终取决于掌握标签的多少HTML大概有七八百个标签楼主这里给大家总结了下HTML常用标签标签描述<!--...-->定义注释。<!DOCTYPE>定义文档类型...
- "伪君子Snoop Dogg!"... WHAT?| MetroDaily 24/7
-
TUE.01-新作品-虽说年纪大了会有点糊涂,但是最近SnoopDogg的这波操作实在是让粉丝们有点迷,甚至有人表示没想到他是这样的"伪君子"......而这一切都源于他近日在IG上Po出的一...
- 莎夏·班克斯盼望表哥Snoop Dogg为其作出场曲
-
NXT女子冠军莎夏·班克斯(SashaBanks)近日接受了迈阿密先驱报采访,访谈纪要如下:关于她出众的形象:“我一向喜欢与众不同。为了能让人眼前一亮,我的装束总是非常前卫、非常抢眼,这样才能让观众...
- 喜欢Snoop!全球第一间「史努比博物馆」海外分馆在东京!
-
1950年起,由美國漫畫家CharlesM.Schulz創作的作品《Snoopy》史努比,其鮮明的可愛角色與幽默的劇情內容,至今仍成為許多大朋友與小朋友心中的最愛。為了紀念作者所設立的全球首...
- Vetements 推出 Snoop Dogg 肖像「天价」T-Shirt
-
Vetements的CEOGuramGvasalia早前才透露品牌经营策略的秘密–Vetements如何成为人人热议的话题品牌。但似乎他仍有更多需要解释的东西–这个法国奢侈品牌最新...
- 狗爷Snoop Dogg的《I Wanna Thank Me》巡回演唱会旧金山站
-
西海岸匪帮说唱歌手SnoopDogg在《IWannaThankMe》巡回演唱会旧金山站表演(图片来自ICphoto)西海岸匪帮说唱歌手SnoopDogg(图片来自ICphoto)西海...
你 发表评论:
欢迎- 一周热门
- 最近发表
- 标签列表
-
- maven镜像 (69)
- undefined reference to (60)
- zip格式 (63)
- oracle over (62)
- date_format函数用法 (67)
- 在线代理服务器 (60)
- shell 字符串比较 (74)
- x509证书 (61)
- localhost (65)
- java.awt.headless (66)
- syn_sent (64)
- settings.xml (59)
- 弹出窗口 (56)
- applicationcontextaware (72)
- my.cnf (73)
- httpsession (62)
- pkcs7 (62)
- session cookie (63)
- java 生成uuid (58)
- could not initialize class (58)
- beanpropertyrowmapper (58)
- word空格下划线不显示 (73)
- jar文件 (60)
- jsp内置对象 (58)
- makefile编写规则 (58)