生产环境的JVM进程经常被运维报告有OOM的情况,运维的描述是,内存一直在缓慢增长,1-2天就会出现OOM的情况。因为已经严重影响到客户的使用,所以采取由运维定时监控,与客户交流,开发负责排查问题的策略。
Step1:测试环境复现问题
由于开发是没权限进入生产环境的,要高效率解决问题,必须能在测试环境复现。查看生产环境的日志,确认容器出发OOM的接口,然后使用Jmeter
在测试环境压测该接口,发生OOM的情况,问题能够复现。
Step2: 在测试环境复现
在测试环境建一个和生产环境规格一样的容器,使用Jmeter
压测,确认问题能复现。
大约 11 分钟