我维护的一个软件在一个客户那每隔 2、3 天就自动退出一次,没有产生 core 文件,刚开始以为是新版本问题,后来回退到旧版本也自动退出,客户在现场排查运行环境问题,但估计程序也有一部分问题,请教各位大佬:
客户使用“ egrep -i -r 'kill' /var/log ”和“ dmesg | egrep -i -B50 'killed process'”没有结果,使用“ egrep -i -r 'aicid' /var/log ”命令得到以下结果( aicid 是部分程序名):
/var/log/audit/audit.log.3:type=ANOM_ABEND msg=audit(1511928861.267:5624442): auid=555 uid=555 gid=666 ses=923844 pid=6943 comm="aicidmdb_nattra" sig=7
/var/log/audit/audit.log.3:type=ANOM_ABEND msg=audit(1511928861.267:5624445): auid=555 uid=555 gid=666 ses=923844 pid=46407 comm="aicidmdb_nattra" sig=7
/var/log/audit/audit.log.3:type=ANOM_ABEND msg=audit(1511928861.267:5624446): auid=555 uid=555 gid=666 ses=923844 pid=15017 comm="aicidmdb_nattra" sig=7
type 为 ANOM_ABEND,Redhat 官网说“ ANOM_ABEND[a] Triggered when a processes ends abnormally (with a signal that could cause a core dump, if enabled)”,说明确实程序异常退出了。
但后面的 sig=7 看不懂,哪位大佬讲下什么意思?
还有一个问题是客户使用 dstat 命令发现网络收发包比 10:1 (如下图),这个会导致程序退出吗?(这台服务器上部署了 2 个多线程程序,总线程数约为 700-1000 )
https://wx1.sinaimg.cn/mw690/006RJudPly1fm8c0fwaymj30ka0dadg0.jpg
( https://wx1.sinaimg.cn/mw690/006RJudPly1fm8c0fwaymj30ka0dadg0.jpg)
!( https://wx1.sinaimg.cn/mw690/006RJudPly1fm8c0fwaymj30ka0dadg0.jpg)
<img src="https://ws2.sinaimg.cn/large/006RJudPly1fm8btwxbwej30ka0dadg0.jpg" alt=" bg2.jpg"/>
https://ws2.sinaimg.cn/large/006RJudPly1fm8btwxbwej30ka0dadg0.jpg
1
afpro 2017-12-08 01:03:37 +08:00
azure 上 一个进程如果长时间占用几乎所有内存 也会被杀掉
|
2
jimy1 OP 谢谢 afpro 回复和关注
这个程序运行在 Redhat6.1 上的, 物理机,64G 内存,CPU 占用在 500%--1000%,6 核 4 核心的 CPU 是不是有可能是因为占用 CPU 过高被系统杀掉了,但是 egrep 搜索 /var/log 也没看到相关日志呢 |
3
afpro 2017-12-08 18:11:50 +08:00 1
signal=7 是 SIGBUS 通常是内存访问的锅
|