1.服务器运行快一年了,最近一个月内,空闲时 CPU 突然飙升,然后死机。
2.添加了 crash log ,死机重启后并没有日志。
3.系统是 CentOS Linux 7 ,Kernel: Linux 3.10.0-1160.71.1.el7.x86_64 。
4.服务器是一台 CDH6.3.2 数据节点,配置 24C128G 。
1
msclelo 2023-02-21 09:26:54 +08:00 via iPhone
1. 开启 coredump ,必要时 gdb 分析日志,对技术要求高一点
2. 检查下系统日志,看能不能找到些蛛丝马迹 3. 通过脚本获取 cpu 、内存占用信息,排查下是不是哪个进程导致(这种不一定有效,特别是突发情况,很难捕捉和定位到具体根因) 4. 重装大法 |
2
wuruxu 2023-02-21 09:31:37 +08:00
整个监控脚本,CPU 飙升时,运行 top 看看是那个软件搞事情,然后对症下药
|
4
pupboss 2023-02-21 09:39:27 +08:00
CPU 飙升有时候是磁盘 IO 等待导致的,你这个情况可以重点排查磁盘
|
6
tlxxzj 2023-02-21 09:44:45 +08:00
对网络流量监控看看,可能是被挖矿了
|
8
neoacj1 2023-02-21 09:45:53 +08:00
找块新硬盘 dd 过去,排除硬盘问题
|
10
duzhor 2023-02-21 09:54:02 +08:00
你都说是 hadoop 节点了。cpu 、内存、磁盘,不外乎这几个导致的,大部分情况可能是内存频繁 OOM 、磁盘读写过高而引起,写个脚本记录 top10 进程,总能找到蛛丝马迹
|
11
Eytoyes 2023-02-21 09:56:20 +08:00 1
物理服务器可以跑硬件诊断看看,排除硬件问题
遇到过一个问题和你类似,也是不定期卡死,高负载、低负载都会死,后来跑诊断到 cpu 直接卡死,400 来换了个 CPU 之后故障消失 |
13
fengfisher3 2023-02-21 10:06:10 +08:00
如果进程占用系统层面的问题都排查了。那就可能是操作系统(重装系统)或硬件的问题大概率是磁盘。Eytoyes 说得对。
|
14
fengfisher3 2023-02-21 10:08:17 +08:00
不过,如果你是最近一个月才出现的问题,按理不应该是系统和硬件的呢。出问题前有没有做过什么调整,包括搬动位置,或者是修改过什么配置等,先从有变动的地方去定位问题。
|
15
Wdafff OP @fengfisher3 #14 硬件、系统没有改动,唯一改动的就是任务代码,但是代码有问题也不应该就影响一台服务器
|
16
Eytoyes 2023-02-21 10:18:09 +08:00
@Wdafff #12 服务器 boot 时选择 Hardware Diagnostics 功能,全面检测耗时较长,建议在允许服务器长时间下线的情况下再去操作
|
17
bitdepth 2023-02-21 11:38:43 +08:00
如果是 hardware 問題,你這個 server 沒有 BMC 嗎?
|
18
LXGMAX 2023-02-21 14:19:01 +08:00
遇到过硬盘坏块导致系统动不了的,可以扫磁盘看看
|
19
la2la 2023-02-21 14:27:03 +08:00
CDH 数据节点,直接下线重做系统
|