V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Distributions
Ubuntu
Fedora
CentOS
中文资源站
网易开源镜像站
cwbsw
V2EX  ›  Linux

自组 Linux Server 奇怪问题,请大家帮忙诊断

  •  
  •   cwbsw · 2022-05-21 22:18:28 +08:00 · 3283 次点击
    这是一个创建于 951 天前的主题,其中的信息可能已经有所发展或是发生改变。

    用淘汰下来的配件装了一台机器,系统是 Debian 13 ,配置了文件下载、共享等等服务,一直以来运行都挺好的。 前段时间想着增加硬盘扩下容,向新硬盘用 rsync 传输了大概 3T 的数据,都是 PT 保种用的,PT 软件用的是 Transmission ,虽然迁移数据不要求重新校验,但保险起见还是都校验了,结果发现有十几个种子校验不通过,手动复制后重新校验均通过,可见源硬盘上的数据是完整的。

    于是第一个问题:文件传输出错是源硬盘读取错误、新硬盘写入错误、内存错误、软件错误还是其它原因?如何排查?

    接下来就比较奇怪了。因为怀疑内存出错,于是就进 BIOS 取消了 XMP ,然后 U 盘引导跑 memtest86 ,跑了一个多小时没有发现错误,重启后继续用 Transmission 校验,然后过了一段时间后居然就死机了,SSH 断开,网络也 ping 不通,显示器画面冻住无法切换控制台,只能强制关机,应该是内核崩了。此故障可以稳定复现,开机后待机一晚上也没事,编译软件 ffmpeg 转码也正常,但是只要 Transmission 校验,一段时间之后必然死机,死机时正在校验的种子没有发现有规律。试过 BIOS 恢复默认、重装系统,无法修复。这个故障我真的很蒙圈,感觉无处下手,还请大家帮忙诊断。

    第 1 条附言  ·  2022-05-23 10:35:31 +08:00
    kernel panic 时的输出:
    22 条回复    2022-05-25 17:22:38 +08:00
    233373
        1
    233373  
       2022-05-21 22:32:11 +08:00
    Debian 有 13 了吗?不是 11 吗
    cwbsw
        2
    cwbsw  
    OP
       2022-05-21 22:33:33 +08:00
    @233373 哈哈,笔误。
    cathiabi
        3
    cathiabi  
       2022-05-21 22:36:27 +08:00
    找一下系统日志,看看死机前发生了什么。校验的话,不知道文件传输是否跨了操作系统 /文件系统。
    min
        4
    min  
       2022-05-21 22:37:38 +08:00
    换全部内存,或者拔条子排除
    cev2
        5
    cev2  
       2022-05-21 22:46:35 +08:00
    建议先排除硬件再排除软件,如果是我我会选择 AIDA64 单烤 FPU ,同时观察 12V 供电(是否过 /欠压)和散热是否有问题。
    powergx
        6
    powergx  
       2022-05-21 22:53:18 +08:00
    用 ecc 内存看看
    chenxytw
        7
    chenxytw  
       2022-05-21 22:54:51 +08:00
    我上次遇到类似的奇怪的问题(特定用户跑特定的程序必现死机...)是 CPU 坏了...
    cwbsw
        8
    cwbsw  
    OP
       2022-05-21 22:54:52 +08:00
    @cathiabi 日志没记录到有价值的东西。是本机传输,每个硬盘是单独的文件系统。

    @min
    @cev2 所以说还是 CPU/内存的嫌疑比较大么。
    cwbsw
        9
    cwbsw  
    OP
       2022-05-21 23:04:12 +08:00
    @powergx 意思传输错误是内存出错的锅吗?但就算是非 ECC ,复制个几 T 文件就坏十几个,这概率有点高啊。

    @chenxytw 希望能通过 BIOS 设置抢救一下……毕竟高负载下还是正常的。
    gengchun
        10
    gengchun  
       2022-05-22 00:11:54 +08:00
    试一下 magic sysreq 看看。最好看一下 top ,首先要排除 transmission 进程的问题,最好看看能不能升级一下,或者启动不要校验。
    documentzhangx66
        11
    documentzhangx66  
       2022-05-22 00:18:05 +08:00
    1.memtest86 ,跑了一个多小时没有发现错误????

    memtest86 不是这样用的。memtest86 ,以 pass 作为一次轮回。一次 pass 表示跑完一轮所有的内存位置。新买的内存,至少要跑一次 pass 来检查是否有坏块。洋垃圾二手内存一般至少跑 2 - 3 个 pass 。

    2.服务器是否为 ECC 或 RECC 内存?

    3.磁盘用 HD Tune Pro 跑过全盘检查没?
    Cooky
        12
    Cooky  
       2022-05-22 00:24:09 +08:00
    用 md5sum sha1sum 之类的持续校验几个大文件试试?
    seers
        13
    seers  
       2022-05-22 00:25:54 +08:00 via Android
    内存问题概率大
    kuichieh
        14
    kuichieh  
       2022-05-22 01:19:48 +08:00 via Android
    是不是早期的 Ryzen 平台?
    wsseo
        15
    wsseo  
       2022-05-22 05:38:11 +08:00
    插了几根内存?一根根拔下来,直到正常。
    flynaj
        16
    flynaj  
       2022-05-23 00:18:08 +08:00 via Android
    内存问题,我的 Windows 10 差不多一个星期蓝屏一次,memtest86-pro 跑下来没有故障。换了内存才好。软件测试内存不靠谱,除非是明显故障。
    cwbsw
        17
    cwbsw  
    OP
       2022-05-23 10:40:04 +08:00
    @documentzhangx66
    第一次跑了 2.5pass ,昨天又跑了 4pass ,没有出错。
    非 ECC 。
    现在机械盘全拔了只留下 SSD ,换 qBittorrent 开始下载,结果还没下完又崩了。
    cwbsw
        18
    cwbsw  
    OP
       2022-05-23 10:42:47 +08:00
    @Cooky 现在不用校验了,在 BT 下载途中就崩了。
    documentzhangx66
        19
    documentzhangx66  
       2022-05-23 15:51:34 +08:00
    跑个烤机试试,分设备跑。

    比如烤内存、烤 CPU 、烤硬盘、烤网卡、烤显卡试试,总有一个部件烤着烤着就死机。
    yanqiyu
        20
    yanqiyu  
       2022-05-23 16:32:46 +08:00
    先打开 kdump 看看更完整的崩溃的 dmesg ?不过考虑到 kernel panic 可能性也就硬件故障和驱动 bug 两种可能性了
    yanqiyu
        21
    yanqiyu  
       2022-05-23 16:37:33 +08:00
    我之前遇到过类似的问题,下载 IO 高负债就会崩溃,一开始也怀疑是内存问题,但是因为内存是 ECC 内存&kdump 没看到 EDAC 报错,并且错误是在 iommu 的驱动上的 BUG(),更新了几个内核版本之后就消失了
    ToBeHacker
        22
    ToBeHacker  
       2022-05-25 17:22:38 +08:00
    可能是内存问题,这个不好查。之前我 Windows 老 kernel panic ,把内存条拔下来换下位置好了。服务器还是用用 recc 的内存条更稳当些。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2795 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 13:30 · PVG 21:30 · LAX 05:30 · JFK 08:30
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.