V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
CareyQ
V2EX  ›  程序员

PVE 隔一天自动重启,卡死断流,有人遇到过吗

  •  
  •   CareyQ · 191 天前 · 2320 次点击
    这是一个创建于 191 天前的主题,其中的信息可能已经有所发展或是发生改变。

    硬件:CPU 5600G + 微星 A520M-A-PRO 平台:PVE 8

    正常运行着,大概隔一天就访问不了,路由器中也不见了设备,直接插屏幕访问也卡死。必须强制关机,再开机才能用。查看系统日志,总有一条 Reboot 。结合上文也看不出啥问题,每次 Reboot 上面的内容都不一样。

    尝试过加微码,关闭自动更新,关闭直通等操作。

    只运行了 3 个 LCX ,CPU 温度啥的也正常,资源占用也不高,实在是没招了。有大佬知道遇到过吗?

    May 27 00:44:43 pve kernel: Code: fe 7f 44 1f 80 c5 f8 77 c3 80 3d c4 ad a0 00 01 75 0d c5 f9 ef c0 48 81 fb 00 00 00 02 73 13 48 89 d9 48 c1 e9 03 48 83 e3 07 <f3> 48 ab e9 65 fe ff ff c5 fe 7f 07 48 89 fe 48 83 c7 20 48 83 e7
    May 27 00:44:43 pve kernel: RSP: 002b:000000c00013cf98 EFLAGS: 00010246
    May 27 00:44:43 pve kernel: RAX: 0000000000000000 RBX: 0000000000000000 RCX: 000000000000a000
    May 27 00:44:43 pve kernel: RDX: 000000c000648000 RSI: 0000000000000000 RDI: 000000c00069a000
    May 27 00:44:43 pve kernel: RBP: 000000c00013cff8 R08: 00000000000a2000 R09: 000000c000648000
    May 27 00:44:43 pve kernel: R10: 0000000000000051 R11: 00007f2c528eb000 R12: 00000000006e9f01
    May 27 00:44:43 pve kernel: R13: 0000000000df3320 R14: 000000c000200680 R15: 0000000000000003
    May 27 00:44:43 pve kernel:  </TASK>
    May 27 00:44:43 pve kernel: BUG: Bad page state in process mysqld_exporter  pfn:3ea78d
    -- Reboot --
    May 27 01:35:20 pve kernel: Linux version 6.8.4-3-pve (build@proxmox) (gcc (Debian 12.2.0-14) 12.2.0, GNU ld (GNU Binutils for Debian) 2.40) #1 SMP PREEMPT_DYNAMIC PMX 6.8.4-3 (2024-05-02T11:55Z) ()
    
    May 24 13:17:01 pve CRON[353689]: (root) CMD (cd / && run-parts --report /etc/cron.hourly)
    May 24 13:17:01 pve CRON[353688]: pam_unix(cron:session): session closed for user root
    May 24 14:17:01 pve CRON[377395]: pam_unix(cron:session): session opened for user root(uid=0) by (uid=0)
    May 24 14:17:01 pve CRON[377396]: (root) CMD (cd / && run-parts --report /etc/cron.hourly)
    May 24 14:17:01 pve CRON[377395]: pam_unix(cron:session): session closed for user root
    May 24 15:17:01 pve CRON[401123]: pam_unix(cron:session): session opened for user root(uid=0) by (uid=0)
    May 24 15:17:01 pve CRON[401124]: (root) CMD (cd / && run-parts --report /etc/cron.hourly)
    May 24 15:17:01 pve CRON[401123]: pam_unix(cron:session): session closed for user root
    May 24 16:17:01 pve CRON[424903]: pam_unix(cron:session): session opened for user root(uid=0) by (uid=0)
    May 24 16:17:01 pve CRON[424904]: (root) CMD (cd / && run-parts --report /etc/cron.hourly)
    May 24 16:17:01 pve CRON[424903]: pam_unix(cron:session): session closed for user root
    -- Reboot --
    May 25 00:11:59 pve kernel: Linux version 6.8.4-3-pve (build@proxmox) (gcc (Debian 12.2.0-14) 12.2.0, GNU ld (GNU Binutils for Debian) 2.40) #1 SMP PREEMPT_DYNAMIC PMX 6.8.4-3 (2024-05-02T11:55Z) ()
    
    24 条回复    2024-11-11 10:02:58 +08:00
    z1WhpL268TWE173O
        1
    z1WhpL268TWE173O  
       190 天前
    我的第三次 PVE 又有问题了, 这次是连不上网, 重启也解决不了问题, 估计最新这个版本有重大 bug.
    white149
        2
    white149  
       190 天前 via Android
    有过类似情况是内存报错,我当时是降低频率或只插两条
    geekvcn
        3
    geekvcn  
       190 天前 via Android
    服务器内存别超频,别开 xmp ,内存默认频率电压加到 1.35V 试试。

    这里科普下 AMD APU 只有 PRO 版支持纯 ECC 内存,AMD 非 APU 全部版本除了 APU 阉割核显的版本比如 5500 ,都支持纯 ECC 内存。

    AMD 非 APU 平台做服务器的有条件的建议上华擎的主板上纯 ECC 内存,服务器可以少很多莫名其妙的问题,华擎 AMD 主板基本都支持纯 ECC 。

    DDR4 非 ECC 内存做服务器的,一律建议非 XMP 默频率电压加到 1.35v 。

    DDR5 非 ECC 内存做服务器的,一律建议用海力士 Adie 非常稳定,而且有内存容量需求的 Adie 插四根更稳定,镁光三星最好不要用,插四根不稳定除非降频。DDR5 24G 48G Mdie 挑主板适配,注意兼容性,新主板新 BIOS 基本没问题。
    Radeon
        4
    Radeon  
       190 天前
    memtest86 跑过没有?
    ruidoBlanco
        5
    ruidoBlanco  
       190 天前
    沒遇到過。當然我目前還是 6.5 內核,uptime 70 天了,沒事不升級不重啟。

    話說,考慮過關掉 mysqld exporter 沒?
    00oo00
        6
    00oo00  
       190 天前 via Android
    换内存可以试试
    ltkun
        7
    ltkun  
       190 天前 via Android
    有台 5700u 还是天钡的 插了 32x2 的笔记本 ddr4 没啥问题也是 pve8 稳定不稳定和内存没多大关系
    wsbqdyhm
        8
    wsbqdyhm  
       190 天前
    肯定是硬件问题
    totoro625
        9
    totoro625  
       190 天前
    遇到过一次内存问题,换了大厂内存解决的
    PS:可以先安装 Windows 一段时间,并长期开机,跑几遍测试
    lazyyz
        10
    lazyyz  
       190 天前
    5600G PVE 8.2.2 内核 6.8.4-3 没有遇到这个情况
    lazyyz
        11
    lazyyz  
       190 天前
    不过去年在用 7 的时候,遇到过死机情况是因为内存问题,建议 OP 跑一下 memtest86 测试
    yc8332
        12
    yc8332  
       190 天前
    正常不是内存就是硬盘,用大厂的产品。。May 27 00:44:43 pve kernel: BUG: Bad page state in process mysqld_exporter pfn:3ea78d 这个看起来是内存问题
    KyonCN
        13
    KyonCN  
       190 天前 via iPhone
    一样的问题,不过我开了 sriov 。
    我觉得是 bios 的问题。目前关了 c states 在测试
    yinmin
        14
    yinmin  
       190 天前 via iPhone
    主机或虚拟机有没有对 internet 开放的服务?所有公网服务断开几天,看看有没有死机改善。
    yinmin
        15
    yinmin  
       190 天前 via iPhone
    对于某些内存条,黑客攻击 http/https 服务,使用特殊包能造成死机(可能与 ddr4/ddr5 内存 bit 翻转有关)
    qW7bo2FbzbC0
        16
    qW7bo2FbzbC0  
       190 天前
    B660 也约到开机一段时间死机的问题,寄给华硕,他们检查了两次说是内存模块有问题
    TimPeake
        17
    TimPeake  
       190 天前
    想起了我 N5105 pve 里装 istore, 网口疯狂 up/down 切换,物理机直装再也没出现这问题。
    Mithril
        18
    Mithril  
       190 天前
    之前说过了,8.1 的内核是有 bug 的,负载高的时候会直接卡死。
    但我是虚拟机卡死,并不是 PVE 。你如果是 8.1 可以更新一下试试。
    children009
        19
    children009  
       190 天前
    内存是大概率的问题,遇到 1 个群友,换了内存就没问题了
    mingge2333
        20
    mingge2333  
       190 天前
    pve 遇到过类似的问题, 系统问题很棘手,即便是修复了这个问题, 难保还会遇到其他问题, 后来切换 VMware 就没问题了
    CareyQ
        21
    CareyQ  
    OP
       190 天前
    @children009 #19 群能加吗,搞这个,一直找不到组织
    CareyQ
        22
    CareyQ  
    OP
       190 天前
    @mingge2333 #20 我这段时间,一度想换 ESXI ,晚上我先试试上面几位老哥说的方法吧
    CareyQ
        23
    CareyQ  
    OP
       190 天前
    @Mithril #18 是 8.2.2 版本的了,我晚上先试试上门几位老哥的方法看看吧
    durianY
        24
    durianY  
       22 天前
    同样是这样,你之后解决了吗
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1194 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 18:36 · PVG 02:36 · LAX 10:36 · JFK 13:36
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.