V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Distributions
Ubuntu
Fedora
CentOS
中文资源站
网易开源镜像站
Osk
V2EX  ›  Linux

小机器跑 linux 莫名其妙地死机, 一脸迷茫

  •  2
     
  •   Osk · 2016-10-31 19:16:38 +08:00 · 7399 次点击
    这是一个创建于 2945 天前的主题,其中的信息可能已经有所发展或是发生改变。

    https://www.v2ex.com/t/312648 个帖子, 买了占美 5005u 的小机器,跑 Arch,很好,发热也不高,但最近发现要莫名其妙地死机,死得很奇葩。

    1,把网线拔给其它计算机用了一段时间,再插回去,网卡灯不亮,死了,Num Lock 都切换不了。

    2,没拨网线,关了路由器,早上出门,晚上回来,死了,

    3,早上拔了网线,晚上回家,死了

    4,同第二次

    共同情况: 断开网络,网卡灯不亮,死机后机身微热

    故障不易复现...断网一会儿不会遇到这个问题

    其它情况: 有网络的情况下,最长连续 5 天不死机,有网络有负载时,从未死机。机器不存在过热问题。

    死机后,没有任何日志什么的,故障又不易复现,简直头大。。。

    不知道大家有什么找 bug 的建议,谢谢了!

    第 1 条附言  ·  2016-11-01 19:09:37 +08:00
    在 Windows 下测试了一天没出问题,感觉 Windows 也不太可能出这问题,因为全新安装的 Windows 开机一天什么不做机器温热,而跑 Arch 一天什么不做,外壳几乎是冰凉的 。。囧

    现在怀疑可能是 linux 的 pm 触发的问题了,我开了 pci 设备的 pm ,所以机器很凉快。现在关了 pci pm 试试看。

    看系统 pm 状态用的 powertop 程序
    第 2 条附言  ·  2016-11-20 22:03:58 +08:00
    感谢大家的回复,最后的结果:关闭 pci 设备的 pm 就没再死机了。
    27 条回复    2018-07-09 21:50:03 +08:00
    ianzhou233
        1
    ianzhou233  
       2016-10-31 19:28:04 +08:00 via Android
    会是固件问题么?或者有灰什么的。擦擦内存和固态的金手指试试
    ianzhou233
        2
    ianzhou233  
       2016-10-31 19:28:59 +08:00 via Android
    固件→硬件
    Osk
        3
    Osk  
    OP
       2016-10-31 19:34:29 +08:00
    @ianzhou233 全新的,我也从不用手接触金手指
    Osk
        4
    Osk  
    OP
       2016-10-31 19:39:21 +08:00
    r8169: can't disable ASPM; OS doesn't have ASPM control

    dmesg 中有这个输出,不知道是不是 ASPM 的锅
    longear
        5
    longear  
       2016-10-31 19:55:56 +08:00
    赶快申请换机,就说不定期死机,要求必须更换,自己记住主板的特征,可以用刀在主板的侧边做个记号(不是板面上),只有自己记得,好用来区分回来的是新主板还原来的。
    这些无风扇主机的主板品控就那么回事,虽然用料还可以,那也没用。
    reus
        6
    reus  
       2016-10-31 20:36:14 +08:00
    硬件问题。你看那些跑 linux 的路由,都没这样的。肯定是硬件问题。
    xdeng
        7
    xdeng  
       2016-10-31 20:38:55 +08:00
    驱动没装好吧
    shijingshijing
        8
    shijingshijing  
       2016-10-31 22:44:08 +08:00
    无风扇还是不现实的,稍微有点空气对流温度就会下降很多,最好的选择是静音风扇,然后定期清灰。
    klesh
        9
    klesh  
       2016-10-31 22:54:28 +08:00
    硬件问题+1
    alcarl
        10
    alcarl  
       2016-11-01 00:04:09 +08:00
    有网时不死机?
    1 、可以考虑换个其他 linux 或者 windows 观测一下。、
    2 、另外可以尝试 bios 禁用网卡,看看死不死。
    3 、也有可能是待机醒不过来了,可以在 bios 关掉一些电源管理选项试一试。
    qceytzn
        11
    qceytzn  
       2016-11-01 01:26:22 +08:00
    @shijingshijing 我家的占美买回来一年了,用到现在好好的,包括夏天里摸着有点烫也没事
    zzutmebwd
        12
    zzutmebwd  
       2016-11-01 02:28:07 +08:00
    @shijingshijing 你真的用过无风扇主机吗?无意引战,只是觉得没有用过就没有发言权。我的笔记本用的 core m5 , nas 用的 N3150 ,均无风扇,从没有出过问题。
    floopy
        13
    floopy  
       2016-11-01 08:04:12 +08:00
    @Osk 我也买的占美的小主机,遇到过同样的问题。你可以尝试升级下内核。
    floopy
        14
    floopy  
       2016-11-01 08:05:54 +08:00
    @Osk 怀疑是网卡驱动问题,最好看下
    floopy
        15
    floopy  
       2016-11-01 08:07:14 +08:00
    日志
    Osk
        16
    Osk  
    OP
       2016-11-01 09:29:48 +08:00 via Android
    @floopy 日志回家再贴,现在发现是拔网线后就死机,晚上闲置一晚,早上拔网线后,系统日志就断了,没有 Link down 这条记录。
    Arch 内核目前是 4.8 。

    @alcarl 没有设置待机, bios 禁不了网卡,正在 Windows 10 测试看看。
    mko0okmko0
        17
    mko0okmko0  
       2016-11-01 09:31:32 +08:00
    重编内核,求快速可直接复制这个 linux 救援 CD 内的 kernel.config 去编译,
    www.system-rescue-cd.org/SystemRescueCd_Homepage
    也可以复制这个设定后,再次编辑参数,把核心侦错的项目都打勾,尤其是讯息显示的部分.
    换完核心后,你再次死机就有很大的机会看到问题点的讯息.

    有时候不是温度问题,而是硬体,韧体,有根本上的瑕疵,而你触发了.
    shijingshijing
        18
    shijingshijing  
       2016-11-01 09:40:07 +08:00
    @zzutmebwd 家里两三个 ATOM , hp 的 T550 改造了一个,自己买配件组装了一个,都热得烫手。硬盘温度超过 60 度寿命就会大幅下降,而且这玩意儿毕竟性能有限,多跑几个爬虫就不行了。帮别人组装过真正的 0 分贝主机,用的海韵 X400FL 电源,无风扇设计, CPU 散热器用的 Zalman FX100 ,上的 i7 2600k ,根本压不住,游戏半个小时 CPU 温度就到了 85 的样子。加了个 500 RPM 的 12 寸风扇侧吹,温度马上降到 58 度。目前来看,完全无风扇只能做到可用,温度太高还是有很大的危害的,所以我说稍微加上一个低转速风扇让空气流动一下就很不一样。

    我现在自己搭了一个服务器,用的联想 T168 老箱子,低功耗 Xeon E3-1260L , 1 个 SSD , 1 个 2T 硬盘,挂爬虫挂 NAS ,待机在 30w 的样子,全速在 74w 的样子, CPU 散热器用的是热管 + 低速大风扇,前面板挂了个 12 寸风扇进风,刚好对准硬盘吹。整机噪音非常小,几乎听不见。

    其实功耗和温度有两个隐形的死角我们往往不会注意,第一是电源一定要用转换率高的 80plus 电源,特别是在全速运行的时候, 80plus platinum 电源能达到 90%+的电能转换率,一年能节省不少电费;第二就是 intel 的 PCH 芯片组其实温度也不低,我试过了,从 H55 开始一直到现在的 Z170 ,没有不烫手的,我硬盘少,硬盘间缝隙大,前面板的大风扇吹的风能正对着 PCH 上面的散热片吹,即使是这样,我把原来的小散热片也改成了大铝片。

    终极的解决方案,我认为还是风道+低转速风扇+大散热片,噪音,灰尘,散热都能得到有效解决。
    Osk
        19
    Osk  
    OP
       2016-11-01 13:37:16 +08:00 via Android
    @mko0okmko0 谢谢,我也准备开启 kdump 看看,但是死机时显示器关闭
    Osk
        20
    Osk  
    OP
       2016-11-01 13:41:14 +08:00 via Android
    @mko0okmko0 死机时显示器关闭了,黑屏状态怎么办?
    mko0okmko0
        21
    mko0okmko0  
       2016-11-01 17:32:46 +08:00
    知道有持续 LOG 到硬碟的选项和设定但没用过,所以无法回答你.
    我有时候被当机搞到火大
    就直接把 SystemRescueCd 内的核心跟模组档案
    直接复制到我的主机内用这个救援核心去跑
    还蛮稳的,
    他码的自己编的没有这个稳= =
    raptor
        22
    raptor  
       2016-11-01 17:57:34 +08:00
    妥妥的硬件稳定性差
    Osk
        23
    Osk  
    OP
       2016-11-01 19:11:11 +08:00 via Android
    @mko0okmko0 我会试试看,谢谢。
    Osk
        24
    Osk  
    OP
       2016-11-20 22:02:26 +08:00 via Android
    @mko0okmko0 关闭 PCI 设备的 PM 后,故障没再出现了
    snip
        25
    snip  
       2017-04-09 08:16:33 +08:00
    @Osk 怎么关闭 pci 设备的 pm ?遇到了同样的问题
    Osk
        26
    Osk  
    OP
       2017-04-09 10:47:42 +08:00   ❤️ 1
    @snip 不知道你的 CPU 是什么型号的?能不能复现死机或者找到死机时的共同特点呢?

    分享下我当时的思路:
    1. 更新 cpu microcode , 有些 CPU 有 bug ,最好更新
    2. 使用 powertop 命令,切换到 Tunable 选项卡下,注意看看 网卡和 PCI 设备 PM 是否为 bad ,比如我的(关闭 PCI PM 后没有 bug 时):

    Bad Runtime PM for PCI Device Realtek Semiconductor ... PCI Express Gigabit Ethernet Controller

    之前是我将笔记本的一些 PM 设置复制过去,结果就遇到了本贴描述的 bug ,不知道是谁的锅,主要是这个 udev 规则开启了所有 PCI 设备的 PM :
    ACTION=="add", SUBSYSTEM=="pci", ATTR{power/control}="auto"

    在 powertop 的 Tunable 选项卡里面如果不确定的话,先将 PCI 设备的 PM 状态调成 bad 观察下,这些设置重启会还原成系统默认的,不必担心

    还有就是据说一些新的赛扬 /奔腾 SoC 跑 Linux 并使用睡眠的话确实是有问题的,具体我也不清楚,没用过,但是这些 SoC 似乎 s3 睡眠是有点不一样的,在 Windows 里面, CherryTrail SoC 通过 powercfg /a 命令显示不支持 s3 睡眠,转而使用 Microsoft 所谓的“现代待机”了,不知道这是不是和硬件固件有关还是 Windows 自己搞的新一套
    Midnight
        27
    Midnight  
       2018-07-09 21:50:03 +08:00
    我也想搞个经济型的 Linux 机器放家里充当服务器,选来选去一直没什么中意的
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1074 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 19:16 · PVG 03:16 · LAX 11:16 · JFK 14:16
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.